西安广告网站制作比较好的网页网站设计
文章目录
- 模型与环境准备
 - 文档分析
 - 源码解读
 - 模型训练及推理方式
 - 进阶:CPU与显存的切换
 - 进阶:多卡数据并行训练
 - 🔑 DDP 训练过程核心步骤
 - 🚫 DDP 不适用于模型并行
 - ⚖️ DDP vs. Model Parallelism
 - ⚙️ 解决大模型训练的推荐方法
 
🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容

模型与环境准备
首先从huggingface上下载Qwen2或者Qwen2.5模型到本地,我这里选择的是0.5或是1.5b大小的模型。DeepSeek开源的其他模型都太大了,只有基于Qwen蒸馏得到的模型较小可以用来训练。所以虽然说的是Qwen/DeepSeek模型,本质上都是Qwen模型。

注意虽然这些模型都是生成式模型,但是由于它们都是基于transformer架构,所以本质上和Bert等模型一样,是可以训练它们用来做传统的文本分类的。
我们
