AI大模型搭建指南:硬件选型与训练部署要点

一、业务需求与场景定义

　　建立大模型的首要步骤是明晰任务类型，若是以模型预训练当作目标，就要着重于高算力硬件，要是仅仅用于推理或者微调，那么对于延迟以及并发能力的要求就更高。常见的应用场景涵盖智能客服、代码生成、文本摘要等，不同的场景对于模型参数量、上下文长度以及生成速度有着非常明显的差异。比如，面向代码补全的模型需要起码8192 token的上下文窗口，而智能问答系统则要求首Token延迟低于500毫秒。如按照预估的并发用户数，也就是100人同时进行使用的情况，推理端必须配置充足的显存以及网络带宽。

　　K1X1 4090（具备4GB亚存）能够满足推理所需，然而0/1亿参数的混合专家模型（比如-V3，其总参数为671B，激活参数为37B）则至少需要4张RTX 4090（总计96GB显存）或者2张A100 80GB。训练具备700亿参数的模型之际，典型的配置是8张 A100 80GB GPU，这8张GPU搭配2颗Intel Xeon 8488C处理器，这2颗处理器一共有56个核心，还配备有512GB DDR5内存以及4TB NVMe固态硬盘。在国产化的场景当中，可以选用华为昇腾910B，它的FP16算力是320，单卡显存为64GB，8卡互联的情况下能够训练千亿级别的模型。网络这一块，训练集群要配置那种的或者RoCE网络，目的在于把参数同步时产生的延迟给降低。

三、模型与框架选择

　　当下主流的开源大模型涵盖了-V3、Qwen2.5-72B、LLaMA-3-70B等，-V3运用MoE架构，其总参数是671B，激活参数为37B，训练消耗达到278万H800 GPU ☎小时，Qwen2.5-72B属于密集模型，进行推理至少需要140GB显存（能够使用4张RTX 4090），在框架方面，2.3搭配或者-LM能够达成模型并行训练。在进行微调这一特定场景区间之内，LoRA这样一种方法能够把显存所占用的量降低到原本模型的百分之三十。针对于量化推理这种情况而言，AWQ或者GPTQ算法可以把模型权重压缩成为4-bit，并且精度方面的损失被控制在百分之一以内。

四、数据准备与处理

　　训练的高质量数据要达到万亿字符的级别才行，就拿训练130亿参数模型来说，至少得有1.2万亿token☐的文本数据，数据来源涵盖公开语料，像The Pile数据集，它包含825GB文本，还有行业文档以及内部知识库，预处理流程有去重，采用算法，相似度阈值设为0.7，接着清洗，要过滤那些非自然语言字符，再进行分词，采用Byte Pair，词表大小是32000，最后进行隐私脱敏，通过正则匹配手机号、身份证号。更新呈现增量状态的场景之时，要去设计那种向量数据库，就好比是这样的，用来支撑每日都会增加的文档能够进行实时索引，切片的长度给出的建议是512个token，重叠的比率是10%。

五、模型训练流程

　　假设处于预训练时期，拿着着700亿参数的模型当作例子，是在1024张那种A100 80GB规格的GPU上开展训练的，训练1.8万亿token大约需要54天时间，其总的计算量大概是2.1e24 FLOPs。开展训练的时候需要去配置学习率预热，也就是在前3750步的时候要从0开始线性增长直至3e-4，又需具备余弦衰减的特性以及梯度裁剪，梯度裁剪的最大范数设定为1.0。每一次保存检查点的时候都要消耗15分钟时间，并且会占用2.8TB的存储。进行微调的阶段之时，运用的是100万条指令数据，于8张A100之上开展训练，历经3个epoch大约需要72小时，把学习率设定为2e-5，批次大小为128。在监督微调过后，能够进一步去采用直接偏好优化即DPO，不需要奖励模型便可以达成人类偏好的对齐，训练数据要求包含5万对“选中-拒绝”样本。

六、模型评估与性能指标

　　对其进行评估的时候，是需要涵盖多个不同维度的。其中，推理性能方面的指标包含有：首Token延迟，这个需要低于300毫秒；单Token生成时长，20毫秒/Token才算是合格的；最大并发数，单卡RTX 4090运行70B量化模型的时候能够达到8个并发。而准确率指标运用的是MMLU（5 shot）基准，70B模型应当要达到75%以上，且代码生成♡通过率需要超过70%。培训时期留意吞吐量，其典型数值是每张A100于每秒之际处理3800个token（模型规模为70B）。上下文长度的测试要去证实，模型在32k token输入之时，困惑度的上升幅度不超过5%。

七、模型部署与推理优化

　　部署方式能够选择本地一体机，要不然可以选云服务器。要是在本地进行部署的话，就得考虑功耗这方面的问题，还有散热，4张RTX 4090在满载的情况下功耗大概是1800瓦，还得配置4U机箱以及水冷系统。推理优化技术涵盖这些：1）存在连续批处理这种情况（吞吐量 Q 能够提升3至5倍）；2）有-2（注意力计算速度提高2倍，显存占用会减半）；3）包含张量并行（多卡之间的通信延迟需要低于10微秒）。定量规划提议W4A16（权重为4位，激活为16位），能够让70B模型的显存占用从140GB下降到35GB。针对实时性需求高的情形，可以部署vLLM框架，其技术能够把键值缓存内存碎片降低到1%以下。

八、安全与权限管理

　　有关数据安全这一方面，给出这样的建议，关键的部门要独立布置那种有着物理隔离的一体机。对于访问控制而言，要去施行基于角色的权限管理也就是RBAC，在最小权限的原则之下，普通的用户仅仅能够调用预先设置好的API，只有管理员才有资格去访问训练数据。全部的操作日志都需要留存最少180天，并且要定期去审计异常的调用情况比如同一IP在单日的请求超过5000次。模型输出要配置内容过滤层，依据敏感词库包含2000个禁用词汇以及正则规则进行实时拦截。联邦学习框架可用于隐私计算场景，各数据方上传的并非原始数据，而是梯度更新，差分隐私噪声系数设定为1.0。

　　借由上述八个环节所进行的系统规划，能够达成面向从零到一的大模型建树。于实际落地之际，要依据预算、算力以及数据规模来实施动态性的配置调整，建议首先借助70亿参数模型来验证流程，随后再逐步拓展至千亿级别。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议