BAT掀大模型“提效运动” 国产大模型训练效率大幅提升

封面新闻记者欧阳宏宇

在算力紧缺的背景下，如何提升大模型训练和推理的效率，并降低成本，成为业界关注的焦点。

11月23日，腾讯披露其混元大模型背后的自研机器学习框架Angel再次升级。升级后，该学习框架可支持单任务万卡级别超大规模训练，大模型训练效率提升至主流开源框架的2.6倍，千亿级大模型训练可节省50%算力成本。

大模型时代下，模型参数呈指数级增长，达到万亿级别，大模型逐渐从支持单一模态和任务发展为需要支持多种模态下的多种任务。该趋势下，大模型训练所需算力巨大，远超单个芯片的处理速度，而多卡分布式训练通信损耗巨大。如何提高硬件资源利用率，成为影响国产大模型技术发展和实用性的重要前提。

模型训练效率将决定其进化速度，也是BAT等厂商比拼的核心。就在不久前举行的第二十届中国计算机大会上，百度首席技术官王海峰就公开透露，从今年3月发布至今，文心大模型4.0训练算法效率已提升3.6倍；通过飞桨与文心的协同优化，周均训练有效率超过98%，推理性能提升50倍。

阿里云通义大模型则聚焦于规模定理，基于小模型数据分布、规则和配比，研究大规模参数规模下如何提升模型能力，并通过对底层灵骏集群的优化，将模型训练效率提升了30%，训练稳定性提升了15%。

要提升大模型训练效率，主要在于对芯片、框架、模型、应用四层的优化，和百度、阿里的逻辑不同，腾讯云对混元大模型的优化集中在机器学习训练框架的调优，对预训练、模型精调和强化学习等全流程进行加速和优化。

据介绍，基于HCC高性能计算集群，AngelPTM采用混合精度训练技术，并优化了存储机制，可兼容适配多款国产化硬件，能够以更少的资源和更快的速度训练更大的模型。同时，自研大模型推理框架AngelHCF通过扩展并行能力，实现了更快的推理性能和更低成本，相较于业界主流框架，其推理速度提高了1.3倍。在腾讯混元大模型文生图的应用中，推理耗时从10秒缩短至3至4秒。

事实上，调优模型训练方式，降低成本，最终的目标还是更好面向应用场景，降低终端应用的边际成本。京东集团副总裁何晓冬就表示，目前训练时间在两个月左右的基础通用大模型，成本估计在几千万元。对此，北京交通大学教授张宏科看来，未来用户使用大模型算力应像用电一样“即插即用”；斯坦福大学教授克里斯·曼宁则预测，不断上涨的算力成本，将促使人们寻找更有效的AI算法训练方式，比如，目前已经有数十家公司开发用于训练和运行AI程序的专用计算机芯片。

评论 0

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮