构建全球首个实时孪生心脏计算模型!大模型先锋集结共探AGI之路|科技观察

封面区块链 该文章已上链 >

封面新闻 2024-06-15 15:15 60789

封面新闻记者 边雪

人工智能(AI)的未来将是什么模样?大模型技术将会如何赋能千行百业?6月14日,第六届“北京智源大会”在中关村展示中心开幕。

封面新闻记者注意到,本届北京智源大会邀请到了图灵奖得主姚期智,OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等国际明星机构与技术团队代表,以及百度、智谱AI、面壁智能等国内主流大模型公司CEO与CTO,汇聚了200余位人工智能顶尖学者和产业专家,围绕人工智能关键技术路径和应用场景展开精彩演讲和尖峰对话。

第六届“北京智源大会”会议现场。(受访者供图)

大模型研发应用如何可持续发展?

众所周知,大模型训练需要大量算力支撑,针对大模型训练算力消耗高的问题,智源研究院和中国电信人工智能研究院(TeleAI)基于模型生长和损失预测等关键技术,联合研发并推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。

该模型与百亿级的52B版本,千亿级的102B版本共同构成Tele-FLM系列模型,据悉,该模型实现了低碳生长,仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3Ttokens的训练,成功训练出万亿稠密模型Tele-FLM-1T。

相关研发工作人员告诉封面新闻记者,模型训练全程做到了零调整零重试,算力能效高且模型收敛性和稳定性好。“目前,TeleFLM系列模型已经全面开源了52B版本,核心技术(生长技术、最优超参预测)、训练细节(loss曲线、最优超参、数据配比和Grad Norm等)均开源,期望技术开源可以对大模型社区产生有益促进,而Tele-FLM-1T版本即将开源,希望可以为社区训练万亿稠密模型提供一个优秀的初始参数,避免万亿模型训练收敛难等问题。”

在大模型极速发展的当下,行业现有的多模态大模型多为对于不同任务而训练的专用模型,例如Stable Diffusion之于文生图,Sora之于文生视频,GPT-4V之于图生文。

“每类模型都有对应的架构和方法,对于视频生成,行业普遍参照Sora选择了DiT架构。”模型架构师孟凡提到,但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,例如,目前Sora还做不到图像和视频的理解。

为了实现多模态、统一、端到端的下一代大模型,智源研究院推出了Emu3原生多模态世界模型。

“Emu3采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。”据工作人员介绍,Emu3从模型训练开始就是为统一的多模态生成和理解而设计的,目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。简单来说,Emu3既统一了视频、图像、文字,也统一了生成和理解。值得注意的是,Emu3在持续训练中,经过安全评估之后将逐步开源。

全球首个实时孪生心脏计算模型

值得注意的是,智源研究院还构建了全球首个实时孪生心脏计算模型,可实现高精度的前提下生物时间/仿真时间比小于1,位于国际领先水平。

实时心脏计算模型,是虚拟心脏科学研究的开端,是孪生心脏走向临床应用的基础。基于这一模型,智源将创新性地采用物理-数据双驱动模型,融合第一性原理和人工智能方法,从亚细胞级、细胞级、器官级、躯干级仿真出一个“透明心脏”,且能根据患者的临床数据,构建出反映患者的个性化生理病理的孪生心脏,从而进行药物筛选、治疗方案优化、术前规划等临床应用。

目前,智源与北医一院共同成立了“北京大学第一医院-北京智源人工智能研究院心脏AI 联合研究中心”,正在开展基于超声影像的急性心肌梗死诊断、心衰的病理仿真、肾动脉造影等课题,与安贞医院合作进行室速疾病的无创心外膜标测技术的前沿研究,与斯高电生理研究院开展药物筛选平台的开发与应用以及与清华长庚医院和朝阳医院合作开展肥厚性心肌病课题。

大模型先锋集结共探AGI之路

“现阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力,并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线,从而让模型具备了初步的多模态理解和生成能力,但这并不是让人工智能感知、理解物理世界的终极技术路线,而是应该采取统一模型的范式,实现多模态的输入和输出,让模型具备原生的多模态扩展能力,向世界模型演进。”

智源研究院院长王仲远在2024智源研究院进展报告中指出,未来,大模型将以数字智能体的形态与智能硬件融合,以具身智能的形态从数字世界进入物理世界,同时,大模型这一技术手段可为科学研究提供新的知识表达范式,加速人类对微观物理世界规律的探索与研究突破,不断趋近通用人工智能的终极目标。

此外,在2024北京智源大会开幕式上,OpenAI Sora及DALL·E团队负责人Aditya Ramesh,纽约大学助理教授谢赛宁,就多模态模型的技术路径以及未来演化方向进行了观点碰撞。

Open AI Sora及DALL·E团队负责人Aditya Ramesh在会上谈到,在深度学习领域,该团队在2021年1月发表了一篇关于Dolly Want的博客,讨论在文本和量化图像上联合训练的大规模(用于时间)的自回归变化器是否可以拓展到其他模态的建模中。“DALL·E 1作为该技术的实际成果,可以‘将文本作为输入,并将其转换为量化的图像块’,这意味其团队最初设想是可行的。而在实际操作中,该模型可以‘像普通语言模型一样建模’。”

在通往AGI的尖峰对话中,智源研究院王仲远,百川智能CEO王小川,智谱AI CEO张鹏,月之暗面CEO杨植麟,面壁智能CEO李大海针对大模型的技术路径依赖与突破、开放生态与封闭研究、商业模式探索等热点话题,展开深度讨论。

“未来技术形态一定是原生、统一的语言文字图片视频模型,真正的多模态进、多模态出的技术体系,而且要不断容纳更多模态数据做成统一框架。目前,我们正在做这方面的训练和探索。”王仲远说。

评论 3

  • fm2117711 2024-06-19 发表于四川

    好棒!

  • 高坪半坡龙村 2024-06-19 发表于辽宁

    AI改变生活,便捷生活!

  • fm2117711 2024-06-18 发表于四川

    赞👍🏻

我要评论

去APP中参与热议吧