中国一项实时人像视频生成研究成果入选CVPR2025国际学术会议

封面新闻记者欧阳宏宇

近期，IEEE国际计算机视觉与模式识别会议（ Conference on Computer Vision and Pattern Recognition）CVPR 2025公布论文录用结果，其中一项来自中国的将AI应用于社交领域平台案例研究论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》（《基于自回归动作生成的实时流式音频驱动人像动画系统》）被接收。

据介绍，研究团队在论文中提出了一个新的面向实时音频驱动人像动画（即Talking Head）的自回归框架，解决了视频画面生成耗时长的行业挑战外，还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。

该论文的动机是解构diffusion-base的模型关键步骤，用LLM和1step-diffusion进行重构，融合视频模态，使SoulX大模型成为同时生成文字、语音、视频的Unified Model。

具体而言，来自Soul App的研究团队将talking head任务分成FMLG（面部Motion生成）、ETM（高效身体Movement生成）模块。FMLG基于自回归语言模型，利用大模型的强大学习能力和高效的多样性采样能力，生成准确且多样的面部Motion。ETM则利用一步扩散，生成逼真的身体肌肉、饰品的运动效果。

实验结果表明，相比扩散模型，该方案的视频生成效率大幅提升，且从生成质量上来看，细微动作、面部身体动作协调度、自然度方面均有优异表现。这证明了国产社交领域互联网技术在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

谈及研究团队所关注的视觉交互逻辑，该平台CTO陶明解释称，从交互的信息复杂度来讲，人和人面对面的沟通是信息传播方式最快的，也是最有效的一种。“所以我们认为在线上人机交互的过程当中，需要有这样的表达方式。”

在他看来，在多模态大模型能力方向基础上，该方案的提出将有助于AI构建实时生成的“数字世界”，并且能够以生动的数字形象与用户进行自然的交互。

公开资料显示，CVPR是人工智能领域最具学术影响力的顶级会议之一，是中国计算机学会（CCF）推荐的A类国际学术会议。在谷歌学术指标2024年列出的全球最有影响力的科学期刊/会议中，CVPR位列总榜第2，仅次于Nature。根据会议官方统计，本次CVPR 2025会议总投稿13008篇，录用2878篇，录用率仅为22.1%。

评论 13

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮