预见·科技 | Sora还没开放访问国产文生视频模型只花15分钟就帮你做好了汇报视频

封面新闻记者欧阳宏宇

不久前，OpenAI新发布的文生视频大模型Sora再度在全球范围内掀起热潮。由于该大模型可生成最长1分钟的视频，超过时下主流产品，进而引发行业感叹，“人人都是视频创作者的时刻即将到来”。

事实上，在Sora推出前，国内AI团队已在“文生视频”领域有所跟进，百度、清华大学等科技公司、高校的多个“文生视频”专利也在近日公开；魔珐科技更是在日前正式发布了多款文生3D视频消费级产品“有言”。用户只需提供文字等素材就可以生成视频时长达数分钟的3D视频，并且还能一键生成：场景、运镜、动画、声音等。

那么，国产的文生视频消费级产品到底好不好用？生成的视频究竟是什么样子？记者进行了测试发现，与Srao不同，用户使用该大模型创作的视频，主要为针对营销、培训等场景的3D数字虚拟人主播AIGC视频。用户可以对虚拟人主播进行定制化的“捏脸”，并设置其口播内容以及视频中需要呈现的图片、文字、配乐等，每次视频生成需耗时10多分钟，其流程与制作一份PPT类似。

记者测试国产文生视频AIGC平台

不到15分钟便可得到视频成片

和文心一言、通义千问等大语言模型不同，进入文生视频大模型后，页面中会有多个会有模板可供选择。选择好视频格式后，即可进入视频生成页面。

这时的页面则更像是视频剪辑软件，左侧为模板、素材、镜头等编辑窗口，右侧则是视频预览画面和文本输入、虚拟人设置等界面。

记者以“文生视频介绍”为主题，进行了测试：

首先，需要对虚拟演播室、3D虚拟人物形象进行设置，可以看到大模型上预设了多个不同风格的人物形象，用户甚至可以从性别、年龄、肤色、长相、穿衣风格、音色等标签进行精细化设置。记者随即“捏脸”了一位温柔知性，穿休闲装的亚裔中年男性，并把音色设置为说中文的激昂男主讲人。

设置完成后，记者又上传了一些与文生视频AI大模型相关的图片以及文字介绍。上传好的素材只需点击一下就能添加到视频轨道上，用户还可以为这段素材配上文字介绍，并调节虚拟人口播时的节奏：整个编辑过程甚至比制作一页PPT还要简单。

点击“一键生成”，只需十几秒AI大模型就制作出了草稿视频，随后便可以对视频的镜头景别。再等待几分钟视频渲染后，视频就制作完成了。这时候，用户还可以使用AI预设的花字、音乐、音效对视频进行进一步美化。

从新建演播室、虚拟主播，到输出成片耗时不到15分钟，记者最终也得到了一段时长为45秒的短视频，其品质效果堪比专业团队在摄影棚里拍出的路演大片。

文生视频商业化尚待探索

AIGC视频创作平台已有落地场景

据谷歌此前发布的论文显示，视频就是一系列图像，最理想的效果就是用户给出提示词，系统自动生成任何风格的对应视频。但在实际情况中，生成一个连贯的长视频并没有那么容易。

“在该项任务中，可用的高质量数据非常少，且任务本身的计算需求又很大。”复旦大学计算机科学技术学院教授肖仰华认为，Sora在技术上的突破并不大，但在一定程度上解决了时空的一致性的问题，并且在时长上有了较大提升。与此同时，Sora尚未开放访问，何时能实现商业化落地也是未知数。

和Gen-2、SVD-XT、Pika等第一代文生视频AI大模型产品相比，Sora在画面真实度、清晰度以及长度等多个方面已有显著提升，但对内容创作者特别重要或者基础的内容可控性和可编辑上，依然面临着较大的挑战。

即便和Sora制作的视频在质量上有差距，国产文生视频AI大模型也已做出了特色，甚至在产业端找到结合点。此前，阿里达摩院已放出了“文本生成视频大模型”开源测试版本，而虚拟主播AIGC视频也已具备现实应用场景。

有业内人士分析称，Sora路径特别不适合“高信息密度”以及”内容需要精准控制“的视频内容，即使解决了它现在一有问题，距真实实现产品化也有距离。“由于产品发布会，工作汇报，产品介绍视频，知识分享等场景视频的信息密度高，内容需要精确控制，这正是AIGC一站式3D视频创作平台可以发挥优势的方向。”

评论 0

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮