预见·科技 | Sora还没开放访问 国产文生视频模型只花15分钟就帮你做好了汇报视频

封面区块链 该文章已上链 >

封面新闻 2024-03-08 16:31 118075

封面新闻记者 欧阳宏宇

不久前,OpenAI新发布的文生视频大模型Sora再度在全球范围内掀起热潮。由于该大模型可生成最长1分钟的视频,超过时下主流产品,进而引发行业感叹,“人人都是视频创作者的时刻即将到来”。

事实上,在Sora推出前,国内AI团队已在“文生视频”领域有所跟进,百度、清华大学等科技公司、高校的多个“文生视频”专利也在近日公开;魔珐科技更是在日前正式发布了多款文生3D视频消费级产品“有言”。用户只需提供文字等素材就可以生成视频时长达数分钟的3D视频,并且还能一键生成:场景、运镜、动画、声音等。

那么,国产的文生视频消费级产品到底好不好用?生成的视频究竟是什么样子?记者进行了测试发现,与Srao不同,用户使用该大模型创作的视频,主要为针对营销、培训等场景的3D数字虚拟人主播AIGC视频。用户可以对虚拟人主播进行定制化的“捏脸”,并设置其口播内容以及视频中需要呈现的图片、文字、配乐等,每次视频生成需耗时10多分钟,其流程与制作一份PPT类似。

记者测试国产文生视频AIGC平台

不到15分钟便可得到视频成片

和文心一言、通义千问等大语言模型不同,进入文生视频大模型后,页面中会有多个会有模板可供选择。选择好视频格式后,即可进入视频生成页面。

这时的页面则更像是视频剪辑软件,左侧为模板、素材、镜头等编辑窗口,右侧则是视频预览画面和文本输入、虚拟人设置等界面。

记者以“文生视频介绍”为主题,进行了测试:

首先,需要对虚拟演播室、3D虚拟人物形象进行设置,可以看到大模型上预设了多个不同风格的人物形象,用户甚至可以从性别、年龄、肤色、长相、穿衣风格、音色等标签进行精细化设置。记者随即“捏脸”了一位温柔知性,穿休闲装的亚裔中年男性,并把音色设置为说中文的激昂男主讲人。

设置完成后,记者又上传了一些与文生视频AI大模型相关的图片以及文字介绍。上传好的素材只需点击一下就能添加到视频轨道上,用户还可以为这段素材配上文字介绍,并调节虚拟人口播时的节奏:整个编辑过程甚至比制作一页PPT还要简单。

点击“一键生成”,只需十几秒AI大模型就制作出了草稿视频,随后便可以对视频的镜头景别。再等待几分钟视频渲染后,视频就制作完成了。这时候,用户还可以使用AI预设的花字、音乐、音效对视频进行进一步美化。

从新建演播室、虚拟主播,到输出成片耗时不到15分钟,记者最终也得到了一段时长为45秒的短视频,其品质效果堪比专业团队在摄影棚里拍出的路演大片。


文生视频商业化尚待探索

AIGC视频创作平台已有落地场景

据谷歌此前发布的论文显示,视频就是一系列图像,最理想的效果就是用户给出提示词,系统自动生成任何风格的对应视频。但在实际情况中,生成一个连贯的长视频并没有那么容易。

“在该项任务中,可用的高质量数据非常少,且任务本身的计算需求又很大。”复旦大学计算机科学技术学院教授肖仰华认为,Sora在技术上的突破并不大,但在一定程度上解决了时空的一致性的问题,并且在时长上有了较大提升。与此同时,Sora尚未开放访问,何时能实现商业化落地也是未知数。

和Gen-2、SVD-XT、Pika等第一代文生视频AI大模型产品相比,Sora在画面真实度、清晰度以及长度等多个方面已有显著提升,但对内容创作者特别重要或者基础的内容可控性和可编辑上,依然面临着较大的挑战。

即便和Sora制作的视频在质量上有差距,国产文生视频AI大模型也已做出了特色,甚至在产业端找到结合点。此前,阿里达摩院已放出了“文本生成视频大模型”开源测试版本,而虚拟主播AIGC视频也已具备现实应用场景。

有业内人士分析称,Sora路径特别不适合“高信息密度”以及”内容需要精准控制“的视频内容,即使解决了它现在一有问题,距真实实现产品化也有距离。“由于产品发布会,工作汇报,产品介绍视频,知识分享等场景视频的信息密度高,内容需要精确控制,这正是AIGC一站式3D视频创作平台可以发挥优势的方向。”

评论 0

  • 还没有添加任何评论,快去APP中抢沙发吧!

我要评论

去APP中参与热议吧