预见·科技|同张卷子再考一次 升级后的国产大模型不仅更“稳重”,还学会了抢答

封面区块链 该文章已上链 >

封面新闻 2023-10-29 18:37 92148

封面新闻记者 欧阳宏宇

自首个国产大模型推出以来,中国造AI大模型产品正加速迭代。

日前,文心大模型、讯飞星火认知大模型、商量大模型、360智脑等大模型均对外公布了新版本。

以文心大模型为例,目前其已更新至4.0版本。百度创始人、董事长兼首席执行官李彦宏对外表示,文心大模型4.0在理解、生成、逻辑和记忆能力上都有了显著的提升。

那么,经过半年多的升级迭代,如今的AI大模型较此前的水平有多大提升?又有哪些新的功能?记者随即进行了新旧版本对比测试。

现代文学造诣不凡

会抢答也会举一反三了

为便于对比,在文学方面上,同样对文新大模型4.0提问关于《三体》的文学常识。

文心大模型此前回答《三体》的作者是哪里人。

和半年前的回答不同,升级至4.0后,文心大模型主打一个简洁干练。除保留姓名、出生年月、籍贯、职务等基本信息,对学历、职称等与作品无关的信息不再呈现。这也给予了大模型与用户更多的互动空间,即在答案下方有三个相关搜索链接;就像是课堂上抢答老师提问的学生,让用户可以就其给出的答案和诉求对原始答案进行扩充。

文心大模型4.0回答《三体》的作者是哪里人。

记者接着点击了一个看似和《三体》毫无关联的链接“刘慈欣在山西阳泉是如何生活成长的”,大约10秒后,AI给出了答案。

值得注意的是,AI在答案中很有逻辑地将文学与科幻两个关键词进行拆解,将父亲的培养与工作的环境对其写作能力的塑造进行了关联。在这一次回答后,AI也未再提示相关搜索,这意味着其认为该问题已经回答得比较完善了。

如果再对《三体》进行续写,又会有什么新的思路?

文心大模型此前续写《三体》

文心大模型4.0续写《三体》

和此前只给出大致的思路不同,这一次AI大模型将原理和方法论相结合,虽然答案方向相似,但在可操作性上已大有不同;并且不断通过相关搜索来引导用户把问题问得更加明确,以便给出更有针对性的方法。

这样使思路和方法更像现实生活中学生向老师提问,老师循循善诱,既开阔学生思路,又给出合理化建议。由此可见,AI大模型在文学思维上已经越来越像人类了。

能给公司起名字

文案创作水平变化不大

随着大模型变为“小模型”,文心一言、通义千问、混元等大模型都在向具体场景靠拢。那么,在商业文案创作上,大模型又有没有长进?

文心大模型此前取公司名

文心大模型4.0取公司名

文心大模型4.0取公司名

在取公司名上,新旧版本差异不大,只是新版本不再对比较抽象化的名字作出解读。

解奥数题无压力

还能化身“出题神器”

文学题考验之后,面对数学问题,文心大模型4.0又会给出怎样的反应?记者同样对其提出了鸡兔同笼的问题。

文心大模型此前解答鸡兔同笼

对于同样故意写错的数字,AI没有马上回答问题错了;而是在经过大概半分钟的计算后,开始煞有介事地列起了方程。就当记者以为大模型要“翻车”时,其居然开始通过答案质疑题目是否错了。

文心大模型4.0解答鸡兔同笼

随后,将修正后的题目再次向大模型提问。

很快,AI通过普通等式将题目解出,而没有再使用未知数方程。可以看到,对于鸡兔同笼问题,如果使用未知数法逻辑上更好理解;不使用方程,理解的难度更高。这也可见,升级至4.0版本后,AI更加聪明了。

文心大模型4.0解答鸡兔同笼

文心大模型4.0解答鸡兔同笼

此外,大模型还举一反三地就鸡兔同笼提出了其他问法,堪称加强版的“出题训练机”。

社科知识更加广博

比半年前更加“老练”

最后,是对社科类知识的提问。

对于“洛阳纸贵”释义的提问,大模型不但给出了准确的回答,还规避了此前答案重复的毛病,同时给出了例句,以及涉及该成语的相关问题。

文心大模型此前解析洛阳纸贵

文心大模型4.0解析洛阳纸贵

随后,记者对“当时洛阳的纸到底有多贵”进行追问。这次AI没有再给出具体的数据,而是谨慎地回答“价格无法考证”。

对于“当时洛阳的纸到底有多贵”,文心大模型没有给出具体的数据。

那么,AI在此前对洛阳纸价具体的表述,是否属实?记者搜索发现,该信息或出自《清河通史》一书;并且大多出现在互联网百科知识中,其真实性很难确定。

此外,AI对于“洛阳纸贵”所引申出的科学原理也有了更多理解。

文心大模型此前解析洛阳纸贵的经济学原理

文心大模型4.0解析洛阳纸贵的经济学原理

文心大模型4.0解析洛阳纸贵的经济学原理

从字面上看,文心大模型4.0版所写的诗句较过去的版本在韵律上更好,但在内涵上仍需打磨。

整体来看,文心大模型4.0相比较于此前的3.5版本提升确实很明显,其答案更加简练,内容扩展也更为丰富。和GPT-4相比也有诸多亮眼之处,以百度为代表的国内AI力量发展不容小觑。这样的变化对于国产大模型而言,是显而易见的。可以想象的是,在不断优化下,越来越多的大模型产品会进入人类的各种场景,推动“人机通过Prompt交互的时代”到来。

评论 0

  • 还没有添加任何评论,快去APP中抢沙发吧!

我要评论

去APP中参与热议吧