智谱清言App升级视频通话功能记者实测：提问秒回，可随时打断当前谈话

访客 2024-08-30 10:41:57 67261 抢沙发

默认

摘要： 和大模型打视频电话可能即将实现。8月29日，《每日经济新闻》记者获悉，智谱清言App将上线视频通话功能，智谱方面介绍，清言App的视频通话功能，具有跨文本、音频和视频进行实时推理的...

和大模型打视频电话可能即将实现。

8月29日，《每日经济新闻》记者获悉，智谱清言App将上线视频通话功能，智谱方面介绍，清言App的视频通话功能，具有跨文本、音频和视频进行实时推理的能力，AI可以进行流畅的通话，人可以实时打断AI；此外，通过手机或AIPC的摄像头与人互动，可通过视频流理解对话当前的环境（包括人物状态/背景环境）。

今年5月，OpenAI发布多模态大模型GPT-4o，曾凭借自然流畅的实时音视频交互引发关注。

清华大学新闻学院和人工智能学院双聘教授沈阳在接受《每日经济新闻》记者微信采访时表示，具备视觉交互是未来大模型极其重要的发展方向之一，对于国内大模型而言，这方面的探索同样必要。他认为，视觉获取的信息占据了人类获取总信息量的80%以上，因此，当大模型具备了视觉交互能力后，它便拥有了向具身智能和人形机器人结合的重要技术基础。

智谱清言App上线视频通话功能

8月29日，智谱方面宣布，清言App将于30日上线“视频通话”功能，这也是国内首个面向C端开放的视频通话。演示显示，用户可以通过视频实时交互，例如将摄像头对准一套试卷并圈出其中一题请其解答，清言就能实时识别，并给出相应解答。

记者通过清言App体验其视频通话功能，将摄像头对准玩偶进行拍摄，随后清言开始描述玩偶的颜色、外观等。

记者将镜头对准一本书后提问书的主要内容，清言在几秒后给出解答，其间记者打断其介绍要求重复作者的名字，清言在停顿几秒后开始介绍书籍作者。

今年5月，OpenAI发布多模态大模型GPT-4o，可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图片的任意组合输出。彼时，GPT-4o凭借自然流畅的实时音视频交互引发市场关注。

行行AI董事长、工业和信息化部工业文化发展中心AI应用工作组执行组长李明顺在接受《每日经济新闻》记者微信采访时表示，拥有实时视频对话和视觉交互能力的大模型确实是未来人工智能发展的重要方向之一。

李明顺表示，这个方向有大量AI的应用场景，例如：在更实时互动的娱乐游戏、更真切数字人体验的营销服务、形象逼真的远程教育、金融等高端行业的虚拟顾问、更有情绪价值的医疗咨询等领域，都有大量的提升效率和服务体验的价值。

沈阳则认为，具备视觉交互是未来大模型极其重要的发展方向之一，对于国内大模型而言，这方面的探索同样必要，这一功能的缺失将意味着在技术上落后于国际同行，甚至可能面临技术依赖的风险。

沈阳表示，视觉获取的信息占据了人类获取总信息量的80%以上，因此，当大模型具备了视觉交互能力后，它便拥有了向具身智能和人形机器人结合的重要技术基础。具备视觉交互能力的大模型能够实时与环境互动，并能实时感知世界的变化，是大模型在全面模拟人类能力的重要一步，基于此，大模型才真正超越了虚拟化，能够与世界进行实际的互动，当大模型具备了与现实世界交互的能力后，就将能够借助硬件，如人形机器人等，在人类指令下进行一定程度的真实世界探索。