字节用AI卷起老本行：进军视频生成大模型，可自由切换镜头、接近实拍效果

访客 2024-09-26 21:21:25 53425 抢沙发

默认

摘要： 视频生成大模型领域迎来重要玩家。9月24日，字节跳动旗下火山引擎在深圳举办AI创新巡展，现场发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，同时面向...

视频生成大模型领域迎来重要玩家。

9月24日，字节跳动旗下火山引擎在深圳举办AI创新巡展，现场发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，同时面向企业市场开启邀测。

对于视频生成大模型而言，生成视频的时长十分重要。目前，PixelDanc视频生成时长为5秒或10秒，Seaweed为5秒。火山引擎总裁谭待对时代周报等媒体表示：“视频生成有很多难关亟待突破。火山引擎的优势包含指令遵循能力、运镜（多镜头下主体一致性）等，背后有技术突破和全栈能力等优势。此外，抖音、剪映对视频的理解也是优势。”

谭待认为，视频生成大模型不应只讨论时长，要考虑应用场景，不同场景对时长要求不同，火山更关注针对不同行业的解决方案。”

值得注意的是，新款豆包视频生成模型正在即梦AI小范围内测，未来将逐步开放给所有用户。

今年2月，抖音集团原CEO张楠突然宣布转战剪映，要在剪映推动AI应用。宣布负责剪映仅一周后，2月16日，OpenAI推出可生成1分钟视频的Sora，让文生视频功能再次火爆全球。与此同时，张楠作为剪映业务负责人在朋友圈宣布即梦上线，即梦也成为张楠调任后第一次重要的产品更新。

在AI创新巡展上，剪映和即梦AI市场负责人陈欣然介绍了两款APP“AI化”的最新情况。她表示，过去制作类似质量内容需要5-10人团队，包括制作故事线、打磨特效、包装剪辑等，协作流程复杂，制作周期长达1-2个月，还需大量金钱和资源投入。但在AI帮助下，大部分创作者一人就能完成创作，制作时长也缩减至1-2周。

谭待也在演讲中提到：“视频生成有很多难关亟待突破。豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”

无论如何，豆包视频生成大模型诞生并在即梦和剪映中使用，意味着字节跳动在用AI卷起视频“老本行”的道路上往前更近了一步。

图源：时代周报记者现场摄

可自由切换镜头

据火山引擎现场介绍，豆包大模型的使用量在急速增长。

截至9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首发时增长十倍，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

在庞大的用户使用量下，豆包大模型再次带来新变化。不仅新增视频生成模型，还发布了豆包音乐模型和同声传译模型，已全面覆盖语言、语音、图像、视频等全模态。

此前，视频生成模型大多只能完成简单指令，豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互——不仅能够遵循复杂指令，让不同人物完成多个动作指令的互动，人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

豆包视频生成模型基于DiT架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。“这意味着豆包生成的视频攻克了多景别切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性，这也是豆包视频生成模型独树一帜的技术创新。”谭待表示。

关于模型未来的方向，谭待表示火山引擎更关注基于现有模型更好地落地和加速创新，“技术要满足用户需求，新老技术要不断调整适配。大模型的成熟标准是孵化后用户体验过且有一定体量的真实且较好的反馈，而不是实验室里的反馈。比如即梦、豆包都有大量内测，用户反馈是重要评测标准。”

此前，豆包大模型定下低于行业99%的token定价，率先卷起降价潮的火山引擎。目前，豆包视频大模型的使用定价尚未公布。谭待对时代周报等媒体表示，视频模型和语言模型应用场景不同，定价逻辑也不同，要考虑“新体验-老体验-迁移成本”，最终能否广泛应用取决于比以前的生产力ROI提升多少。

图源：即梦官网

探索AI原生产品

此前，即梦的普通用户已可以生成3秒的AI短视频，VIP用户则可以延长3秒。

今年3月开始，剪映密集更新AI功能，如智能字幕、视频翻译等功能。并且还与抖音打通，对使用剪映AI功能的短视频进行流量和现金奖励扶持，例如优秀作品可获得DOU+500元/条的流量扶持。当前，剪映的VIP会员定价为1年218元，平均每月18.17元，即梦的VIP会员月费则为69元。

在AI创新巡展上，陈欣然提到“已将豆包大模型的相关技术应用在剪映、即梦AI和醒图”，并介绍了AI技术应用下的新功能。

如数字分身应用，可基于音色克隆技术在剪映上线定制数字人音色克隆功能。制作数字人只需录制或上传一段3分钟的高清正面视频，音色克隆只需5秒声音输入，就能生成自然流畅、毫无违和感的声音，还能做各种语言的翻译。“我们很关注隐私和安全问题，在产品设计和技术层面要求用户本人确认，也会关注行业新规，提升服务安全性和可靠性。”陈欣然说道。

此外，还有针对电商商家的“内容营销”创作神器。过去，商家可能要花几个小时刷抖音和TikTok分析爆款带货视频套路，拆解套路、仿写文案，还要花几个小时剪辑，现在只需几分钟，只要填写商品名、上传素材或者粘贴商品页链接，就能一键生成多个不同风格的带货视频。

陈欣然特别提到，除了在已有产品上应用AI，剪映也在探索GenA（生成式人工智能）I时代下AI native（AI原生）产品的可能性，“即梦ai就是这个方向的探索产品，目前正在接入两款视频生成大模型，进行内测的场景打磨和效果打磨。我们认为，创作不应受制作成本、风格或者文化背景的限制，它应该是有趣的、快乐的、自由的。”

谭待也表示，大模型的应用成本已经得到很好解决，“大模型要从卷价格走向卷性能，卷更好的模型能力和服务。”

标签：豆包模型