推出“中文版Sora”？字节跳动回应

时间:2024-02-21 作者: 来源:数据观

　　继 ChatGPT 这一现象级的应用推出一年之后，当地时间2月15日，美国开放人工智能研究中心 OpenAI 正式发布了旗下首款视频生成模型 Sora，再次在全球掀起了人工智能关注浪潮。

　　据报道，OpenAI 推出的文生视频大模型 Sora 可通过快速文本提示创建“逼真”和“富有想象力”的 60 秒视频，还可以在单个生成视频中创建多个镜头，准确保留角色和视觉风格。OpenAI 表示，将为视觉艺术家、设计师和电影制作人提供 Sora 访问权限。

　　近日，有消息称，在 Sora 引爆文生视频赛道之前，国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

　　对此，字节跳动相关人士向媒体回应称，Boximator 是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

　　值得注意的是，字节跳动在AI及大模型技术领域的动作显得比较低调。迄今为止，字节跳动旗下的豆包、扣子和Cici等AI产品并没有进行大规模的宣传推广，字节跳动官方也没有公开其在AI领域的研发路线和战略布局。

　　Boximator模型让视频动作控制不再是梦

　　据介绍，Boximator 是一款创新的视频生成模型，它能够通过简单的文本描述精确控制视频中的人物和物体动作。

　　这意味着，只需输入比如“下雨天，大风把一位女生的雨伞吹走了”这样的文本，Boximator就能生成出相应场景的视频，展现女生追赶雨伞的动态过程。这种能力在以往的视频生成模型中是难以见到的，如Gen-2、Pink1.0等模型虽然在视频生成领域有所成就，但在精准动作控制方面仍有局限。

　　英伟达高级科学家Jim Fan评论认为，2022年是影像之年，2023是声波之年，而2024是视频之年。

　　在Sora出现之前，谷歌的Imagen和Meta的“做个视频（Make-A-Video）”已经发布了相当长一段时间。就在上月底，谷歌还新发布了AI视频大模型Lumiere，该大模型同样可以通过联合空间和时间采样来实现生成，并且也显著增加了生成视频的持续时长和质量，甚至可以将静止图像转换为动态视频。

　　中国的AI大模型同样早已在文生视频赛道布局。去年3月，阿里达摩院就放出了“文本生成视频大模型”，并在开源模型平台上对外测试。百度文心一言则在正式发布的支持多模态文本生成视频能力基础上，在去年8月又上线了文本转视频原生插件。

　　不过，这些AI大模型生成的视频与Sora相比还有一定差距，一方面是体现在持续时长上，绝大多数视频时长还在4-10秒左右，其连贯性也有所不足。另一方面是镜头的组合，绝大多数视频都是单镜头；而Sora已实现了在一个视频里面，多角度镜头的组合。例如，在剪影动画中，视频从一只狼对着月亮嚎叫，直到它找到狼群，切换了不同景别的多个镜头。

　　随OpenAI、谷歌等纷纷推出各自的文生视频模型，东方证券在研报中提到，国内领先厂商已入局，其中，海康威视、大华股份、萤石网络等视频分析行业领先厂商纷纷投入到多模态大模型研究和行业应用落地进程。

　　具体来看，海康威视现已处于多模态大模型的研发阶段，包括视觉、语音、文本等多模态信号的融合训练及处理。大华股份于23年10月发布“星汉大模型”，该模型融合点云、语音、图像等输入，构建了多模态融合的行业视觉大模型。值得一提的是，信雅达凭借“天才女儿”设立Pika的消息刺激曾在去年11月30日至12月7日录得6连板，公司表示，其已围绕图像识别、 AI 定制化建模等能力开展深入研究。

免责声明：本网站部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请立即联系管理员，我们会予以更改或删除相关文章，保证您的权利。对使用本网站信息和服务所引起的后果，本网站不作任何承诺。