文生视频大模型Sora引爆网络，此类模型创新背后有哪些专利布局？ -

当前位置：首页 > 视角 > 案例解读 > 专利

文生视频大模型Sora引爆网络，此类模型创新背后有哪些专利布局？

发布时间：2024-02-29

责任编辑：王潇

来源：中国知识产权报

摘要：日前，人工智能研究公司OpenAI继一年前发布ChatGPT后，再次发布了文生视频大模型Sora，引起人们的广泛关注。

　　日前，人工智能研究公司OpenAI继一年前发布ChatGPT后，再次发布了文生视频大模型Sora，引起人们的广泛关注。该模型的出圈，也带火了相关技术和产业的话题。有消息称，国内相关创新主体正在推出相关模型，该模型创新的背后有哪些专利布局？

　　文生视频成为热点

　　文生视频是指根据描述文本生成与描述文本语义匹配且连贯的视频，需要运算模型结合文本信息捕获视频的时空运动模式，是一项极具挑战性的跨模态转换任务。

　　基于人工智能技术的文生视频模型虽然是新兴技术，但并非前无古人。《瞬息全宇宙》幕后的技术公司Runway于2023年6月发布了视频编辑工具Gen-2，可以根据提示词生成视频。在2023年11月，Stability AI发布Stable Video Diffusion模型；Meta公司推出的Emu Video功能，可以根据纯文本、纯图像或组合的文本和图像输入来生成视频。谷歌公司于2023年12月30日发布了零镜头视频生成模型VideoPoet，又于今年1月发布Lumiere，其采用先进的空间时间U-Net架构，实现一次性生成整个视频。国内大厂也不甘示弱，2024年1月，字节跳动正式发布MagicVideo-V2文生视频大模型；百度推出了能够处理文本和图像组合输入的UniVG；腾讯发布了VideoCrafter2；阿里有自研的Animate Anyone。每一个产品的公布都会带来业界的热烈讨论和股市的强烈反应。

　　Sora缘何引爆网络呢？我们只需输入一段文字，Sora就能创建一个与真实世界接近的虚拟世界，并且时长可达60秒。Sora还展示出AI对现实物理空间和物体间相互作用关系的想象。在几段演示视频中，潜水视频中改进的取景角度仍然可以使观众感受到真实的眩晕感，冲浪视频中由静态处理为动态的波涛汹涌能够产生裸眼3D的效果。

　　在Sora展示的新兴仿真功能中，随着摄像机角度的移动和旋转，人物和场景元素在三维空间中始终如一地移动，以简单的方式模拟影响世界状态的动作。这些性能可以成为数字孪生和虚拟现实技术的基础。业界专家猜测，Sora还不具备对物理世界自然规律的全面理解，但其蕴含的技术已在观察学习现实世界、尝试表现现实世界中踏出了一大步。

　　技术创新前景广阔

　　从Sora的技术报告中可以看出，Sora采用时空Patch技术和DiT或扩散型Transformer架构。国内业界表示，从技术上来看，目前，国内的研究大部分也基于DiT架构，试图在技术浪潮中占有一席之地。

　　从专利来看，文生视频领域的专利申请主要从2023年开始。2023年5月，腾讯提交一种视频生成方法专利申请，利用视频的隐式空间而非直接在原始视频数据上建模去噪网络，实现更加高效快速和更节省资源的模型计算，方案还探索了两种应用——VideoLoRA是个性化的视频生成模型的微调，使得用户也可以训练属于他们的视频生成模型；VideoControl是加入除了文本之外的条件到视频生成模型中来，使得视频生成的结构信息也能够由用户控制，解决通用模型视频生成过程人为控制度不高的问题。

　　2023年8月，百度提交一种基于人工智能的应用于AIGC等场景的内容生成方法专利申请，同月，其关联公司度小满科技（北京）有限公司提出一种文生视频生成方法，该专利通过将视频压缩至频谱隐空间中，在频谱隐空间中将一个视频内容压缩并解耦后的特征可以支持多个特征自由融合，所需的资源远小于原视频空间，解决现有模型算力消耗大且生成视频时长受限的问题。

　　2023年11月，清华大学提交了一种定制化多主体文生视频方法专利申请，解决现有的文生视频方法只能生成对单一主体的定制化文本生成对应的视频，实现多个主体的定制化文本生成在同一画面的视频中。

　　阿里巴巴达摩院在视频生成过程中同时获取描述文本和参考图像，将描述文本和参考图像输入包含图像参考分支和视频生成分支的双分支的视频生成模型，通过图像参考分支提取参考图像特征，通过视频生成分支基于参考图像特征和描述文本的文本特征，生成目标视频的序列帧，进而生成目标视频，提升生成视频的质量。

　　2024年1月，上海岩芯数智发布国内首个非Attention机制的通用自然语言大模型——Yan模型，采用全新自研的“Yan架构”代替Transformer架构，达到计算量更小、难度更低的线性计算，提高了建模效率和训练速度，效率翻倍的同时实现了成本的降低。

　　文生视频的应用场景广阔。鉴于现有文生视频模型的缺陷，通用模型的定制化、小型化，特定文化背景下文本含义的理解，现有模型架构的重构等均为备受关注的研发方向。（通讯员：杨宇）

下一篇：高速5G织就“幸福网”

近期活跃事件

大家都在搜

大家都在用

科专笑飞专利文献机器翻译系统

i智库——知识产权咨询与培训服务平台

I译+知识产权语言服务平台