谷歌推大语言模型(VideoPoet):文本图片皆可生成视频和音频

站长之家 2023-12-20 10:50:27新闻资讯
25

Google Research最近发布了一款名为VideoPoet的大型语言模型(LLM),旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型,但在生成连贯的大运动时仍存在瓶颈。现有领先模型要么生成较小的运动,要么在生成较大运动时出现明显的伪影。

VideoPoet的创新之处在于将语言模型应用于视频生成,支持多种任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。与当前主流的扩散模型不同,VideoPoet将这些视频生成功能融合在一个大型语言模型中,而不是依赖于分别针对每个任务进行训练的组件。

VideoPoet.png

该模型通过多个分词器(MAGVIT V2用于视频和图像,SoundStream用于音频)进行训练,以学习跨视频、图像、音频和文本模态的知识。通过将模型生成的令牌转换为可视化表示,VideoPoet能够输出动画、风格化视频,甚至生成音频。模型支持文本输入,以指导文本到视频、图像到视频等任务的生成。

为了展示VideoPoet的多功能性,研究人员提供了一些生成示例。

VideoPoet2.png

文字生成视频

模型能够根据文本提示生成可变长度的视频,也可以将输入图像转化为动画视频。此外,模型还具备视频风格化的能力,通过输入光流和深度信息,以及一些额外的文本提示,生成独特风格的视频。最令人印象深刻的是,VideoPoet还可以生成音频,实现了从单一模型生成视频和音频的目标。

VideoPoet3.png

图像生成视频

VideoPoet4.png

视频风格化

VideoPoet5.png

可生成音频

研究人员指出,VideoPoet的训练方式使其具有生成较长视频的潜力,通过在上一个视频的最后1秒的基础上预测下一个1秒,可以实现视频的不断延伸。此外,模型还支持对已生成视频进行交互式编辑,用户可以改变物体的运动,实现不同的动作,从而具有高度的编辑控制。

评价结果

研究人员使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,我们在各种不同的提示下运行了所有模型,没有挑选示例,并要求人们对他们的偏好进行评分。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。

VideoPoet6.png

文本保真度

基于上述情况,平均而言,人们选择 VideoPoet 中24-35% 的示例作为比竞争模型更好的跟随提示,而竞争模型的这一比例为8-11%。评分者还更喜欢 VideoPoet 中41-54% 的示例,因为它们的动作更有趣,而其他模型的这一比例为11-21%。

VideoPoet作为大型语言模型,通过集成多种视频生成任务,为零镜头视频生成提供了新的可能性,为艺术创作、影视制作等领域带来了潜在的创新机遇。

官方博客:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

项目网址体验:https://sites.research.google/videopoet/

谷歌
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Ultravox:Fixie AI推出的开源多模态实时语音交互AI模型
在人工智能技术飞速发展的今天,实时语音交互已成为人们日常生活的重要组成部分。Ultravox,一款由FixieAI公司开发的创新性多模态大语言模型,旨在提供一个封闭源模型如 GPT-...
2024-11-15 新闻资讯
118

谷歌广告联盟提示“广告投放受到限制,无效流量”的原因及解决方法
谷歌广告联盟是一个广泛应用的在线广告平台,它为网站所有者和广告商提供了一种有效的盈利和推广方式。然而,许多网站所有者可能会遇到广告投放受到限制的情况,并收到关于无...
2024-10-22 站长之家
213

谷歌广告联盟(Google AdSense)审核一直不通过怎么办?
谷歌广告联盟(Google AdSense)是许多网站所有者和博主获取广告收入的重要途径。然而,审核不通过是一个常见的困扰,这可能会让网站所有者感到沮丧,尤其是当他们多次尝试仍未...
2024-10-21 站长之家
173

8月更新的谷歌算法对网站排名的影响分析
2024年8月,谷歌宣布了其最新的核心算法更新(August 2024 Core Update)。这次更新是谷歌持续努力提高搜索结果质量的一部分,旨在展示更多用户认为真正有用的内容,并减少那...
2024-09-05 站长之家
174

防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎
据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。百度百科的robots.txt文件显示,...
2024-08-22 新闻资讯
167

Claude:Anthropic公司基于Transformer架构开发的AI大语言模型
Claude是Anthropic公司基于Transformer架构开发的大规模语言模型。它通过大量的文本数据进行训练,能够执行各种自然语言处理任务,包括文本生成、问答、翻译、摘要等。Claude...
2024-08-15 新闻资讯
148