Meta推AI视频模型(Fairy):轻松替换视频人物、改变风格

站长之家 2024-01-08 13:37:29新闻资讯
33

Meta 的 GenAI 团队推出了名为 Fairy 的视频到视频综合模型,该模型比现有模型更快,时间上更一致。研究团队展示了 Fairy 在几个应用中的表现,包括角色 / 物体替换,风格化和长形式视频生成。

比如,只需简单的文本提示,如 “仿梵高风格”,就足以编辑源视频。例如,文本命令 “变成雪人” 将视频中的宇航员变成了雪人。

Fairy.png

Fairy2.png

Fairy 的视觉连贯性是一个特别具有挑战性的问题,因为基于相同提示有无数种方法可以修改给定的图像。Fairy 使用交叉帧关注机制,这是一种隐式传播扩散特征的机制,确保了优越的时间连贯性和高保真度的合成。

Fairy3.png

该模型可以在仅14秒内生成大小为512x384像素、120帧(30fps 下的4秒)的视频,比以前的模型至少快44倍。与 Meta 的 Emu 视频模型一样,Fairy 是基于用于图像处理的扩散模型,经过了视频编辑的增强。

Fairy 在处理源视频的所有帧时不进行时间降采样或帧插值,并保持了512的水平输出视频的纵横比。在使用六个 A100GPU 进行测试时,Fairy 能够在71.89秒内渲染一个27秒的视频,并保持高度的视觉一致性。

Fairy 的性能在一个包含1000个生成样本的广泛用户研究中进行了测试。无论是人类判断还是定量指标都证实,Fairy 的表现优于 Rerender、TokenFlow 和 Gen-1这三个模型。

Fairy4.png

然而,该模型目前在处理如雨、火灾或闪电等动态环境效果方面存在问题,这些效果要么无法很好地融入整个场景,要么会产生视觉错误。

尽管存在这些问题,研究团队认为他们的工作在 AI 视频编辑领域代表了一次重大进展,具有对时间一致性和高质量视频合成的变革性方法。

Fairy项目体验网址:https://fairy-video2video.github.io/

ai
THE END
蜜芽
故事不长,也不难讲,四字概括,毫无意义。

相关推荐

MIMO:阿里巴巴智能研究院开源的多功能可控视频合成模型
MIMO 是阿里巴巴集团智能计算研究院开源的一种用于可控视频合成的通用模型,其核心思想是将2D视频编码为紧凑的空间代码,并考虑视频发生的固有3D特性。通过这种编码方式,MIM...
2024-11-10 新闻资讯
123

Llama:Meta AI团队开发的基于Transformer架构的大型语言模型
Llama是由Meta AI团队开发的一个基于Transformer架构的大型语言模型。其名称“Llama”来源于“Lightweight LAnguage Model Architecture”的首字母缩写,意在强调其高效性和轻...
2024-07-29 新闻资讯
155

SEO优化技术:Viewport 属性的作用及使用方法详解
在现代网页设计中,响应式设计已经成为标配,而viewport属性在其中扮演了至关重要的角色。本文站长工具网将深入探讨viewport属性的作用、使用方法及其对SEO优化的影响。
2024-07-19 站长之家
140

Photon:一款支持磁力链、BT和Metalink的多线程下载软件
随着互联网的快速发展,下载工具已经成为我们日常生活中不可或缺的一部分。在众多下载工具中,Photon凭借其强大的功能和便捷的操作脱颖而出。Photon不仅支持HTTP/HTTPS协议,...
2024-06-19 电脑知识
158

Sora平替?2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公布
近日,Picsart AI Research等团队联合发布了一款名为StreamingT2V的AI视频模型,该模型能够生成长达1200帧、时长达2分钟的视频,这在技术上超越了之前备受关注的Sora模型。St...
2024-04-15 新闻资讯
59

超越Sora!AI视频模型StreamingT2V可生成120秒超长视频
近日,UT奥斯丁等机构提出的StreamingT2V技术引发了广泛关注,将AI视频生成推向了新的高度。这项技术突破了以往视频长度的限制,实现了生成高度一致且长度可扩展的视频。
2024-03-26 新闻资讯
55