百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入

站长之家 2024-01-19 10:31:09新闻资讯
180

百度推出的UniVG是一款视频生成模型,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。

UniVG.png

项目地址:https://huggingface.co/papers/2401.09084

项目演示页面:https://univg-baidu.github.io/

视频生成技术基于“扩散”原理的方法近来在学术和产业界引起广泛关注,并取得显著成就。然而,目前这一领域主要集中在单一目标或单一任务的视频生成上,例如根据文本、图片或它们的组合生成视频。但这样的方法并不能完全满足真实世界多变的应用需求。用户通常需要更灵活的输入方式,如单独使用图像或文本,或将二者结合起来。

为了解决这一问题,百度提出了UniVG,一种“统一模态视频生成系统”,能够处理各种文本和图像的组合输入。该系统重新定义了视频生成模型中的多项任务,将它们划分为“高自由度生成”和“低自由度生成”两大类。在高自由度视频生成方面,采用了“多条件交叉注意力”技术,以生成与输入的图像或文本语义高度一致的视频。而在低自由度视频生成方面,引入了“偏置高斯噪声”,这种方法相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。

技术性能方面,UniVG在MSR-VTT视频数据库上表现出色,获得了最低的帧间视频差异性度量(Frame Video Distance, FVD)。这一成绩不仅超越了当前的开源方法,还与业界领先的闭源方法Gen2不相上下,显示出了卓越的实用价值和技术优势。

百度
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

SkyReels-V1:昆仑万维开源的AI短视频生成模型
SkyReels-V1是昆仑万维开发的一款面向AI短剧创作的视频生成模型。它利用先进的深度学习技术,通过结合口型生成、表情生成和肢体生成等多个生成模块,实现了对人物表演细节的精...
2025-02-19 新闻资讯
175

百度搜索:全面接入文心深度搜索与DeepSeek,引领AI搜索新时代
百近日,中国领先的搜索引擎平台——百度,宣布了一项具有里程碑意义的举措:其搜索引擎将全面接入文心深度搜索功能与DeepSeek技术。这一重大创新不仅标志着百度在人工智能领...
2025-02-17 新闻资讯
164

百度将推出文心大模型4.5系列,并于6月30日正式开源
今日,百度公司正式宣布,将在未来几个月内陆续推出备受关注的文心大模型4.5系列,并计划于2025年6月30日起正式开源。这一消息引发了科技界和人工智能领域的高度关注,预示着...
2025-02-14 新闻资讯
169

2025年百度SEO排名优化方法及发展趋势详解
随着搜索引擎技术的不断进步,百度SEO规则也在不断更新。2025年,百度更加注重内容的质量、原创性和用户体验。因此,在进行SEO优化时,了解并遵循百度的最新规则至关重要。本...
2025-02-14 站长之家
194

百度文心一言:4月1日起全面免费,并推出深度搜索功能
近日,百度公司今日正式宣布,其人工智能产品文心一言将于2025年4月1日0时起全面免费开放给所有用户。这一决定标志着百度在人工智能领域的又一次重大突破,同时也将为广大用户...
2025-02-13 新闻资讯
190

VideoWorld:字节跳动开源的自回归视频生成模型
VideoWorld是由北京交通大学、中国科学技术大学和字节跳动联合开发的一款自回归视频生成模型。该模型旨在探索深度生成模型是否能够通过未标注的视频数据学习复杂知识,包括规...
2025-02-11 新闻资讯
192