DreaMoving:图片+文字提示就能生成高质量舞蹈视频

站长之家 2023-12-12 15:40:54新闻资讯
139

DreaMoving由阿里巴巴集团的一组研究人员倾力打造,一种基于扩散模型的可控视频生成框架。该框架的核心目标基于图文就能生成高质量、定制化的人类舞蹈视频。

DreaMoving以其出色的扩散模型为基础,能够根据人物的身份和姿势序列生成目标身份在任何地方跳舞的视频。

DreaMoving 可以生成高质量和高保真度的视频,给定指导序列和简单的内容描述,例如文本和参考图像作为输入。具体来说,DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。

比如你“投喂”一张人像,以及一段prompt就能生成对应的视频,而且改变prompt,人物背景和身上的衣服也会跟着变化。

为实现这一目标,该技术引入了Video ControlNet和Content Guider两个关键组件。

Video ControlNet:这是一个图像ControlNet,通过在每个U-Net块后注入运动块,处理控制序列(姿势或深度)以产生额外的时间残差。这有效实现了对运动的控制。

Content Guider:该组件负责将输入文本提示和外观表达,如人脸(衣物是可选的),转换为内容嵌入,实现跨注意力的传递。

DreaMoving.png

值得一提的是,目前DreaMoving项目并没有开源代码。

项目网址:https://dreamoving.github.io/dreamoving/

论文网址:https://arxiv.org/abs/2312.05107

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Phantom:字节跳动开源的跨模态对齐AI视频生成框架
Phantom是字节跳动开源的一款先进的AI视频生成框架,它专注于跨模态对齐技术,能够将文本、图像等多种模态的信息有效融合,生成高质量、连贯的视频内容。作为字节跳动在人工智...
2025-02-20 新闻资讯
147

SkyReels-V1:昆仑万维开源的AI短视频生成模型
SkyReels-V1是昆仑万维开发的一款面向AI短剧创作的视频生成模型。它利用先进的深度学习技术,通过结合口型生成、表情生成和肢体生成等多个生成模块,实现了对人物表演细节的精...
2025-02-19 新闻资讯
170

FlashVideo:字节跳动和香港大学联合推出的高分辨率视频生成框架
FlashVideo是一种高效的高分辨率视频生成框架,旨在解决传统单阶段扩散模型在计算成本上的不足。该框架通过两阶段方法生成高分辨率视频,首先使用大型模型在低分辨率下生成与...
2025-02-12 新闻资讯
170

Loopy:字节跳动开发的一款音频驱动的AI视频生成模型
Loopy是由字节跳动和浙江大学联合开发的一款基于音频驱动的AI视频生成模型。它能够将静态照片或图像转化为动态视频,使照片中的人物能够根据输入的音频文件进行面部表情和头部...
2025-01-31 新闻资讯
220

MIMO:阿里巴巴智能研究院开源的多功能可控视频合成模型
MIMO 是阿里巴巴集团智能计算研究院开源的一种用于可控视频合成的通用模型,其核心思想是将2D视频编码为紧凑的空间代码,并考虑视频发生的固有3D特性。通过这种编码方式,MIM...
2024-11-10 新闻资讯
305

智谱清影:智谱AI推出的基于CogVideoX大模型的AI视频生成工具
智谱清影是智谱AI推出的一款革命性的视频生成应用,它基于新一代视频生成大模型CogVideoX,旨在为用户提供快速、高效、高质量的视频生成服务。无论是从文字创意生成视频,还是...
2024-10-31 新闻资讯
622