字节跳动开源MagicAnimate:照片秒变真人舞蹈视频

站长之家 2023-12-05 11:04:45新闻资讯
305

从今天起,在社交平台上看到的小姐姐舞蹈短视频很可能就是AI生成的。字节跳动新开源基于SD1.5的MagicAnimate,它只需要一张照片和一组动作,就能生成近似真人的舞蹈视频。

MagicAnimate.png

项目地址:https://github.com/magic-research/magic-animate

MagicAnimate是一项利用先进的扩散模型实现人体图像动画的创新性项目。其核心优势在于确保生成内容的时间一致性,通过提供预训练的稳定扩散V1.5和MSE微调的VAE基础模型,使用户能够轻松入门。

使用MagicAnimate只需要一张照片和一组动作。用户可以选择一张喜欢的小姐姐的照片,然后通过输入一组动作,让AI根据这些信息生成一个舞蹈视频。这个舞蹈视频看起来非常逼真,几乎可以让人误以为是真实人物在跳舞。

为使用MagicAnimate,用户需下载稳定扩散V1.5和MSE微调的VAE预训练基模型,并按照提供的结构组织检查点。安装简便,仅需Python(3.8以上版本)、CUDA(11.3以上版本)和FFmpeg。可通过conda或pip安装依赖项。

推理过程:

MagicAnimate提供了用户友好的推理过程。用户可通过提供的bash脚本在单个GPU上运行推理,或使用另一个脚本在多个GPU上运行,以优化性能。这种简便的推理方式确保了从初学者到经验丰富的研究人员的广泛可访问性。

字节跳动 开源
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

HelloMeme:开源AI面部表情与姿态迁移框架
HelloMeme是一款开源的面部表情与姿态迁移框架,它利用先进的AI技术,特别是基于最新的Diffusion生成技术,实现了将视频中的人物表情和姿态迁移到静态图像中,生成个性化、趣...
2025-01-10 新闻资讯
139

LongWriter:清华大学数据挖掘研究组(THUDM)开源的超长文本生成模型
LongWriter是由清华大学数据挖掘研究组(THUDM)开发的开源语言模型,旨在让大型语言模型(LLMs)能够生成超长文本。通过引入一种基于代理的“计划-写作”方法,LongWriter将复杂...
2025-01-09 新闻资讯
143

LatentSync:字节跳动开源的视频人物唇部动作与音频精准同步模型
LatentSync是一项由字节跳动联合北京交通大学提出的创新技术,它代表了一种新型的唇部同步框架。该框架基于音频条件潜在扩散模型,旨在实现视频中人物唇部动作与音频的精准同...
2025-01-06 新闻资讯
220

Midscene.js:字节跳动开源的AI自动化测试与交互工具
Midscene.js是一款由字节跳动web-infra团队最新开源的AI驱动的自动化SDK,旨在通过自然语言交互的方式,实现对网页的自动化测试与交互。该工具利用多模态大语言模型,能够直观...
2024-12-26 新闻资讯
245

FunASR:阿里巴巴达摩院开源的语音识别工具包
FunASR是由阿里巴巴达摩院开源的语音识别工具包,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产。它集成了语音端点检测、语音识别、标点预测等领域的工业级...
2024-12-24 新闻资讯
171

Leffa:Meta AI开源的可控人物图像生成框架
Leffa,全称为Learning Flow Fields in Attention,是Meta AI推出的一个用于可控人物图像生成的开源框架。它基于注意力机制和流场学习,能够精确控制人物的外观(如服装、配饰...
2024-12-23 新闻资讯
206