DisPose:一种可控的人体图像动画方法

原创 2024-12-28 12:32:31新闻资讯
136

随着计算机图形学和人工智能技术的飞速发展,人物图像动画在影视制作、游戏开发、虚拟现实等领域的应用越来越广泛。然而,传统的人物图像动画方法往往需要依赖大量的密集输入,如深度图、光流场等,这不仅增加了数据获取的难度,也限制了动画生成的灵活性和通用性。为了克服这些挑战,研究人员提出了一种新的可控人体图像动画方法——DisPose。

DisPose.webp

DisPose是什么

DisPose是一种基于稀疏和密集运动场估计、关键点特征提取和混合ControlNet的可控人体图像动画方法。它由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出,旨在提高人物图像动画的质量和灵活性。DisPose通过从骨骼姿态和参考图像中提取有效的控制信号,生成密集运动场,并保持对不同体型的泛化能力。其核心在于将姿态控制分解为运动场引导和关键点对应,从而在无需额外密集输入的情况下,显著提升动画的生成质量和一致性。

功能特色

运动场引导

DisPose能够从骨骼姿态生成密集运动场,提供区域级的密集引导,增强视频生成中的动作一致性。这种运动场引导不仅考虑了全局的运动趋势,还关注了局部的运动细节,从而使得生成的动画更加自然流畅。

关键点对应

DisPose通过提取与参考图像中姿态关键点对应的扩散特征,将扩散特征转移到目标姿态,保持身份信息的一致性。这种关键点对应方法能够准确地捕捉人物的姿态变化,同时保持人物的身份特征不变,从而提高了动画的真实感和可信度。

即插即用模块

DisPose还包含一个即插即用的混合ControlNet模块,能够无缝集成到现有的人物图像动画模型中,改善生成视频的质量和一致性。这种即插即用模块的设计使得DisPose可以轻松地与其他动画模型结合使用,提高了其应用的灵活性和广泛性。

无需额外密集输入

DisPose在不依赖于额外密集输入(如深度图、光流场等)的情况下工作,减少了对参考角色和驱动视频之间身体形状差异的敏感性。这使得DisPose更加适用于实际应用中的复杂场景和多样化需求。

技术细节

稀疏和密集运动场估计

DisPose基于稀疏和密集运动场估计来生成动画控制信号。首先,它使用DWpose估计骨骼姿态,并将其表示为轨迹图。然后,它利用条件运动传播(CMP)基于稀疏运动场和参考图像预测密集运动场。这种运动场估计方法结合了稀疏和密集运动场的优点,能够提供更细致的运动信号。

关键点特征提取

DisPose使用预训练的图像扩散模型提取参考图像的DIFT特征,并将这些特征与关键点对应起来,形成关键点特征图。这些关键点特征图能够准确地捕捉人物的姿态变化和身份信息,为后续的动画生成提供重要的控制信号。

混合ControlNet

DisPose设计了混合ControlNet来无缝集成运动场引导和关键点对应。混合ControlNet在训练期间进行更新,以便将这两种控制信号有效地注入到潜在的视频扩散模型中。这种设计使得DisPose能够生成准确的人物图像动画,同时保持生成视频的质量和一致性。

特征融合与控制信号集成

DisPose基于特征融合层将稀疏和密集运动特征结合起来,生成最终的运动场引导信号。然后,它将运动场引导和关键点对应作为额外的控制信号,注入到潜在的视频扩散模型中,以生成最终的人物图像动画。这种特征融合与控制信号集成的方法使得DisPose能够生成高质量、高一致性的动画视频。

DisPose2.webp

应用场景

影视制作

DisPose可以用于影视制作中的人物图像动画生成。通过将演员的表演捕捉为骨骼姿态和参考图像,DisPose可以生成高质量、高一致性的动画视频。这不仅可以减少特效制作的成本和时间,还可以提高影片的真实感和视觉冲击力。

游戏开发

DisPose也可以用于游戏开发中的人物图像动画生成。通过将游戏角色的动作捕捉为骨骼姿态和参考图像,DisPose可以生成流畅、自然的动画效果。这不仅可以提高游戏的视觉体验,还可以增加游戏的互动性和趣味性。

虚拟现实

在虚拟现实领域,DisPose可以用于生成逼真的虚拟人物动画。通过将用户的动作捕捉为骨骼姿态和参考图像,DisPose可以生成与用户动作同步的虚拟人物动画。这不仅可以提高虚拟现实的沉浸感和交互性,还可以增加虚拟环境的真实感和可信度。

动画制作

DisPose还可以用于动画制作中的人物图像动画生成。通过将动画师绘制的角色动作捕捉为骨骼姿态和参考图像,DisPose可以生成高质量的动画视频。这不仅可以减少动画制作的时间和成本,还可以提高动画的真实感和表现力。

DisPose3.webp

总结

DisPose是一种基于稀疏和密集运动场估计、关键点特征提取和混合ControlNet的可控人体图像动画方法。它通过从骨骼姿态和参考图像中提取有效的控制信号,生成密集运动场,并保持对不同体型的泛化能力。DisPose的核心在于将姿态控制分解为运动场引导和关键点对应,从而在无需额外密集输入的情况下,显著提升动画的生成质量和一致性。DisPose具有运动场引导、关键点对应、即插即用模块和无需额外密集输入等功能特色,适用于影视制作、游戏开发、虚拟现实和动画制作等多个领域。通过相关官方链接,可以获取更多关于DisPose的信息和资源。DisPose的推出为人物图像动画领域带来了新的发展机遇和挑战,相信在未来的发展中将发挥越来越重要的作用。

图像动画 视频生成
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Allegro-TI2V:Rhymes AI开发的一款先进文本图像到视频生成模型
Allegro-TI2V是Rhymes AI开发的一款先进文本-图像到视频生成模型。它利用深度学习技术,将用户输入的文本提示和初始图像转化为连续的视频内容。Allegro-TI2V的发布标志着AI技...
2024-11-29 新闻资讯
159

字节跳动推出PixelDance与Seaweed视频生成模型:可在即梦AI平台免费体验
近日,字节跳动宣布推出两款全新的视频生成模型——PixelDance和Seaweed,并通过其即梦AI平台向公众免费开放使用。这一举措旨在助力设计师、影视制作人员及动画创作者等专业人...
2024-11-18 新闻资讯
172

智谱清影:智谱AI推出的基于CogVideoX大模型的AI视频生成工具
智谱清影是智谱AI推出的一款革命性的视频生成应用,它基于新一代视频生成大模型CogVideoX,旨在为用户提供快速、高效、高质量的视频生成服务。无论是从文字创意生成视频,还是...
2024-10-31 新闻资讯
326

Animate-X:阿里巴巴蚂蚁集团开发的通用角色图像动画系统
Animate-X是一个由阿里巴巴蚂蚁集团开发的通用角色图像动画系统,能够通过增强运动表现进行动画制作,使得静态图像能够自动转化为动态角色动画。这一技术的出现,不仅降低了动...
2024-10-30 新闻资讯
214

对标Sora!快手自研视频生成大模型可灵AI全面开放内测
7月25日消息,日前,快手视频生成大模型可灵AI宣布基础模型升级,并全面开放内测,同时正式上线付费会员体系。用户每日登录都可免费获得66灵感值,可用于兑换可灵AI平台内指定...
2024-07-25 新闻资讯
194

Runway发布新一代视频生成模型Gen-3 Alpha,引领内容创作新浪潮
近日,专注于为电影和图像内容创作者提供创新工具的Runway公司宣布,其最新研发的Gen-3 Alpha视频生成模型已正式亮相。这一突破性技术在视频生成速度和质量上实现了显著提升,...
2024-06-19 新闻资讯
92