AI模型(DiffPortrait3D):一张肖像图就能创造各种逼真表情3D表情

站长之家 2023-12-28 15:49:23新闻资讯
41

近期,大型语言模型(LLMs)在人工智能社区引起了轰动,归功于其出色的能力和性能。这些模型在几乎所有基于AI子领域的行业中展现出了非凡的应用,包括自然语言处理、自然语言生成和计算机视觉。尽管计算机视觉,尤其是扩散模型引起了极大关注,但仍然存在使用有限输入生成高保真、连贯新视角的挑战。

为了应对这一挑战,字节跳动的研究团队最近推出了DiffPortrait3D,这是一种独特的条件扩散模型,旨在从一张野外拍摄的肖像中创建逼真的、3D一致的视图。DiffPortrait3D可以将一张二维(2D)非受限制的肖像重建为人脸的三维(3D)表示。

DiffPortrait3D.png

简单来说,给定一张彩色照片作为输入,该项目的目标是合成具有保持身份和面部表情的合理但一致的面部细节,以新的相机视角呈现出来。与耗时的优化和微调不同,这种零样本方法能够很好地推广到具有不规定相机视角、极端面部表情和多样艺术描绘的任意人脸肖像。其核心思想是利用在大规模图像数据集上预训练的2D扩散模型作为渲染骨架,同时使用解耦的关注控制外观和相机姿势的去噪引导。

为了实现这一点,首先将参考图像的外观上下文注入到冻结的UNets的自注意层中。然后,使用一个新颖的条件控制模块来解释相机姿势,该模块通过观察来自相同视角的一个交叉主体的条件图像。此外,研究人员插入一个可训练的跨视图注意模块来增强视图一致性,这进一步通过推断期间的新颖3D感知噪声生成过程得以加强。

DiffPortrait3D使用特殊的条件控制模块来改变渲染视图。该模块分析从相同角度拍摄的主体的条件图像,以解释相机的态度。这使得模型能够从不同视角结合一致的面部特征。

为了进一步提高视觉一致性,还引入了一个可训练的交叉视图注意力模块。在面对严重的面部表情或不定姿态的相机视角可能导致困难的情况下,这个模块尤其有帮助。

为了确保推理过程的弹性,还包括了一种独特的3D感知噪声生成机制。这一阶段增加了合成图像的整体稳定性和逼真感。团队在严格的多视角和野外基准测试上评估了DiffPortrait3D的性能,展示了在各种艺术风格和环境设置下产生逼真高质量面部重建的最新成果。

该技术主要特点包括:

  • 1. 引入了一种独特的零样本方法,通过扩展2D稳定扩散,从单一肖像创建3D一致的新视图。

  • 2. 该方法在独特视图合成方面取得了令人印象深刻的成就,支持外观、表情、态度和风格各异的肖像,无需繁琐的微调。

  • 3. 使用明确分离的外观和相机视图控制系统,实现了有效的相机操作,而不影响主体的表情或身份。

  • 4. 该方法结合了交叉视图注意力模块和3D感知噪声生成技术,提供了3D视图的长程一致性。

项目网址:https://github.com/FreedomGu/DiffPortrait3D

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

LiblibAI(哩布哩布AI):国内首家原创AI模型分享及图片生成网站
LiblibAI(哩布哩布AI)是一个专注于AI模型分享和图片生成的在线平台。它汇聚了众多原创AI模型和AI创作工具,用户可以通过这些模型轻松生成各种风格和主题的图片,满足个性化的...
2024-07-30 新闻资讯
270

GPT-4o mini是什么?GPT-4o mini和GPT-4o的区别对比
GPT-4o mini是OpenAI于2024年7月18日推出的迷你AI模型,它是GPT-4o的一个分支。本文ZHANID将深入探讨GPT-4o mini的核心特点、应用场景以及与完整版GPT-4o的主要区别。我们将从...
2024-07-20 电脑知识
166

OpenAI启动新一代AI模型训练,迈向通用人工智能新征程
全球领先的人工智能研究和部署公司Open AI近日宣布,已正式启动新一代旗舰人工智能模型的训练工作。这一举措旨在超越现有的GPT-4大模型,进一步拓展人工智能技术的能力边界,...
2024-05-29 新闻资讯
89

OpenAI推出免费旗舰AI模型GPT-4o,全面提升交互体验
在人工智能领域不断突破的OpenAI近日宣布,其最新研发的生成式AI模型GPT-4o即将与公众见面,并在未来数周内逐步整合到OpenAI的系列产品之中。这一消息在科技界引起了广泛关注...
2024-05-14 新闻资讯
64

阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话
阿里云宣布,EMO模型成功在通义APP中上线,并且完全开放给所有用户免费使用。如今,在通义千问APP内,用户只需简单三步操作:选择模版、上传照片、生成视频,即可轻松实现照片...
2024-04-26 新闻资讯
59

斯坦福团队大模型Octopus v2火了:手机就能运行 准确性超越GPT-4
近日,斯坦福大学研究人员发布的 Octopus v2模型引起了开发者社区的极大关注,其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行,...
2024-04-07 新闻资讯
44