阿里推开源版“妙鸭”FaceChain 1张图片百种定制

站长之家 2024-01-10 17:03:29新闻资讯
112

FaceChain-FACT是阿里推出的一项人工智能生成个性化肖像的技术,通过Deformable Neural Radiance Fields技术从普通视频中创造自由视点的肖像。使用FaceChainAI照片生成模型,不需要提供多张照片训练LoRA(妙鸭相机的原理),仅需一张用户照片即可生成高度定制的肖像,支持百余种定制模版,生成速度更是快过商业应用100倍,达到秒级。

FaceChain-FACT.png

项目地址:https://facechain-fact.github.io/

其技术方法包括图像预处理、基于Transformer的面部特征提取器、稳定扩散等,支持多种LoRA模型,实现多样化肖像风格。这一技术的应用前景广泛,尤其在人工智能生成内容领域具有巨大潜力。

在技术方法方面,FaceChain-FACT通过一系列图像预处理步骤获取训练数据集,利用Transformer-based的面部特征提取器提取面部特征,使用稳定扩散将面部条件传递给FACT-Adapter,结合文本嵌入生成高质量肖像图像。该技术还支持ControlNet和LoRA插件,具有强大的插拔性。

总体而言,FaceChain-FACT的提出填补了现有技术的空白,为个性化肖像生成提供了一种更加高效和简便的解决方案,同时在生成速度和定制化程度方面实现了显著的进步。这对于人工智能生成内容的发展具有积极的推动作用。

开源
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

HelloMeme:开源AI面部表情与姿态迁移框架
HelloMeme是一款开源的面部表情与姿态迁移框架,它利用先进的AI技术,特别是基于最新的Diffusion生成技术,实现了将视频中的人物表情和姿态迁移到静态图像中,生成个性化、趣...
2025-01-10 新闻资讯
178

LongWriter:清华大学数据挖掘研究组(THUDM)开源的超长文本生成模型
LongWriter是由清华大学数据挖掘研究组(THUDM)开发的开源语言模型,旨在让大型语言模型(LLMs)能够生成超长文本。通过引入一种基于代理的“计划-写作”方法,LongWriter将复杂...
2025-01-09 新闻资讯
192

LatentSync:字节跳动开源的视频人物唇部动作与音频精准同步模型
LatentSync是一项由字节跳动联合北京交通大学提出的创新技术,它代表了一种新型的唇部同步框架。该框架基于音频条件潜在扩散模型,旨在实现视频中人物唇部动作与音频的精准同...
2025-01-06 新闻资讯
290

Midscene.js:字节跳动开源的AI自动化测试与交互工具
Midscene.js是一款由字节跳动web-infra团队最新开源的AI驱动的自动化SDK,旨在通过自然语言交互的方式,实现对网页的自动化测试与交互。该工具利用多模态大语言模型,能够直观...
2024-12-26 新闻资讯
352

FunASR:阿里巴巴达摩院开源的语音识别工具包
FunASR是由阿里巴巴达摩院开源的语音识别工具包,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产。它集成了语音端点检测、语音识别、标点预测等领域的工业级...
2024-12-24 新闻资讯
213

Leffa:Meta AI开源的可控人物图像生成框架
Leffa,全称为Learning Flow Fields in Attention,是Meta AI推出的一个用于可控人物图像生成的开源框架。它基于注意力机制和流场学习,能够精确控制人物的外观(如服装、配饰...
2024-12-23 新闻资讯
276