腾讯开源对口型工具AniPortrait 让照片唱歌说话

站长之家 2024-03-28 10:31:56新闻资讯
347

AniPortrait是一个创新的项目,它能够基于音频和一张参考人脸照片来生成高品质的动画。这个项目的工作原理分为两个步骤。

1、AniPortrait会从音频中提取出三维的中间数据,并将这些数据转换成一连串的二维面部轮廓标记。这个过程是项目的初步阶段,为后续的人脸动画生成打下基础。

2、项目利用一种强大的扩散模型,并结合一个运动模块,把这些面部轮廓标记转化为既真实又流畅的人脸动画。这个步骤是项目的关键,它使得生成的动画既真实又流畅,为观众带来了更佳的观感体验。

实验结果显示,AniPortrait在面部的自然表现、姿态的多样性以及整体的视觉效果上都具有明显的优势。这意味着,无论是面部表情的自然度,还是姿态的丰富性,甚至是整体的视觉效果,AniPortrait都能做得很好。

AniPortrait.png

项目开源地址:https://github.com/Zejun-Yang/AniPortrait

AniPortrait的方法在灵活性和可控性方面也显示出巨大的潜力。这意味着,用户可以根据自己的需要,调整面部动作或重新演绎面部表情,这无疑增加了项目的实用性和趣味性。

AniPortrait是一个功能强大且具有高度灵活性的项目,它能够基于音频和一张参考人脸照片生成高品质的动画,为用户带来丰富的观感体验。虽然它可能没有EMO演示的那么好,但是它直接开源,对于有需求的用户来说,可以直接使用。

开源
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

CosyVoice:阿里通义实验室开源的AI语音合成(TTS)大模型
CosyVoice是阿里通义实验室研发的一款功能强大的语音合成(Text-To-Speech, TTS)大模型。作为阿里巴巴集团在AI语音技术领域的一项重要成果,CosyVoice不仅整合了多种实用功能,...
2025-02-22 新闻资讯
165

OSUM:西北工业大学ASLP实验室研发的开源语音理解模型
OSUM,全称为Open Speech Understanding Model,是由西北工业大学ASLP实验室研发的开源语音理解模型。该模型结合了Whisper编码器和Qwen2语言模型,旨在通过多任务学习的方式提...
2025-02-21 新闻资讯
150

腾讯理财通升级AI能力:同时接入DeepSeek和混元大模型
腾讯理财通2月20日宣布重要升级:同时接入DeepSeek-R1模型满血版和腾讯混元大模型,标志着这家服务数亿用户的财富管理平台在AI金融服务领域迈出重要一步。本次升级后,腾讯理财...
2025-02-20 新闻资讯
160

Phantom:字节跳动开源的跨模态对齐AI视频生成框架
Phantom是字节跳动开源的一款先进的AI视频生成框架,它专注于跨模态对齐技术,能够将文本、图像等多种模态的信息有效融合,生成高质量、连贯的视频内容。作为字节跳动在人工智...
2025-02-20 新闻资讯
164

SkyReels-V1:昆仑万维开源的AI短视频生成模型
SkyReels-V1是昆仑万维开发的一款面向AI短剧创作的视频生成模型。它利用先进的深度学习技术,通过结合口型生成、表情生成和肢体生成等多个生成模块,实现了对人物表演细节的精...
2025-02-19 新闻资讯
180

Step-Audio:阶跃星辰与吉利汽车集团联合开源的语音交互大模型
Step-Audio是阶跃星辰与吉利汽车集团联合开源的阶跃Step系列多模态大模型中的一个重要组成部分,专注于语音交互领域。作为行业内首款产品级开源语音交互大模型,Step-Audio的...
2025-02-18 新闻资讯
160