ai模型


VMix:提升文本到图像扩散模型的交叉注意力混合控制
VMix是一种新颖的即插即用适配器,通过细粒度的美学控制显著提升了文本到图像生成模型的性能。其灵活的设计和强大的功能使其在个性化图像生成、艺术创作、商业应用和教育培训...
2025-01-18 新闻资讯
111

StructLDM:高质量、多样化三维数字人生成模型
StructLDM是一种从2D图像集合中生成3D人体的新型范式。它利用先进的深度学习技术和计算机视觉算法,从图像和视频中学习人体的高维表征,并通过结构化的自动解码器和隐空间扩散...
2025-01-16 新闻资讯
130

ViTPose:基于视觉变换器(ViT)的人体姿态估计模型
ViTPose 是一种基于视觉变换器(ViT)的人体姿态估计模型。视觉变换器最初由 Google Research 提出,用于图像分类任务,其核心思想是将图像分割成多个小块(patch),然后通过自注...
2025-01-15 新闻资讯
122

AudioLCM:浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型
AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中,并引入多步常微分方程(mul...
2025-01-13 新闻资讯
128

LongWriter:清华大学数据挖掘研究组(THUDM)开源的超长文本生成模型
LongWriter是由清华大学数据挖掘研究组(THUDM)开发的开源语言模型,旨在让大型语言模型(LLMs)能够生成超长文本。通过引入一种基于代理的“计划-写作”方法,LongWriter将复杂...
2025-01-09 新闻资讯
143

LatentSync:字节跳动开源的视频人物唇部动作与音频精准同步模型
LatentSync是一项由字节跳动联合北京交通大学提出的创新技术,它代表了一种新型的唇部同步框架。该框架基于音频条件潜在扩散模型,旨在实现视频中人物唇部动作与音频的精准同...
2025-01-06 新闻资讯
220

CAP4D:基于MMDM的4D虚拟头像生成模型
CAP4D是一种基于形变多视角扩散模型(MMDM)的新技术,旨在通过任意数量的参考图像生成逼真的4D(动态3D)头像。该模型采用双阶段方法,首先利用MMDM生成不同视角和表情的图像,然...
2024-12-27 新闻资讯
167

Allegro-TI2V:Rhymes AI开发的一款先进文本图像到视频生成模型
Allegro-TI2V是Rhymes AI开发的一款先进文本-图像到视频生成模型。它利用深度学习技术,将用户输入的文本提示和初始图像转化为连续的视频内容。Allegro-TI2V的发布标志着AI技...
2024-11-29 新闻资讯
181

OminiControl:基于预训练Diffusion Transformer(DiT)模型的AI图片生成与控制框架
OminiControl是一种基于预训练Diffusion Transformer(DiT)模型的高效灵活的图片生成与控制框架。它旨在通过参数复用机制和统一的多模态注意力处理器,将图片条件无缝集成到...
2024-11-27 新闻资讯
284

Fugatto:NVIDIA推出的生成式AI音频生成与转换模型
Fugatto是NVIDIA研究团队精心打造的生成式AI模型,它能够通过文本和音频输入生成各种音乐、声音和语音的组合。Fugatto具有高度的灵活性,可以根据用户的指令创造出全新的音效...
2024-11-26 新闻资讯
190

Marco-o1:阿里巴巴开源的一款先进大型推理模型
Marco-o1是阿里巴巴国际数字商业集团MarcoPolo团队研发的一款先进的大型推理模型。该模型基于Qwen2-7B-Instruct架构,通过结合多种先进技术和大量训练数据,旨在解决复杂现实...
2024-11-26 新闻资讯
206

Edify 3D:NVIDIA推出高质量3D资产生成模型
Edify 3D是NVIDIA推出的一款专为高质量3D资产生成而设计的高级解决方案。它融合了先进的扩散模型、Transformer技术以及多视图重建策略,能够在极短的时间内生成具有详细几何形...
2024-11-25 新闻资讯
234

EchoMimicV2:蚂蚁集团开源的AI虚拟数字人生成模型
EchoMimicV2是由蚂蚁集团的终端技术部门开发的一款先进的人类动画生成模型。作为EchoMimic系列的最新迭代,V2版本在功能和性能上实现了显著提升,专注于生成高质量的半身人类...
2024-11-25 新闻资讯
303

SPIRIT LM:Meta开源的多模态大语言模型,能自由混合并理解文本和语音数据
SPIRIT LM(Spirit Language Model),由Meta AI团队开发并开源,是一款具有里程碑意义的多模态大语言模型。不同于传统语言模型主要聚焦于单一模态(如纯文本)的处理,SPIRIT LM...
2024-11-22 新闻资讯
171

Whisper-NER:aiOla推出的开源AI音频转录模型,实时遮蔽敏感信息
Whisper-NER是aiOla基于OpenAI的开源语音识别模型Whisper开发的一款高级音频转录模型。它不仅继承了Whisper在多语言、实时处理及高准确度方面的卓越性能,还创新性地加入了敏...
2024-11-21 新闻资讯
209