ai模型
VMix是一种新颖的即插即用适配器,通过细粒度的美学控制显著提升了文本到图像生成模型的性能。其灵活的设计和强大的功能使其在个性化图像生成、艺术创作、商业应用和教育培训...
2025-01-18
新闻资讯
104
StructLDM是一种从2D图像集合中生成3D人体的新型范式。它利用先进的深度学习技术和计算机视觉算法,从图像和视频中学习人体的高维表征,并通过结构化的自动解码器和隐空间扩散...
2025-01-16
新闻资讯
127
ViTPose 是一种基于视觉变换器(ViT)的人体姿态估计模型。视觉变换器最初由 Google Research 提出,用于图像分类任务,其核心思想是将图像分割成多个小块(patch),然后通过自注...
2025-01-15
新闻资讯
118
AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中,并引入多步常微分方程(mul...
2025-01-13
新闻资讯
124
LongWriter是由清华大学数据挖掘研究组(THUDM)开发的开源语言模型,旨在让大型语言模型(LLMs)能够生成超长文本。通过引入一种基于代理的“计划-写作”方法,LongWriter将复杂...
2025-01-09
新闻资讯
141
LatentSync是一项由字节跳动联合北京交通大学提出的创新技术,它代表了一种新型的唇部同步框架。该框架基于音频条件潜在扩散模型,旨在实现视频中人物唇部动作与音频的精准同...
2025-01-06
新闻资讯
217
CAP4D是一种基于形变多视角扩散模型(MMDM)的新技术,旨在通过任意数量的参考图像生成逼真的4D(动态3D)头像。该模型采用双阶段方法,首先利用MMDM生成不同视角和表情的图像,然...
2024-12-27
新闻资讯
165
Allegro-TI2V是Rhymes AI开发的一款先进文本-图像到视频生成模型。它利用深度学习技术,将用户输入的文本提示和初始图像转化为连续的视频内容。Allegro-TI2V的发布标志着AI技...
2024-11-29
新闻资讯
178
OminiControl是一种基于预训练Diffusion Transformer(DiT)模型的高效灵活的图片生成与控制框架。它旨在通过参数复用机制和统一的多模态注意力处理器,将图片条件无缝集成到...
2024-11-27
新闻资讯
280
Fugatto是NVIDIA研究团队精心打造的生成式AI模型,它能够通过文本和音频输入生成各种音乐、声音和语音的组合。Fugatto具有高度的灵活性,可以根据用户的指令创造出全新的音效...
2024-11-26
新闻资讯
188
Marco-o1是阿里巴巴国际数字商业集团MarcoPolo团队研发的一款先进的大型推理模型。该模型基于Qwen2-7B-Instruct架构,通过结合多种先进技术和大量训练数据,旨在解决复杂现实...
2024-11-26
新闻资讯
203
Edify 3D是NVIDIA推出的一款专为高质量3D资产生成而设计的高级解决方案。它融合了先进的扩散模型、Transformer技术以及多视图重建策略,能够在极短的时间内生成具有详细几何形...
2024-11-25
新闻资讯
231
EchoMimicV2是由蚂蚁集团的终端技术部门开发的一款先进的人类动画生成模型。作为EchoMimic系列的最新迭代,V2版本在功能和性能上实现了显著提升,专注于生成高质量的半身人类...
2024-11-25
新闻资讯
300
SPIRIT LM(Spirit Language Model),由Meta AI团队开发并开源,是一款具有里程碑意义的多模态大语言模型。不同于传统语言模型主要聚焦于单一模态(如纯文本)的处理,SPIRIT LM...
2024-11-22
新闻资讯
169
Whisper-NER是aiOla基于OpenAI的开源语音识别模型Whisper开发的一款高级音频转录模型。它不仅继承了Whisper在多语言、实时处理及高准确度方面的卓越性能,还创新性地加入了敏...
2024-11-21
新闻资讯
207