网站导航

在线工具 网址大全 软件下载 网站源码 新闻技术

ai模型

VMix：提升文本到图像扩散模型的交叉注意力混合控制

VMix是一种新颖的即插即用适配器，通过细粒度的美学控制显著提升了文本到图像生成模型的性能。其灵活的设计和强大的功能使其在个性化图像生成、艺术创作、商业应用和教育培训...

2025-01-18 新闻资讯

111

StructLDM：高质量、多样化三维数字人生成模型

StructLDM是一种从2D图像集合中生成3D人体的新型范式。它利用先进的深度学习技术和计算机视觉算法，从图像和视频中学习人体的高维表征，并通过结构化的自动解码器和隐空间扩散...

2025-01-16 新闻资讯

130

ViTPose：基于视觉变换器(ViT)的人体姿态估计模型

ViTPose 是一种基于视觉变换器(ViT)的人体姿态估计模型。视觉变换器最初由 Google Research 提出，用于图像分类任务，其核心思想是将图像分割成多个小块(patch)，然后通过自注...

2025-01-15 新闻资讯

122

AudioLCM：浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型

AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中，并引入多步常微分方程(mul...

2025-01-13 新闻资讯

128

LongWriter：清华大学数据挖掘研究组(THUDM)开源的超长文本生成模型

LongWriter是由清华大学数据挖掘研究组(THUDM)开发的开源语言模型，旨在让大型语言模型(LLMs)能够生成超长文本。通过引入一种基于代理的“计划-写作”方法，LongWriter将复杂...

2025-01-09 新闻资讯

143

LatentSync：字节跳动开源的视频人物唇部动作与音频精准同步模型

LatentSync是一项由字节跳动联合北京交通大学提出的创新技术，它代表了一种新型的唇部同步框架。该框架基于音频条件潜在扩散模型，旨在实现视频中人物唇部动作与音频的精准同...

2025-01-06 新闻资讯

220

CAP4D：基于MMDM的4D虚拟头像生成模型

CAP4D是一种基于形变多视角扩散模型(MMDM)的新技术，旨在通过任意数量的参考图像生成逼真的4D(动态3D)头像。该模型采用双阶段方法，首先利用MMDM生成不同视角和表情的图像，然...

2024-12-27 新闻资讯

167

Allegro-TI2V：Rhymes AI开发的一款先进文本图像到视频生成模型

Allegro-TI2V是Rhymes AI开发的一款先进文本-图像到视频生成模型。它利用深度学习技术，将用户输入的文本提示和初始图像转化为连续的视频内容。Allegro-TI2V的发布标志着AI技...

2024-11-29 新闻资讯

181

OminiControl：基于预训练Diffusion Transformer（DiT）模型的AI图片生成与控制框架

OminiControl是一种基于预训练Diffusion Transformer（DiT）模型的高效灵活的图片生成与控制框架。它旨在通过参数复用机制和统一的多模态注意力处理器，将图片条件无缝集成到...

2024-11-27 新闻资讯

284

Fugatto：NVIDIA推出的生成式AI音频生成与转换模型

Fugatto是NVIDIA研究团队精心打造的生成式AI模型，它能够通过文本和音频输入生成各种音乐、声音和语音的组合。Fugatto具有高度的灵活性，可以根据用户的指令创造出全新的音效...

2024-11-26 新闻资讯

190

Marco-o1：阿里巴巴开源的一款先进大型推理模型

Marco-o1是阿里巴巴国际数字商业集团MarcoPolo团队研发的一款先进的大型推理模型。该模型基于Qwen2-7B-Instruct架构，通过结合多种先进技术和大量训练数据，旨在解决复杂现实...

2024-11-26 新闻资讯

206

Edify 3D：NVIDIA推出高质量3D资产生成模型

Edify 3D是NVIDIA推出的一款专为高质量3D资产生成而设计的高级解决方案。它融合了先进的扩散模型、Transformer技术以及多视图重建策略，能够在极短的时间内生成具有详细几何形...

2024-11-25 新闻资讯

234

EchoMimicV2：蚂蚁集团开源的AI虚拟数字人生成模型

EchoMimicV2是由蚂蚁集团的终端技术部门开发的一款先进的人类动画生成模型。作为EchoMimic系列的最新迭代，V2版本在功能和性能上实现了显著提升，专注于生成高质量的半身人类...

2024-11-25 新闻资讯

303

SPIRIT LM：Meta开源的多模态大语言模型，能自由混合并理解文本和语音数据

SPIRIT LM(Spirit Language Model)，由Meta AI团队开发并开源，是一款具有里程碑意义的多模态大语言模型。不同于传统语言模型主要聚焦于单一模态(如纯文本)的处理，SPIRIT LM...

2024-11-22 新闻资讯

171

Whisper-NER：aiOla推出的开源AI音频转录模型，实时遮蔽敏感信息

Whisper-NER是aiOla基于OpenAI的开源语音识别模型Whisper开发的一款高级音频转录模型。它不仅继承了Whisper在多语言、实时处理及高准确度方面的卓越性能，还创新性地加入了敏...

2024-11-21 新闻资讯

209

共32条首页上一页 1 2 3 下一页尾页

图文资讯

图片压缩软件有哪些？5款免费好用的图片压缩软件推荐

软件下载

太极工具箱
下载
太极工具箱app是一款工具聚合软...
宇宙工具箱
下载
宇宙工具箱是一款功能十分强大且...
金花站长工具
下载
金花站长工具是一款可以进行百度...
爱站SEO工具包
下载
爱站SEO工具包是一款强大的站长工...
入梦工具箱
下载
入梦工具箱是一款仿照图吧工具箱...
极速图片压缩器
下载
极速图片压缩器是一款功能十分强...