音频生成


TangoFlux:高效的文本到音频生成模型,3.7秒就能生成30秒音频!
TangoFlux 是一种高效的文本到音频生成模型,具有 515M 参数,能够在单个 A40 GPU 上生成长达 30 秒的 44.1kHz 立体声音频,仅需 3.7 秒。该模型通过引入一种新颖的框架——C...
2025-01-02 新闻资讯
139

Fugatto:NVIDIA推出的生成式AI音频生成与转换模型
Fugatto是NVIDIA研究团队精心打造的生成式AI模型,它能够通过文本和音频输入生成各种音乐、声音和语音的组合。Fugatto具有高度的灵活性,可以根据用户的指令创造出全新的音效...
2024-11-26 新闻资讯
169