文字生成音频


TangoFlux:高效的文本到音频生成模型,3.7秒就能生成30秒音频!
TangoFlux 是一种高效的文本到音频生成模型,具有 515M 参数,能够在单个 A40 GPU 上生成长达 30 秒的 44.1kHz 立体声音频,仅需 3.7 秒。该模型通过引入一种新颖的框架——C...
2025-01-02 新闻资讯
139