AudioLCM：浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型

原创 2025-01-13 10:05:08新闻资讯

206

文本到音频生成(Text-to-Audio Generation, 简称 TTA)作为生成任务的一个子领域，涵盖了音效创作、音乐创作和合成语音，具有广泛的应用潜力。在影视后期制作、电子游戏开发、音频编辑等领域，高质量的文本到音频生成模型能够显著提高工作效率和创作质量。然而，传统的潜在扩散模型(Latent Diffusion Models, LDMs)尽管在多个生成任务中表现卓越，但其迭代采样过程带来了巨大的计算负担，导致生成速度缓慢，限制了它们在实际 TTA 应用中的部署。为了解决这一问题，浙江大学与阿里巴巴联合提出了一种新型的高效高质量文本-音频生成模型——AudioLCM。

一、AudioLCM是什么

AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中，并引入多步常微分方程(multi-step ODE)求解器的指导一致性蒸馏技术，极大地提高了生成速度和音频质量。同时，AudioLCM 还集成了 LLaMA 开创的先进技术，增强了基于 Transformer 的神经网络架构，进一步提升了模型的性能和训练稳定性。

二、功能特色

高效生成：AudioLCM 通过集成一致性模型，避免了传统 LDMs 依赖迭代过程去除噪声的缺点，实现了快速推理。实验结果显示，AudioLCM 仅需 2 次迭代即可合成高保真音频，同时保持了与使用数百步的最先进模型竞争的样本质量。在单个 NVIDIA 4090Ti GPU 上，AudioLCM 实现了超越实时 333 倍的采样速度，使生成模型在文本到音频生成部署中实际可行。
高质量输出：AudioLCM 通过引入多步 ODE 求解器进行单阶段的指导一致性蒸馏，克服了 LDMs 固有的收敛问题，减少了迭代步骤，同时保持了样品质量。实验结果显示，AudioLCM 生成的音频样本在频谱和分布上与真实音频的差异最小，证明了其高质量的输出能力。
强大的文本到音频合成性能：AudioLCM 通过集成 LLaMA 的先进技术，增强了基于 Transformer 的神经网络架构，提供了更高的性能和训练稳定性。这使得 AudioLCM 在文本到音频合成任务中表现出色，能够生成自然、准确的音频样本。
易于使用和扩展：AudioLCM 的代码已经开源，用户可以在 GitHub 上获取。仓库中包含了详细的指南和脚本，方便用户快速上手和扩展。同时，AudioLCM 支持多种数据集和预训练模型，用户可以根据需要进行选择和调整。

三、技术细节

一致性模型(CMs)的集成：AudioLCM 通过将一致性模型集成到生成过程中，实现了快速推理。一致性模型通过将任意时间步的任何点映射到轨迹的初始点，避免了因为减少反向迭代导致感知质量显著下降的问题。这使得 AudioLCM 在保持高质量输出的同时，显著提高了生成速度。
多步常微分方程(ODE)求解器的引入：为了克服 LDMs 的收敛问题并减少迭代步骤，AudioLCM 引入了多步 ODE 求解器进行单阶段的指导一致性蒸馏。这项创新在保持样品质量的同时，大幅度缩短了时间步长，从数千步减少到数十步，实现了快速的收敛。
增强的 Transformer-based 骨干网络：AudioLCM 通过集成 LLaMA 的先进技术，增强了基于 Transformer 的神经网络架构。这些技术包括预归一化、旋转嵌入和 SwiGLU 激活等，为量身定制的因果变压器架构提供了更高的性能和训练稳定性。这使得 AudioLCM 在文本到音频合成任务中表现出色。
反向扩散过程的 PF-ODE 重定义：为了减少计算开销并提升性能，AudioLCM 重新定义了反向扩散过程的 PF-ODE。引入一致性函数，将一致性噪声预测模型参数化以满足边界条件。通过利用 DDIM 作为 ODE 求解器在训练时确切估计音频潜在变量的演变，AudioLCM 实现了快速收敛和高质量生成。

四、应用场景

AudioLCM 作为一种高效高质量的文本到音频生成模型，具有广泛的应用场景。以下是几个典型的应用场景：

影视后期制作：在影视后期制作中，AudioLCM 可以用于生成各种音效和音乐。例如，通过输入文本描述，AudioLCM 可以快速生成符合剧情需求的背景音乐和特效音效，提高影视作品的制作效率和质量。
电子游戏开发：在电子游戏开发中，AudioLCM 可以用于生成游戏中的音效和背景音乐。通过输入游戏场景和角色的文本描述，AudioLCM 可以快速生成符合游戏氛围的音效和背景音乐，增强游戏的沉浸感和代入感。
音频编辑：在音频编辑领域，AudioLCM 可以用于生成各种语音样本和音效。例如，通过输入文本描述，AudioLCM 可以快速生成符合需求的语音样本和音效素材，为音频编辑工作提供便利。
语音合成：AudioLCM 还可以用于语音合成领域。通过输入文本描述，AudioLCM 可以生成自然、准确的语音样本，为语音合成技术提供新的解决方案。

六、相关链接

AudioLCM 论文链接：https://arxiv.org/html/2406.00356
AudioLCM 代码仓库链接：https://github.com/liuhuadai/AudioLCM

七、总结

AudioLCM 是一种基于一致性模型和潜在扩散模型的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中，并引入多步常微分方程求解器的指导一致性蒸馏技术，实现了高效高质量的文本到音频生成。AudioLCM 在影视后期制作、电子游戏开发、音频编辑和语音合成等领域具有广泛的应用前景。随着技术的不断发展和完善，AudioLCM 有望在更多领域发挥重要作用，为文本到音频生成技术的发展带来新的突破。

文字生成音频 ai生成音频 ai模型

本文由@ai资讯 原创发布。

该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.zhanid.com/news/2974.html

THE END

ai资讯

关注ai行业发展，专注ai软件推荐。

关注