AI音频模型Audiobox:通过语音和自然语言提示生成音频

站长之家 2023-12-01 10:19:55新闻资讯
118

Meta最新发布了Audiobox,这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。

Audiobox是Voicebox的继任者,进一步推动了音频生成领域的发展。与Voicebox相比,Audiobox具有更强大的可控性,用户可以使用文本描述提示来指定语音和音效的风格,这是Voicebox不支持的功能。通过同时使用语音输入和文本提示,用户可以实现自由形式的语音重塑,这在当前的模型中尚属首次。

Audiobox.png

这款模型的独特之处在于,它允许用户使用自然语言提示描述他们想要生成的声音或语音类型。例如,如果有人想要生成一片音景,他们可以给模型一个文本提示,如“一条奔流的河流和鸟儿的鸣叫”。

Audiobox不仅在语音生成方面表现出色,还在音效生成方面表现出色。经过内部测试,Audiobox在质量和相关性方面明显超过先前的最佳模型,并在主观评估中以超过30%的样式相似性优势击败了Voicebox。

为了促进领域的发展并确保研究的负责任性,Meta计划邀请研究人员和学术机构申请资金,用于Audiobox的安全和责任研究。这一举措反映了他们对AI创新的关切,强调了与研究社区合作的重要性。

Audiobox的推出标志着音频生成领域的一项重要进展,Meta希望通过这一创新降低音频创作的门槛,使任何人都能轻松成为音频内容创作者。这对于视频、播客、游戏等多种用例都具有潜在的影响,为未来的音频创作开辟了新的可能性。

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

AI编程工具(Cursor)实战:Web版背单词应用开发演示
随着人工智能技术的不断发展,AI编程工具逐渐成为开发者们的重要助手。Cursor作为一款功能强大的AI编程工具,能够帮助开发者们提高编程效率,减少代码错误。本文将通过实战演...
2025-02-21 编程技术
164

义乌老板利用DeepSeek卖空小商品,AI技术助力国际贸易
2025年,在“世界小商品之都”义乌,一场由AI技术引领的商业变革正在悄然发生。众多义乌老板正利用最新的人工智能工具——DeepSeek,将自家的小商品销往全球各地,实现了销售...
2025-02-21 新闻资讯
150

OSUM:西北工业大学ASLP实验室研发的开源语音理解模型
OSUM,全称为Open Speech Understanding Model,是由西北工业大学ASLP实验室研发的开源语音理解模型。该模型结合了Whisper编码器和Qwen2语言模型,旨在通过多任务学习的方式提...
2025-02-21 新闻资讯
148

钉钉 AI 企业搜索宣布向所有用户限时免费开放
2025年2月20日,钉钉宣布其AI企业搜索功能向所有用户限时免费开放。这一举措旨在帮助企业用户更高效地管理和利用知识资产,提升信息检索效率。该工具借助大模型的理解、推理和...
2025-02-20 新闻资讯
153

腾讯理财通升级AI能力:同时接入DeepSeek和混元大模型
腾讯理财通2月20日宣布重要升级:同时接入DeepSeek-R1模型满血版和腾讯混元大模型,标志着这家服务数亿用户的财富管理平台在AI金融服务领域迈出重要一步。本次升级后,腾讯理财...
2025-02-20 新闻资讯
155

10分钟上手DeepSeek开发:SpringBoot + Vue2快速构建AI对话系统
作为国产大语言模型的新秀,DeepSeek以其出色的中文理解能力和开放的API接口,为开发者提供了构建AI应用的新选择。在本文中,我将带领大家使用SpringBoot和Vue技术栈,快速搭...
2025-02-20 编程技术
167