AI音频模型Audiobox:通过语音和自然语言提示生成音频

站长之家 2023-12-01 10:19:55新闻资讯
37

Meta最新发布了Audiobox,这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。

Audiobox是Voicebox的继任者,进一步推动了音频生成领域的发展。与Voicebox相比,Audiobox具有更强大的可控性,用户可以使用文本描述提示来指定语音和音效的风格,这是Voicebox不支持的功能。通过同时使用语音输入和文本提示,用户可以实现自由形式的语音重塑,这在当前的模型中尚属首次。

Audiobox.png

这款模型的独特之处在于,它允许用户使用自然语言提示描述他们想要生成的声音或语音类型。例如,如果有人想要生成一片音景,他们可以给模型一个文本提示,如“一条奔流的河流和鸟儿的鸣叫”。

Audiobox不仅在语音生成方面表现出色,还在音效生成方面表现出色。经过内部测试,Audiobox在质量和相关性方面明显超过先前的最佳模型,并在主观评估中以超过30%的样式相似性优势击败了Voicebox。

为了促进领域的发展并确保研究的负责任性,Meta计划邀请研究人员和学术机构申请资金,用于Audiobox的安全和责任研究。这一举措反映了他们对AI创新的关切,强调了与研究社区合作的重要性。

Audiobox的推出标志着音频生成领域的一项重要进展,Meta希望通过这一创新降低音频创作的门槛,使任何人都能轻松成为音频内容创作者。这对于视频、播客、游戏等多种用例都具有潜在的影响,为未来的音频创作开辟了新的可能性。

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

SPIRIT LM:Meta开源的多模态大语言模型,能自由混合并理解文本和语音数据
SPIRIT LM(Spirit Language Model),由Meta AI团队开发并开源,是一款具有里程碑意义的多模态大语言模型。不同于传统语言模型主要聚焦于单一模态(如纯文本)的处理,SPIRIT LM...
2024-11-22 新闻资讯
108

Whisper-NER:aiOla推出的开源AI音频转录模型,实时遮蔽敏感信息
Whisper-NER是aiOla基于OpenAI的开源语音识别模型Whisper开发的一款高级音频转录模型。它不仅继承了Whisper在多语言、实时处理及高准确度方面的卓越性能,还创新性地加入了敏...
2024-11-21 新闻资讯
115

Vue中异步函数async和await的使用方法详解
为了简化异步代码的编写和维护,JavaScript引入了async和await关键字,它们使得异步操作看起来更像是同步操作,从而提高了代码的可读性和可维护性。本文将深入探讨Vue中异步函...
2024-11-19 编程技术
109

AI、AIGC、AGI是什么意思?它们有什么区别?
人工智能(Artificial Intelligence,简称AI)、人工智能生成内容(Artificial Intelligence Generated Content,简称AIGC)和通用人工智能(Artificial General Intelligence,简...
2024-11-19 电脑知识
135

字节跳动推出PixelDance与Seaweed视频生成模型:可在即梦AI平台免费体验
近日,字节跳动宣布推出两款全新的视频生成模型——PixelDance和Seaweed,并通过其即梦AI平台向公众免费开放使用。这一举措旨在助力设计师、影视制作人员及动画创作者等专业人...
2024-11-18 新闻资讯
120

阿里通义推出“代码模式”:Qwen2.5-Coder开发,非程序猿也能轻松写代码!
阿里通义实验室今日宣布推出一项创新功能——“代码模式”,这一突破性工具使得即使没有编程背景的用户也能通过简单的日常语言指令快速生成各种应用程序。用户现在只需访问通...
2024-11-15 新闻资讯
145