开源文字转语音系统(WhisperSpeech):通过反向工程实现

站长之家 2024-01-22 12:04:09新闻资讯
70

WhisperSpeech是一个开源的文字转语音系统,其最大的亮点是通过对OpenAI的Whisper语音识别模型进行反向工程,实现了接收文字输入,并利用修改后的Whisper模型生成听起来自然的语音输出。WhisperSpeech的语音输出在发音准确性和自然度方面都非常出色。

WhisperSpeech.png

体验地址:https://replicate.com/lucataco/whisperspeech-small

目前,WhisperSpeech模型是在英语LibreLight数据集上训练的,但下一个版本的目标是多种语言(Whisper和EnCodec都是多语言的)。系统还可以在单个句子中混合多种语言,并且增加了测试语音克隆的简便方法。

WhisperSpeech 项目路线图:

  • -声学标记提取:改进声学标记的提取过程。

  • -语义标记提取:使用Whisper模型生成和量化语义标记。

  • -S->A模型转换:开发将语义标记转换为声学标记的模型。

  • -T->S模型转换:实现从文字标记到语义标记的转换。

  • -提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。

  • -短句推理优化:改善系统处理短句的能力。

  • -扩展情感语音数据集:收集更大的情感语音数据。

  • -文档化LibriLight数据集:详细记录HuggingFace上的数据集。

  • -多语言语音收集:聚集社区资源,收集多种语言的语音。

  • -训练多语言模型:开发支持多语言的文字到语音模型。

文字转语音
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

SPIRIT LM:Meta开源的多模态大语言模型,能自由混合并理解文本和语音数据
SPIRIT LM(Spirit Language Model),由Meta AI团队开发并开源,是一款具有里程碑意义的多模态大语言模型。不同于传统语言模型主要聚焦于单一模态(如纯文本)的处理,SPIRIT LM...
2024-11-22 新闻资讯
109

Whisper-NER:aiOla推出的开源AI音频转录模型,实时遮蔽敏感信息
Whisper-NER是aiOla基于OpenAI的开源语音识别模型Whisper开发的一款高级音频转录模型。它不仅继承了Whisper在多语言、实时处理及高准确度方面的卓越性能,还创新性地加入了敏...
2024-11-21 新闻资讯
115

Ultravox:Fixie AI推出的开源多模态实时语音交互AI模型
在人工智能技术飞速发展的今天,实时语音交互已成为人们日常生活的重要组成部分。Ultravox,一款由FixieAI公司开发的创新性多模态大语言模型,旨在提供一个封闭源模型如 GPT-...
2024-11-15 新闻资讯
121

Outfit Anyone:阿里巴巴集团智能研究院推出的AI虚拟试衣开源项目
Outfit Anyone 是由阿里巴巴集团智能计算研究院推出的一款基于人工智能技术的开源AI虚拟试衣项目,通过先进的计算机视觉和深度学习技术,用户可以上传自己的照片或选择预设的...
2024-11-11 新闻资讯
151

MIMO:阿里巴巴智能研究院开源的多功能可控视频合成模型
MIMO 是阿里巴巴集团智能计算研究院开源的一种用于可控视频合成的通用模型,其核心思想是将2D视频编码为紧凑的空间代码,并考虑视频发生的固有3D特性。通过这种编码方式,MIM...
2024-11-10 新闻资讯
124

Buzz:开源免费的离线AI音频转录和翻译工具
Buzz是一款开源免费的离线AI音频转录和翻译工具,致力于为用户提供高效、安全且便捷的音频处理解决方案。其核心基于OpenAI的Whisper模型,支持多种语言,无需网络连接即可对个...
2024-11-04 新闻资讯
138