WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录

站长之家 2024-01-31 16:20:49新闻资讯
50

由于对Whisper推理在生产中的迅速增长需求,Argmax公司决定将其作为首个项目,并于宣布将WhisperKit项目以MIT许可证的形式开源,进入beta测试阶段。

WhisperKit是一个用于实现在设备上进行语音推理的开源工具,旨在通过最小的摩擦和最大的性能提高,使开发者能够轻松改进和部署快速、免费且几乎无错误的翻译和转录服务。

简单的说,WhisperKit可以在 iPhone 上运行的Whisper实时推理软件,可以实时将声音转成对应的文字,想做类似实时翻译工具的可以关注一下。

WhisperKit.png

该项目提供了Swift包,只需两行代码即可在应用中实现Whisper推理,同时还附带了iOS和macOS的示例应用,方便开发者测试。为了优化和评估Whisper在Mac上的性能,还提供了Python工具。

WhisperKit的设计原则包括灵活性、可扩展性、可预测性和自动部署。该项目的设计使得开发者能够自由组合或隔离GPU和神经引擎的利用,以实现最佳的能效和最低的延迟。同时,WhisperKit被模块化为Swift协议,通过实现自定义行为的协议扩展,降低了扩展的难度。

WhisperKit2.png

在实现性能方面,WhisperKit的重点是在苹果芯片上实现最低延迟和最高吞吐量。特别是针对最具挑战性的openai/whisper-large-v3变体进行了优化。通过优化音频编码器和文本解码器,WhisperKit在iPhone12到15上取得了1.85x至2.85x的速度提升。

为了实现实时性能,WhisperKit克服了Whisper不设计用于低延迟音频处理的困难。通过在语音转录过程中定期积累足够的音频,对音频进行预处理和使用优化的编码器和解码器,WhisperKit实现了实时语音转文本的目标。

除此之外,WhisperKit还通过在编译时预先计算特殊标记的KV缓存值,进一步提高了性能。这项优化使得在流式模式下每秒可处理9-15个文本标记,足以满足日常语音需求。

在稳定版发布之前,WhisperKit计划引入性能报告创建、异步批处理预测、watchOS示例应用以及Metal-based推理引擎等功能。

项目入口:https://huggingface.co/argmaxinc/whisperkit-coreml

开源
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Whisper-NER:aiOla推出的开源AI音频转录模型,实时遮蔽敏感信息
Whisper-NER是aiOla基于OpenAI的开源语音识别模型Whisper开发的一款高级音频转录模型。它不仅继承了Whisper在多语言、实时处理及高准确度方面的卓越性能,还创新性地加入了敏...
2024-11-21 新闻资讯
112

Ultravox:Fixie AI推出的开源多模态实时语音交互AI模型
在人工智能技术飞速发展的今天,实时语音交互已成为人们日常生活的重要组成部分。Ultravox,一款由FixieAI公司开发的创新性多模态大语言模型,旨在提供一个封闭源模型如 GPT-...
2024-11-15 新闻资讯
118

Outfit Anyone:阿里巴巴集团智能研究院推出的AI虚拟试衣开源项目
Outfit Anyone 是由阿里巴巴集团智能计算研究院推出的一款基于人工智能技术的开源AI虚拟试衣项目,通过先进的计算机视觉和深度学习技术,用户可以上传自己的照片或选择预设的...
2024-11-11 新闻资讯
148

MIMO:阿里巴巴智能研究院开源的多功能可控视频合成模型
MIMO 是阿里巴巴集团智能计算研究院开源的一种用于可控视频合成的通用模型,其核心思想是将2D视频编码为紧凑的空间代码,并考虑视频发生的固有3D特性。通过这种编码方式,MIM...
2024-11-10 新闻资讯
123

Buzz:开源免费的离线AI音频转录和翻译工具
Buzz是一款开源免费的离线AI音频转录和翻译工具,致力于为用户提供高效、安全且便捷的音频处理解决方案。其核心基于OpenAI的Whisper模型,支持多种语言,无需网络连接即可对个...
2024-11-04 新闻资讯
137

ElementUI:饿了么前端团队开源的一套基于 Vue.js 的桌面端组件库
ElementUI 是饿了么前端团队开发的一套基于 Vue.js 的桌面端组件库。其提供了一系列经过精心设计和测试的 UI 组件,涵盖了从基本的输入框、按钮到复杂的表格、导航菜单等各个...
2024-11-01 编程技术
155