13个优秀开源语音识别引擎

语音识别(ASR)在人机交互方面施展着关键的作用,可用于:转录、翻译、听写、语音分解、关键字定位、语音日记、言语增强等场景。语音识别基本环节普通包括:剖析音频、音频分解、格局转换、文本婚配,但实践的语音识别系统或许会更复杂,并且或许包括其余步骤和配置组件,例如:噪声克服、声学模型、言语模型和置信度评价等。

多年来,语音识别技术的提高令人印象深入,咱们可以经常使用语音识别技术成功智能家居、控制汽车成功智能驾驶、与ChatGPT等大模型对接启动对话、智能音箱、居家机器人等等。这些年来也由于人造言语处置、语音识别等技术的开展,降生了很多优秀的公司,例如:讯飞**。

随着AI技术开展,越来越多的人或组织投入到语音识别关系畛域的钻研,也促成了该畛域的开源名目蓬勃开展。开源名目往往愈加易于定制化开发、经常使用老本更低、透明,并且可私有化部署,数据安保可控。这使得开源语音识别引擎在运行开发中越来越遭到技术人员的青眼。

2024年已开局,AI热度不减,以下是几个截止目前比拟优秀的开源语音识别引擎。

源码:

官方:

Whisper是Open AI的创意工具,提供了转录和翻译服务。该AI工具于2022年9月颁布,是最准确的智能语音识别模型之一。它从市场上的其余工具中锋芒毕露,由于它训练了少量的训练数据集:来自互联网的68万小时的音频文件。这种多样化的数据范围提高了该工具的鲁棒性。

用Whisper启动转录必定先装置Python或命令行界面。他提供了五种型号的模型,一切型号都具有不同的大小和配置。这些包括庞大、基本、小型、中型和大型。模型越大,转录速度越快。虽然如此,你必定要有一个好的CPU和GPU设施,才干最大限制施展它们的性能。

与知晓LibriSpeech性能(最经常出现的语音识别基准之一)的模型相比还是有差距,但是,它的零样本色能体现优秀,API的失误比相反的模型少50%。

好处:

缺陷:

源码:

Project DeepSearch是Mozilla的一个开源语音转文本引擎。此语音转文本命令和库在Mozilla公共容许证(MPL)下颁布。它的模型参考的是百度深度语音钻研论文,具有端到端的可训练性,并支持多种言语音频转录。它经常使用Google的TensorFlow启动训练和成功。

从GitHub下载源代码,并将其装置到您的Python中以经常使用它。该工具曾经在英语模型上启动了预训练。但是,您依然可以经常使用您的数据训练模型。或许,您可以取得一个预先训练的模型,并经常使用自定义数据对其启动改良。

好处:

缺陷:

源码:

Kaldi是专门为语音识别的钻研人员创立的语音识别工具。它是用C++编写的,并在Apache 2.0容许证下颁布,这是限制起码的开源容许。与Whisper和DeepSpeech等专一于深度学习的工具不同,Kaldi关键专一于经常使用老式牢靠工具的语音识别模型。这些模型包括隐马尔可夫模型(Hidden Markov Models)、高斯混合模型(Gaussian Mixture Models)和有限形态传感器(Finite State Transducers)。

好处:

缺陷:

源码:

SpeechBrain是一个用于促成语音关系技术的钻研和开发的开源工具包。它支持各种义务,包括:语音识别、增强、分别、谈话日志和麦克风信号处置等。Speechbrain经常使用PyTorch作为开发框架。开发人员和钻研人员可以从Pytorch的生态系统和支持中受益,以构建和训练神经网络。

好处:

缺陷:

源码:

Coqui是一个先进的深度学习工具包,十分适宜培训和部署stt模型。依据Mozilla公共容许证2.0授权,您可以经常使用它生成多个转录本,每个转录本都有一个置信度分数。它提供了预先训练的模型以及示例音频文件,您可以经常使用这些文件来测试引擎并协助进后退一步的微调。此外,它有十分详细的文档和资源,可以协助您经常使用和处置任何产生的疑问。

好处:

缺陷:

Coqui曾经中止保养STT名目,专一于他们的文本到语音工具包。这象征着您或许要求自己处置任何疑问。

源码:

Julius是一个新鲜的语音转文本名目,来源于日本,最早可以追溯到1997年。它是在BSD-3容许证下颁布。它关键支持日语ASR,但作为一个独立于言语的程序,该模型可以了解和处置多种言语,包括英语,斯洛文尼亚语,法语,泰语等。转录的准确性在很大水平上取决于您能否领有正确的言语和声学模型。该名目是用C言语编写的,支持在Windows,Linux,Android和macOS系统中运转。

好处:

缺陷:

源码:

Flashlight ASR是由Facebook AI钻研团队设计的开源语音识别工具包。它领有处置大型数据集的才干,速度和效率十分突出。可以将速度归功于其在言语建模、机器翻译和语音分解中仅经常使用卷积神经网络。

在现实状况下,大少数语音识别引擎经常使用卷积和递归神经网络来了解和建模言语。但是,递归网络或许要求高计算才干,从而影响引擎的速度。

Flashlight ASR经常使用C++编译,支持在CPU和GPU上运转。

好处:

缺陷:

源码:

PaddleSpeech是个开源的语音转文本工具包,可以在Paddlepaddle平台上经常使用,该工具在Apache 2.0容许下开源。PaddleSpeech是配置最多的工具包之一,能够口头语音识别、语音到文本转换、关键字定位、翻译和音频分类。它的转录品质十分好,赢得了NAACL2022最佳演示奖。

该语音转文本引擎支持多种言语模型,但优先思考中文和英文模型。特意是中文模型,具有较为规范的文本和发音,使其顺应中白话语的规定。

好处:

缺陷:

源码:

OpenSeq2Seq正如它的名字一样,是一个开源的语音转文本工具包,可以协助训练不同类型的序列到序列模型。该工具包由Nvidia开发,在Apache 2.0容许证下颁布,这象征着它对一切人都是收费的。它训练口头转录,翻译,智能语音识别和情感剖析义务的言语模型。

可以依据自己的需求,经常使用自动预训练模型或许训练自己的模型。OpenSeq2Seq在经常使用多个显卡和计算机时可以到达最佳性能。它在Nvidia驱动的设施上上班得最好。

好处:

缺陷:

源码:

官方:

Vosk是最紧凑、最轻量级的语音转文本引擎之一。这个开源工具包可以在多种设施上离线运转,包括:Android、iOS和Raspberry Pi。它支持20多种言语或方言,包括:英语、中文、葡萄牙语、波兰语、德语等。

Vosk提供了小型言语模型,不占用太多空间,现实状况下,大概只要50MB。但是,一些大型模型可以占用高达1.4GB。该工具照应速度快,可以延续将语音转换为文本。

好处:

缺陷:

源码:

Athena是一个基于序列到序列的语音转文本开源引擎,在Apache 2.0开源容许下颁布。该工具包适宜钻研人员和开发人员的端到端语音处置需求。模型可以处置的义务包括:智能语音识别(ASR)、语音分解、语音检测和关键字定位等。一切言语模型都基于TensorFlow成功,使更多开发人员可以访问该工具包。

好处:

Cons缺陷:

源码:

ESPnet是一个基于Apache 2.0容许证颁布的开源语音转文本软件,它提供端到端语音处置配置,涵盖了ASR、翻译、语音分解、增强和日志化等义务。该工具包驳回Pytorch作为其深度学习框架,并遵照Kaldi数据处置格调。因此,您可以取得各种言语处置义务的片面配方。该工具支持多言语。可以将其与现成的预训练模型一同经常使用,或依据需求创立自己的模型。

好处:

缺陷:

13.Tensorflow ASR

源码:

Tensorflow ASR是一个经常使用Tensorflow 2.0作为深度学习框架来成功各种语音处置的语音转文本开源引擎。这个名目在Apache 2.0容许下颁布。

Tensorflow最大好处是其准确率,作者宣称它简直是一个“最先进”的模型。它也是保养最好的工具之一,活期降级以改良其配置。例如,该工具包如今还支持在TPU(一种不凡配件)上启动言语培训。

Tensorflow还支持经常使用特定的模型,如:Conformer、ContextNet、DeepSpeech2和Jasper。可以依据要处置的义务启动选用。例如,关于普通义务可以思考DeepSpeech2,但关于精度有较高要求的则经常使用Conformer。

好处:

缺陷:

选型

以上介绍的开源语音识别引擎各有优缺陷。如何选用,取决于详细运行需求和可用资源。

假设您要求一个兼容各种设施的轻量级工具包,那么Vosk 以及 Julius比拟适宜。由于它们可以在Android、iOS、Raspberry Pi上运转,并且还不会占用太多资源。

假设您要求自己训练模型,可以经常使用Whisper、OpenSeq2Seq、Flashlight ASR或许Athena等工具包。

您可能还会对下面的文章感兴趣: