Python语音识别终极指南（收藏）_recognize_google()参数，2024年最新Golang外包是如何进入阿里的

许多现代语音识别系统会在 HMM 识别之前使用神经网络，通过特征变换和降维的技术来简化语音信号。也可以使用语音活动检测器（VAD）将音频信号减少到可能仅包含语音的部分。

幸运的是，对于 Python 使用者而言，一些语音识别服务可通过 API 在线使用，且其中大部分也提供了 Python SDK。

▌选择 Python 语音识别包

PyPI中有一些现成的语音识别软件包。其中包括：

apiai
google-cloud-speech
pocketsphinx
SpeechRcognition
watson-developer-cloud
wit

一些软件包（如 wit 和 apiai ）提供了一些超出基本语音识别的内置功能，如识别讲话者意图的自然语言处理功能。其他软件包，如谷歌云语音，则专注于语音向文本的转换。

其中，SpeechRecognition 就因便于使用脱颖而出。

识别语音需要输入音频，而在 SpeechRecognition 中检索音频输入是非常简单的，它无需构建访问麦克风和从头开始处理音频文件的脚本，只需几分钟即可自动完成检索并运行。

SpeechRecognition 库可满足几种主流语音 API ，因此灵活性极高。其中 Google Web Speech API 支持硬编码到 SpeechRecognition 库中的默认 API 密钥，无需注册就可使用。SpeechRecognition 以其灵活性和易用性成为编写 Python 程序的最佳选择。

▌安装 SpeechRecognation

SpeechRecognition 兼容 Python2.6 , 2.7 和 3.3+，但若在 Python 2 中使用还需要一些额外的安装步骤。本教程中所有开发版本默认 Python 3.3+。

读者可使用 pip 命令从终端安装 SpeechRecognition：

$ pip install SpeechRecognition

安装完成后请打开解释器窗口并输入以下内容来验证安装：

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

注：不要关闭此会话，在后几个步骤中你将要使用它。

若处理现有的音频文件，只需直接调用 SpeechRecognition ，注意具体的用例的一些依赖关系。同时注意，安装 PyAudio 包来获取麦克风输入。

▌识别器类

SpeechRecognition 的核心就是识别器类。

Recognizer API 主要目是识别语音，每个 API 都有多种设置和功能来识别音频源的语音，分别是：

recognize_bing(): Microsoft Bing Speech
recognize_google(): Google Web Speech API
recognize_google_cloud(): Google Cloud Speech - requires installation of the google-cloud-speech package
recognize_houndify(): Houndify by SoundHound
recognize_ibm(): IBM Speech to Text
recognize_sphinx(): CMU Sphinx - requires installing PocketSphinx
recognize_wit(): Wit.ai

以上七个中只有 recognition_sphinx（）可与CMU Sphinx 引擎脱机工作，其他六个都需要连接互联网。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取