Java-数据科学-四-Java 数据科学（四）十、视觉和听觉分析声音、图像和视频的使用正在成为我们日常生活中一个更

Java 数据科学（四）

十、视觉和听觉分析

声音、图像和视频的使用正在成为我们日常生活中一个更重要的方面。依赖语音命令的电话交谈和设备越来越普遍。人们定期与世界各地的其他人进行视频聊天。照片和视频分享网站已经迅速扩散。利用各种来源的图像、视频和声音的应用程序变得越来越普遍。

在这一章中，我们将展示几种 Java 可以用来处理声音和图像的技术。本章的第一部分讲述声音处理。语音识别和文本到语音(TTS)API 都将被展示。具体来说，我们将使用 FreeTTS(【freetts.sourceforge.net/docs/index.… 将文本转换为语音，然后演示 CMU Sphinx 语音识别工具包。

Java 语音 API(JSAPI)(【www.oracle.com/technetwork… JDK 的一部分，但受第三方供应商支持。它的目的是支持语音识别和语音合成器。有几个供应商支持 JSAPI，包括 FreeTTS 和 Festival(www.cstr.ed.ac.uk/projects/fe…)。

此外，还有几个基于云的语音 API，包括 IBM 通过 Watson Cloud 语音转文本功能提供的支持。

接下来，我们将研究图像处理技术，包括面部识别。这包括识别图像中的人脸。这项技术很容易使用 OpenCV(opencv.org/)来实现，我们将在识别人脸部分演示。

我们将以对 Neuroph Studio 的讨论来结束本章，Neuroph Studio 是一个基于 Java 的神经网络编辑器，用于对图像进行分类和执行图像识别。我们将继续使用人脸，并尝试训练一个网络来识别人脸图像。

文本到语音转换

语音合成产生人类语音。TTS 将文本转换成语音，对许多不同的应用都很有用。它被用在许多地方，包括电话帮助台系统和订购系统。TTS 流程通常由两部分组成。第一部分将文本标记和处理成语音单元。第二部分将这些单位转换成语音。

TTS 的两种主要方法使用拼接合成和共振峰合成。拼接合成经常组合预先录制的人类语音来创建所需的输出。共振峰合成不使用人类语音，而是通过创建电子波形来生成语音。

我们将使用自由 TTS(freetts.sourceforge.net/docs/index.…)来演示 TTS。最新版本可以从 sourceforge.net/projects/fr…](sourceforge.net/projects/fr…)

TTS/FreeTTS 中使用了几个重要术语:

话语 -这个概念大致对应于组成一个单词或短语的声音
条目 -代表话语部分的特征集(名称/值对)
Relationship -一个条目列表，FreeTTS 使用它在一个话语中前后迭代
电话 -一种独特的声音
双音素 -一对相邻的音素

FreeTTS 程序员指南(freetts.sourceforge.net/docs/Progra…)详细介绍了将文本转换为语音的过程。这是一个多步骤的过程，其主要步骤包括:

标记化 -从文本中提取标记
TokenToWords -转换某些单词，如 1910 年到 1910 年
PartOfSpeechTagger -这一步目前什么也不做，但旨在识别词性
短语器 -为话语创建短语关系
分段器 -确定音节断开出现的位置
暂停生成器(pause generator)-这个步骤在语音中插入暂停，比如在说话之前
发音者 -决定口音和音调
后置词汇分析器 -这一步修复诸如可用双音素和需要说出的双音素不匹配之类的问题
持续时间 -决定音节的持续时间
ContourGenerator -计算话语的基频曲线，该曲线将频率与时间对应起来，有助于生成音调
单元选择器 -将相关的双音素组合成一个单元
音高标记生成器 -决定话语的音高
单元连接器 -将双音素数据连接在一起

下图来自 *FreeTTS 程序员指南，图 11:*unit concator处理后的发声，并描绘了流程。这是对 TTS 流程的高度概括，暗示了该流程的复杂性:

Text-to-speech

使用免费软件

TTS 系统方便了不同声音的使用。例如，这些差异可能存在于语言、说话者的性别或说话者的年龄。

MBROLA 项目的目标是支持尽可能多的语言的语音合成器。MBROLA 是一个语音合成器，可以与 FreeTTS 等 TTS 系统一起使用，以支持 TTS 合成。

从tcts.fpms.ac.be/synthesis/m…下载适用于适当平台的二进制 MBROLA。从同一个页面，下载页面底部找到的任何想要的 MBROLA 声音。对于我们的例子，我们将使用usa1、usa2和usa3。关于设置的更多细节可在freetts.sourceforge.net/mbrola/READ…找到。

以下语句说明了访问 MBROLA 声音所需的代码。setProperty方法指定找到 MBROLA 资源的路径:

System.setProperty("mbrola.base", "path-to-mbrola-directory");

为了演示如何使用 TTS，我们使用下面的语句。我们获得了一个VoiceManager类的实例，它将提供对各种声音的访问:

VoiceManager voiceManager = VoiceManager.getInstance();

为了使用一个特定的声音，向getVoice方法传递声音的名称，并返回一个Voice类的实例。在这个例子中，我们使用了mbrola_us1，这是一个美国英语，年轻，女性的声音:

Voice voice = voiceManager.getVoice("mbrola_us1");

一旦我们获得了Voice实例，就使用allocate方法来加载语音。然后使用speak方法将传递给该方法的单词合成为一个字符串，如下所示:

voice.allocate(); 
voice.speak("Hello World");

执行的时候要听到"Hello World"这几个字。如下一节所述，用其他声音和文本尝试一下，看看哪种组合最适合某个应用。

获取关于声音的信息

VoiceManager class' getVoices方法用于获取当前可用的声音数组。这对于向用户提供可供选择的声音列表很有用。我们将使用这里的方法来说明一些可用的声音。在下一个代码序列中，方法返回数组，然后显示数组的元素:

Voice[] voices = voiceManager.getVoices(); 
for (Voice v : voices) { 
    out.println(v); 
}

输出将类似于以下内容:

CMUClusterUnitVoice
CMUDiphoneVoice
CMUDiphoneVoice
MbrolaVoice
MbrolaVoice
MbrolaVoice

getVoiceInfo方法提供了潜在的更有用的信息，尽管它有些冗长:

out.println(voiceManager.getVoiceInfo());

输出的第一部分如下:显示VoiceDirectory目录，随后是语音的详细信息。请注意，目录名包含声音的名称。KevinVoiceDirectory包含两种声音:kevin和kevin16:

VoiceDirectory 'com.sun.speech.freetts.en.us.cmu_time_awb.AlanVoiceDirectory'
Name: alan
Description: default time-domain cluster unit voice
Organization: cmu
Domain: time
Locale: en_US
Style: standard
Gender: MALE
Age: YOUNGER_ADULT
Pitch: 100.0
Pitch Range: 12.0
Pitch Shift: 1.0
Rate: 150.0
Volume: 1.0
VoiceDirectory 'com.sun.speech.freetts.en.us.cmu_us_kal.KevinVoiceDirectory'
Name: kevin
Description: default 8-bit diphone voice
Organization: cmu
Domain: general
Locale: en_US
Style: standard
Gender: MALE
Age: YOUNGER_ADULT
Pitch: 100.0
Pitch Range: 11.0
Pitch Shift: 1.0
Rate: 150.0
Volume: 1.0
Name: kevin16
Description: default 16-bit diphone voice
Organization: cmu
Domain: general
Locale: en_US
Style: standard
Gender: MALE
Age: YOUNGER_ADULT
Pitch: 100.0
Pitch Range: 11.0
Pitch Shift: 1.0
Rate: 150.0
Volume: 1.0
...
Using voices from a JAR file

声音可以存储在 JAR 文件中。VoiceDirectory类提供了对以这种方式存储的声音的访问。FreeTTs 可用的语音目录位于 lib 目录中，包括以下内容:

cmu_time_awb.jar
cmu_us_kal.jar

语音目录的名称可以从命令提示符处获得:

java -jar fileName.jar

例如，执行以下命令:

java -jar cmu_time_awb.jar

它生成以下输出:

VoiceDirectory 'com.sun.speech.freetts.en.us.cmu_time_awb.AlanVoiceDirectory'
Name: alan
Description: default time-domain cluster unit voice
Organization: cmu
Domain: time
Locale: en_US
Style: standard
Gender: MALE
Age: YOUNGER_ADULT
Pitch: 100.0
Pitch Range: 12.0
Pitch Shift: 1.0
Rate: 150.0
Volume: 1.0

收集语音信息

Voice类提供了许多允许提取或设置语音特征的方法。正如我们前面所演示的，VoiceManager class' getVoiceInfo方法提供了关于当前可用声音的信息。然而，我们可以使用Voice类来获取关于特定声音的信息。

在下面的例子中，我们将显示关于声音kevin16的信息。我们首先使用getVoice方法获得这个voice的一个实例:

VoiceManager vm = VoiceManager.getInstance(); 
Voice voice = vm.getVoice("kevin16"); 
voice.allocate();

接下来，我们调用一些Voice类的get方法来获取关于声音的具体信息。这包括以前由getVoiceInfo方法提供的信息和其他不可用的信息；

out.println("Name: " + voice.getName()); 
out.println("Description: " + voice.getDescription()); 
out.println("Organization: " + voice.getOrganization()); 
out.println("Age: " + voice.getAge()); 
out.println("Gender: " + voice.getGender()); 
out.println("Rate: " + voice.getRate()); 
out.println("Pitch: " + voice.getPitch()); 
out.println("Style: " + voice.getStyle());

此示例的输出如下:

Name: kevin16
Description: default 16-bit diphone voice
Organization: cmu
Age: YOUNGER_ADULT
Gender: MALE
Rate: 150.0
Pitch: 100.0
Style: standard

这些结果是不言自明的，并让您了解可用信息的类型。还有其他方法可以让您访问通常不感兴趣的关于 TTS 过程的细节。这包括诸如正在使用的音频播放器、特定于话语的数据以及特定电话的功能等信息。

已经演示了如何将文本转换为语音，现在我们将研究如何将语音转换为文本。

理解语音识别

将语音转换为文本是一个重要的应用程序功能。这种能力越来越多地用于各种各样的环境中。仅举几个例子，语音输入用于控制智能电话，作为帮助台应用的一部分自动处理输入，以及帮助残疾人。

语音由复杂的音频流组成。声音可以拆分成个音素，这些音素是相似的声音序列。成对的这些音素被称为双音素。话语由单词和单词间各种类型的停顿组成。

转换过程的本质是通过话语间的沉默来分离声音。然后，将这些话语与听起来最像话语的单词进行匹配。然而，由于许多因素，这可能是困难的。例如，由于单词的上下文、地区方言、声音质量和其他因素，这些差异可能表现为单词发音的差异。

匹配过程相当复杂，并且经常使用多个模型。模型可以用于将声学特征与声音相匹配。可以使用语音模型来匹配音素和单词。另一个模型用于将单词搜索限制到给定的语言。这些模型从来都不是完全准确的，并且会导致识别过程中的不准确性。

我们将使用 CMUSphinx 4 来说明这个过程。

使用 CMUPhinx 将语音转换为文本

CMUSphinx 处理的音频必须是脉码调制 ( PCM )格式。PCM 是一种对模拟数据(如代表语音的模拟波)进行采样并产生数字信号的技术。FFmpeg(【ffmpeg.org/】)是一个免费的工具，…

您需要使用 PCM 格式创建样本音频文件。这些文件应该相当短，可以包含数字或单词。建议您使用不同的文件运行示例，看看语音识别的效果如何。

首先，我们通过创建一个处理异常的 try-catch 块来设置转换的基本框架。首先，创建一个Configuration类的实例。它用于配置识别器以识别标准英语。需要更改配置模型和字典来处理其他语言:

try { 

    Configuration configuration = new Configuration(); 

    String prefix = "resource:/edu/cmu/sphinx/models/en-us/"; 

    configuration 

            .setAcousticModelPath(prefix + "en-us"); 

    configuration 

            .setDictionaryPath(prefix + "cmudict-en-us.dict"); 

    configuration 

            .setLanguageModelPath(prefix + "en-us.lm.bin"); 

    ... 

} catch (IOException ex) { 

    // Handle exceptions 

}

然后使用configuration创建StreamSpeechRecognizer类。这个类基于输入流处理语音。在下面的代码中，我们从语音文件中创建了一个StreamSpeechRecognizer类的实例和一个InputStream:

StreamSpeechRecognizer recognizer = new StreamSpeechRecognizer( 

        configuration); 

InputStream stream = new FileInputStream(new File("filename"));

为了开始语音处理，调用了startRecognition方法。getResult方法返回一个保存处理结果的SpeechResult实例。然后，我们使用SpeechResult方法来获得最佳结果。我们使用stopRecognition方法停止处理:

recognizer.startRecognition(stream); 

SpeechResult result; 

while ((result = recognizer.getResult()) != null) { 

    out.println("Hypothesis: " + result.getHypothesis());

} 

recognizer.stopRecognition();

当这个语句被执行时，我们得到如下结果，假设语音文件包含这个句子:

Hypothesis: mary had a little lamb

当语音被解释时，可能有不止一个可能的单词序列。我们可以使用getNbest方法获得最佳结果，该方法的参数指定了应该返回多少种可能性。下面演示了这种方法:

Collection<String> results = result.getNbest(3); 

for (String sentence : results) { 

    out.println(sentence); 

}

一个可能的输出如下:

<s> mary had a little lamb </s>
<s> marry had a little lamb </s>
<s> mary had a a little lamb </s>

这给了我们基本的结果。然而，我们可能想用实际的语言做些什么。接下来解释获取单词的技术。

获得关于单词的更多细节

可以使用getWords方法提取结果中的单个单词，如下所示。该方法返回一列WordResult实例，每个实例代表一个单词:

List<WordResult> words = result.getWords(); 

for (WordResult wordResult : words) { 

    out.print(wordResult.getWord() + " "); 

}

跟随<sil>的这个代码序列的输出反映了在讲话开始时发现的沉默:

<sil> mary had a little lamb

我们可以使用WordResult类的各种方法提取关于单词的更多信息。在下面的序列中，我们将返回与每个单词相关的置信度和时间范围。

getConfidence方法返回以对数表示的置信度。我们使用SpeechResult类的getResult方法来获得Result类的一个实例。然后使用它的getLogMath方法获得一个LogMath实例。向logToLinear方法传递置信度值，返回值是 0 到 1.0 之间的实数。更大的值反映了更多的信心。

getTimeFrame方法返回一个TimeFrame实例。它的toString方法返回两个整数值，用冒号分隔，反映单词的开始和结束时间:

for (WordResult wordResult : words) { 

    out.printf("%s\n\tConfidence: %.3f\n\tTime Frame: %s\n", 

            wordResult.getWord(), result 

                    .getResult() 

                    .getLogMath() 

                    .logToLinear((float)wordResult 

                            .getConfidence()), 

            wordResult.getTimeFrame()); 

}

一个可能的输出如下:

<sil>
Confidence: 0.998
Time Frame: 0:430
mary
Confidence: 0.998
Time Frame: 440:900
had
Confidence: 0.998
Time Frame: 910:1200
a
Confidence: 0.998
Time Frame: 1210:1340
little
Confidence: 0.998
Time Frame: 1350:1680
lamb
Confidence: 0.997
Time Frame: 1690:2170

既然我们已经研究了声音是如何被处理的，我们将把注意力转向图像处理。

从图像中提取文本

从图像中提取文字的过程称为OT2【光学字符识别 ( OCR )。当需要处理的文本数据嵌入到图像中时，这非常有用。例如，包含在牌照、路标和方向中的信息有时会非常有用。

我们可以使用 Tess4j(tess4j.sourceforge.net/)来执行 OCR，这是一个用于 Tesseract OCR API 的 Java JNA 包装器。我们将使用从维基百科关于 OCR 的文章中捕获的图像来演示如何使用 API(https://en . Wikipedia . org/wiki/Optical _ character _ recognition # Applications)。API 的 Javadoc 可以在 tess4j.sourceforge.net/docs/docs-3…:](tess4j.sourceforge.net/docs/docs-3…)

Extracting text from an image

使用 Tess4j 提取文本

ITesseract接口包含许多 OCR 方法。doOCR方法获取一个文件并返回一个包含在文件中找到的单词的字符串，如下所示:

ITesseract instance = new Tesseract();  

try { 

    String result = instance.doOCR(new File("OCRExample.png")); 

    out.println(result); 

} catch (TesseractException e) { 

    // Handle exceptions

}

部分输出如下所示:

OCR engines nave been developed into many lunds oiobiectorlented OCR applicatlons, sucn as reoeipt OCR, involoe OCR, check OCR, legal billing document OCR
They can be used ior
- Data entry ior business documents, e g check, passport, involoe, bank statement and receipt
- Automatic number plate recognnlon

如你所见，这个例子中有许多错误。通常，在正确处理图像之前，需要提高图像的质量。提高输出质量的技术可以在https://github . com/tessera CT-ocr/tessera CT/wiki/improve quality找到。例如，我们可以使用setLanguage方法来指定处理的语言。此外，该方法通常在 TIFF 图像上效果更好。

在下一个示例中，我们使用了上一幅图像的放大部分，如下所示:

Using Tess4j to extract text

输出要好得多，如下所示:

OCR engines have been developed into many kinds of object-oriented OCR applications, such as receipt OCR,

invoice OCR, check OCR, legal billing document OCR.

They can be used for:

. Data entry for business documents, e.g. check, passport, invoice, bank statement and receipt

. Automatic number plate recognition

这些例子强调了仔细清理数据的必要性。

识别面孔

在许多情况下，识别图像中的人脸是有用的。它可以潜在地将图像分类为包含人的图像，或者在图像中找到人以供进一步处理。我们将使用 OpenCV 3.1(opencv.org/opencv-3-1.…)作为例子。

OpenCV(opencv.org/)是一个开源的计算机视觉库，支持几种编程语言，包括 Java。它支持许多技术，包括机器学习算法，来执行计算机视觉任务。该库支持诸如人脸检测、跟踪相机运动、提取 3D 模型以及从图像中去除红眼之类的操作。在本节中，我们将演示人脸检测。

使用 OpenCV 检测人脸

下面的例子改编自http://docs . opencv . org/trunk/d9/d52/tutorial _ Java _ dev _ intro . html。首先加载 OpenCV 安装时添加到系统中的本地库。在 Windows 上，这要求有适当的 DLL 文件可用:

System.loadLibrary(Core.NATIVE_LIBRARY_NAME);

我们使用一个基本字符串来指定所需 OpenCV 文件的位置。使用绝对路径可以更好地配合许多方法:

String base = "PathToResources";

CascadeClassifier类用于对象分类。在这种情况下，我们将使用它进行人脸检测。XML 文件用于初始化该类。在下面的代码中，我们使用了lbpcascade_frontalface.xml文件，它提供了帮助识别对象的信息。OpenCV 下载中有几个文件，如下所示，可用于特定的人脸识别场景:

lbpcascade_frontalcatface.xml
lbpcascade_frontalface.xml
lbpcascade_frontalprofileface.xml
lbpcascade_silverware.xml

下面的语句初始化类以检测人脸:

CascadeClassifier faceDetector =  

        new CascadeClassifier(base +  

            "/lbpcascade_frontalface.xml");

加载要处理的图像，如下所示:

Mat image = Imgcodecs.imread(base + "/images.jpg");

对于此示例，我们使用了以下图像:

Using OpenCV to detect faces

要找到这张图片，使用术语 people 进行谷歌搜索。选择图像类别，然后过滤掉标记为重复使用的**。图片有标签:LyndaSanchez 拍摄的一群正在笑的商务人士的特写肖像。**

当检测到人脸时，图像中的位置被存储在一个MatOfRect实例中。这个类用于保存找到的任何面的向量和矩阵:

MatOfRect faceVectors = new MatOfRect();

此时，我们已经准备好检测人脸。detectMultiScale方法执行这个任务。图像和保存任何图像位置的MatOfRect实例被传递给方法:

faceDetector.detectMultiScale(image, faceVectors);

下一条语句显示了检测到的人脸数量:

out.println(faceVectors.toArray().length + " faces found");

我们需要用这些信息来增强图像。这个过程将在每个找到的面周围画出方框，如下所示。为此，使用了Imgproc class' rectangle方法。对每个检测到的人脸调用一次该方法。向其传递要修改的图像和表示面部边界的点:

for (Rect rect : faceVectors.toArray()) { 

    Imgproc.rectangle(image, new Point(rect.x, rect.y),  

            new Point(rect.x + rect.width, rect.y + rect.height),  

            new Scalar(0, 255, 0)); 

}

最后一步使用Imgcodecs class' imwrite方法将该图像写入文件:

Imgcodecs.imwrite("faceDetection.png", image);

如下图所示，它能够识别四幅图像:

使用不同的配置文件将更好地适用于其他面部轮廓。

**# 分类可视数据

在本节中，我们将演示一种对可视数据进行分类的技术。我们将使用欧米诺来完成这一任务。Neuroph 是一个基于 Java 的神经网络框架，支持多种神经网络架构。它的开源库为其他应用程序提供支持和插件。在本例中，我们将使用其神经网络编辑器 Neuroph Studio 来创建一个网络。该网络可以被保存并在其他应用中使用。欧米诺工作室可以在这里下载:neuroph.sourceforge.net/download.ht…。我们正在构建这里显示的流程:【neuroph.sourceforge.net/image_recog…](neuroph.sourceforge.net/image_recog…)

对于我们的例子，我们将创建一个多层感知器 ( MLP )网络。然后我们将训练我们的网络来识别图像。我们可以使用 Neuroph Studio 来训练和测试我们的网络。了解 MLP 网络如何识别和解释图像数据非常重要。每个图像基本上都由三个二维数组表示。每个数组都包含颜色分量的信息:一个数组包含红色的信息，一个包含绿色的信息，一个包含蓝色的信息。数组的每个元素都保存了图像中某个特定像素的信息。然后将这些数组展平为一维数组，用作神经网络的输入。