谷歌AI模型解码海豚通信本文介绍了DolphinGemma，一个基于音频的AI模型，用于分析海豚的复杂声音模式。它利用S

DolphinGemma：AI如何帮助解码海豚通信

数十年来，理解海豚的咔哒声、哨声和脉冲声一直是科学前沿。如今，某机构与某理工学院及Wild Dolphin Project (WDP)实地研究合作，发布了DolphinGemma的进展：一个基础AI模型，经过训练以学习海豚发声的结构，并生成新颖的类海豚声音序列。

自1985年以来，WDP进行了世界上运行时间最长的水下海豚研究项目，研究巴哈马地区一群野生大西洋斑海豚。这种非侵入式方法产生了独特的数据集：数十年的水下视频和音频，并细致配对了个体海豚的身份、生活史和观察到的行为。

WDP的一个主要重点是观察和分析海豚的自然交流与社会互动。以下是声音类型与行为背景的关联示例：

DolphinGemma由某机构开发，利用了特定的音频技术：SoundStream标记器高效表示海豚声音，然后由适合复杂序列的模型架构处理。这个约4亿参数的模型经过优化，可直接在WDP野外使用的Pixel手机上运行。

该模型基于Gemma系列的见解，并在WDP的声学数据库上进行了广泛训练。DolphinGemma作为一个音频输入、音频输出的模型，处理自然海豚声音序列以识别模式和结构，最终预测序列中接下来可能出现的声音，类似于人类语言大语言模型预测句子中的下一个词。

WDP正在本野外季节部署DolphinGemma。通过识别重复的声音模式、聚类和可靠序列，该模型可帮助研究人员发现隐藏结构。

除了分析自然交流，WDP还在探索使用技术进行双向交互。这促成了CHAT系统的开发。CHAT是一个水下计算机，旨在建立更简单的共享词汇。

概念首先依赖于将新颖的合成哨声（由CHAT创建，与自然海豚声音不同）与海豚喜欢的特定物体（如马尾藻、海草或围巾）关联起来。系统需要：

Pixel 6处理了海豚声音的实时高保真分析。下一代以Pixel 9为中心，通过集成扬声器/麦克风功能，并使用手机的高级处理同时运行深度学习模型和模板匹配算法。

使用Pixel智能手机大幅减少了对定制硬件的需求，提高了系统可维护性，降低了功耗并缩小了设备尺寸和成本。同时，DolphinGemma的预测能力可以帮助CHAT在发声序列中更早地预测和识别潜在模仿，加快研究人员对海豚的反应速度。

计划在今年夏天将DolphinGemma作为开放模型共享。虽然该模型是在大西洋斑海豚声音上训练的，但预计它对研究其他鲸类物种（如宽吻海豚或长吻飞旋海豚）的研究人员也有用。针对不同物种的发声可能需要进行微调，而模型的开放性有助于这种适应。FINISHED