谷歌AI模型解码海豚通信

3 阅读3分钟

DolphinGemma:AI如何帮助解码海豚通信

数十年来,理解海豚的咔哒声、哨声和脉冲声一直是科学前沿。如今,某机构与某理工学院及Wild Dolphin Project (WDP)实地研究合作,发布了DolphinGemma的进展:一个基础AI模型,经过训练以学习海豚发声的结构,并生成新颖的类海豚声音序列。

研究海豚社会数十年

自1985年以来,WDP进行了世界上运行时间最长的水下海豚研究项目,研究巴哈马地区一群野生大西洋斑海豚。这种非侵入式方法产生了独特的数据集:数十年的水下视频和音频,并细致配对了个体海豚的身份、生活史和观察到的行为。

WDP的一个主要重点是观察和分析海豚的自然交流与社会互动。以下是声音类型与行为背景的关联示例:

  • 标志性哨声(独特名称),用于母亲与幼崽重聚
  • 争斗中常见的脉冲式“嘎嘎声”
  • 求偶或追逐鲨鱼时常出现的咔哒“嗡嗡声”

介绍DolphinGemma

DolphinGemma由某机构开发,利用了特定的音频技术:SoundStream标记器高效表示海豚声音,然后由适合复杂序列的模型架构处理。这个约4亿参数的模型经过优化,可直接在WDP野外使用的Pixel手机上运行。

该模型基于Gemma系列的见解,并在WDP的声学数据库上进行了广泛训练。DolphinGemma作为一个音频输入、音频输出的模型,处理自然海豚声音序列以识别模式和结构,最终预测序列中接下来可能出现的声音,类似于人类语言大语言模型预测句子中的下一个词。

WDP正在本野外季节部署DolphinGemma。通过识别重复的声音模式、聚类和可靠序列,该模型可帮助研究人员发现隐藏结构。

使用Pixel手机监听和分析海豚声音

除了分析自然交流,WDP还在探索使用技术进行双向交互。这促成了CHAT系统的开发。CHAT是一个水下计算机,旨在建立更简单的共享词汇。

概念首先依赖于将新颖的合成哨声(由CHAT创建,与自然海豚声音不同)与海豚喜欢的特定物体(如马尾藻、海草或围巾)关联起来。系统需要:

  • 在海洋噪声中准确听到模仿声
  • 实时识别模仿的是哪种哨声
  • 通过水下骨传导耳机告知研究人员海豚“请求”了哪个物体
  • 使研究人员能够快速响应,提供正确物体以强化联系

Pixel 6处理了海豚声音的实时高保真分析。下一代以Pixel 9为中心,通过集成扬声器/麦克风功能,并使用手机的高级处理同时运行深度学习模型和模板匹配算法。

使用Pixel智能手机大幅减少了对定制硬件的需求,提高了系统可维护性,降低了功耗并缩小了设备尺寸和成本。同时,DolphinGemma的预测能力可以帮助CHAT在发声序列中更早地预测和识别潜在模仿,加快研究人员对海豚的反应速度。

与研究社区共享DolphinGemma

计划在今年夏天将DolphinGemma作为开放模型共享。虽然该模型是在大西洋斑海豚声音上训练的,但预计它对研究其他鲸类物种(如宽吻海豚或长吻飞旋海豚)的研究人员也有用。针对不同物种的发声可能需要进行微调,而模型的开放性有助于这种适应。FINISHED