DolphinGemma:AI如何解码海豚沟通
数十年来,理解海豚的咔嗒声、口哨声和脉冲声一直是科学前沿。如今,某机构与某理工大学的科研人员及“野生海豚项目”的实地研究合作,宣布了DolphinGemma的进展:一个基础AI模型,旨在学习海豚发声的结构并生成新的类海豚声音序列。
研究海豚社会数十年
自1985年以来,“野生海豚项目”开展了全球最长的水下海豚研究,对巴哈马群岛一个特定的野生大西洋斑海豚群落进行了跨代研究。这种非侵入式方法产出了丰富的数据集:数十年的水下视频和音频,并精确匹配了个体身份、生活史和观察到的行为。
该项目的重点之一是观察和分析海豚的自然沟通与社交互动。以下是一些示例:
- 特征性口哨声(类似名字),可用于母子重逢
- 战斗中常见的脉冲式“嘎嘎声”
- 求偶或追逐鲨鱼时常用的咔嗒“蜂鸣声”
DolphinGemma介绍
某机构开发的DolphinGemma利用了特定的音频技术:SoundStream标记器高效表示海豚声音,然后由适合处理复杂序列的模型架构进行处理。这个约4亿参数的模型经过优化,可直接在“野生海豚项目”野外使用的某品牌Pixel手机上运行。
该模型借鉴了某机构轻量级、先进的开放模型系列的技术。基于“野生海豚项目”的声学数据库进行大量训练后,DolphinGemma作为一个音频输入-音频输出模型,处理自然海豚声音序列以识别模式和结构,并预测序列中可能出现的后续声音——类似于人类语言大语言模型预测句子中的下一个词。
“野生海豚项目”正在本野外季节部署DolphinGemma。通过识别重复的声音模式、聚类和可靠的序列,该模型可帮助研究人员发现隐藏的结构和潜在含义。
使用Pixel手机聆听和分析海豚声音
除了分析自然沟通,该项目还在探索利用技术实现双向互动。这促成了CHAT系统的开发。CHAT是一台水下计算机,旨在建立一个更简单的共享词汇表。
该概念首先依赖于将CHAT创建的新型合成口哨声(不同于自然海豚声音)与海豚喜欢的特定物体(如马尾藻、海草或研究人员的围巾)相关联。研究人员希望好奇心强的海豚能学会模仿这些口哨声来请求这些物品。
为实现双向互动,CHAT系统需要:
- 在海洋噪音中准确听到模仿声
- 实时识别出模仿的是哪个口哨声
- 通过水下骨传导耳机告知研究人员海豚“请求”了哪个物体
- 使研究人员能快速响应并提供正确物体,以强化联系
一台某品牌Pixel 6手机负责实时处理海豚声音的高保真分析。下一代系统以某品牌Pixel 9为核心,集成了扬声器/麦克风功能,并利用手机的高级处理能力同时运行深度学习模型和模板匹配算法。
使用Pixel智能手机显著减少了对定制硬件的需求,提高了系统可维护性,降低了功耗并缩小了设备的成本和尺寸——这些在公海实地研究中是至关重要的优势。同时,DolphinGemma的预测能力可以帮助CHAT在发声序列中更早地预判和识别潜在的模仿行为,从而提高研究人员对海豚做出反应的速度,使互动更流畅并具有强化效果。
与研究社区共享DolphinGemma
为了促进科学发现中的合作,计划于今年夏天将DolphinGemma作为开放模型发布。虽然该模型是基于大西洋斑海豚的声音训练的,但预计它对研究其他鲸类物种(如宽吻海豚或长吻飞旋海豚)的研究人员也有用。不同物种的发声可能需要微调,而模型的开放性有助于这种适应。FINISHED