这个新的人工智能模型可以分辨出声音来自哪里

160 阅读3分钟

麻省理工学院的神经科学家们已经开发出一种能够定位声音的计算机模型 。该模型包含了一堆卷积神经网络,并能像人类一样完成这项任务。

人类的大脑被调整为识别特定的声音并确定其来源方向。大脑通过比较到达右耳和左耳的声音的差异来估计声音的位置。"我们现在有一个模型,可以在现实世界中实际定位声音,"乔希-麦克德莫特说,他是大脑和认知科学的副教授,也是麻省理工学院麦戈文大脑研究所的成员。"而当我们把这个模型当作人类的实验参与者,并模拟过去人们对人类进行测试的这一大组实验时,我们一次又一次地发现,这个模型再现了你在人类身上看到的结果。"

麦克德莫特是该论文的资深作者,该论文发表在《自然-人类行为》上。论文的第一作者是麻省理工学院的研究生安德鲁-弗兰克。"这项研究还发现,人类感知位置的能力是适应环境的具体挑战的,"麦克德莫特补充说。

卷积神经网络也被广泛用于为人类视觉系统建模。

由于卷积神经网络 可以设计成不同的架构,麻省理工学院的团队首先使用一台超级计算机来训练和测试大约1500个不同的模型,以帮助他们找到对定位效果最好的模型。研究人员将其缩小到10个模型,并进一步训练和使用它们进行后续研究。

为了训练这些模型,研究人员创建了一个虚拟世界,他们控制房间的大小和墙壁的反射特性。他们使用了400多种训练声音,包括人声、动物声、机器声和自然声。研究人员还确保模型开始时与人耳提供的信息相同,其中包括声音反射和改变到有褶皱的外耳等细节。研究人员通过一个专门的数学函数运行每个声音来模拟这种效果。

为了测试这一点,研究人员将一个耳朵里有麦克风的人体模型放在一个实际的房间里,播放来自不同方向的声音,然后将这些录音输入模型。当被要求对这些声音进行定位时,这些模型的表现与人类非常相似。"Francl说:"尽管模型是在虚拟世界中训练的,但当我们评估它时,它可以在现实世界中定位声音。

研究人员正在将该模型应用于听觉的其他方面,如音调感知和语音识别,以了解其他认知现象,如一个人能够注意或记住的限制。这项研究得到了美国国家科学基金会和美国国家聋哑及其他交流障碍研究所的资助。