鸡尾酒会效应嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?


出品:科普中国
制作:孙雪聪(中科院噪声与振动重点实验室)
监制:中国科学院计算机网络信息中心
不知道你是否有这样的经历 , 月底穷困潦倒的你中午走进人潮喧哗的食堂 , 正在心里疯狂比较哪个菜更便宜时 , 忽然听到五米开外某人的一声“咱们发工资了” , 于是你理直气壮地对食堂阿姨喊道:“加个鸡腿!”
鸡尾酒会效应嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?
本文插图
△(图片来源:修改自《家有儿女》)
还有 , 不管在哪里 , 周围有多吵 , 一旦有人叫自己的名字 , 总是能听到 。 人能够在如此嘈杂的环境下精确捕捉到想听到的声音 , 甚至还能知道声音的方位 , 相比之下 , 现在的很多智能设备却做不到这一点 , 这究竟是为什么呢?
人的听觉为什么具有选择性
说起人的听觉 , 有一个著名的效应——鸡尾酒会效应 , 它是指在喧闹的鸡尾酒会上 , 参会者大脑中的听觉系统可以将他的注意力集中约束在他感兴趣的谈话内容上 , 而自动忽略其他“无关”的噪声 , 即使周围环境非常嘈杂 。
然而 , 这种我们人类用两只耳朵就能搞定的小问题 , 对于智能音箱等语音交互设备来说 , 却并不是那么容易的 。 当它们身处嘈杂的环境时 , 很容易就受到各种来路不明的声音的连环暴击 , 最终陷入我是谁我在哪我在干嘛的死循环中无法自拔(感兴趣的同学可以打开你身边的语音交互设备尝试一下)…于是 , 攻(工)城(程)狮(师)们本着大力出奇迹的原则 , 不惜斥巨资为它们装上很多个金光闪闪的麦克风用来接收声音 , 又去全世界各地搜罗各种各样的声音数据 , 没日没夜地投喂它们 。 但是 , 机器们学习的效果不是十分理想 , 鸡尾酒会问题至今仍然困扰着世界各地的语音攻城狮们 。
鸡尾酒会效应嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?
本文插图
这时有的同学可能就要坐不住了:“就这?还用学?看来我的学霸属性就要藏不住了!”这位同学你先冷静一下 , 事情可并不是你想的那么简单哟 。
其实 , 你能具有这种听觉选择能力首先要感谢你的妈妈给了你两只忽闪忽闪的大耳朵 , 这使得你的耳膜并不是像麦克风一样是直接裸露在空气中的 。 你的耳廓、头部、肩膀、躯干等身体部位对于声音来说像是一个“迷宫” , 来自不同方位的声音需要从不同的入口进入 , 经历上述部位的一系列反射后最终到达“迷宫”的中心——耳膜 , 然后你的大脑就能感知到这个声音啦 。
由于声波所走过的路径不同 , 它们的频谱也会发生不同程度的修改 。 在这个“迷宫”的不同位置 , 仿佛潜伏着一群造型师(没错 , 就是让你又爱又恨的Tony老师) , 声波路过时总是难免被“改造”一番 。 由于这些造型师们风格迥异、水平参差不齐 , 在大脑看来 , 这些声波就变得各有特色 , 所以很容易区分 , 怎么说呢…有点像…
鸡尾酒会效应嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?
本文插图
所以当你还是个小baby的时候 , 你还没能累积足够多的听音经验 , 你的大脑对这些改造过的声音可能一时无法辨认 , 因此导致你对声音的辨别能力可能比较弱 。 随着你慢慢长大 , 听到的声音越来越多 , 你的大脑就会慢慢摸清套路 , 建立一套自己的算法(数据库) , 这样即使是好几个声音同时出现在你面前 , 你也能很轻松地区分他们 。
机器怎么获取辨音能力
那么问题来了!能不能让机器像我们人一样 , 拥有能够分辨不同声音的能力呢?答案是肯定哒!前不久 , 中科院声学所的杨军研究员团队就提出了一种基于声学超材料的单通道多声源定位与分离系统 , 只使用一个带有超材料外壳的单通道传声器 , 即可实现三维空间中多个同时发声声源的实时定位与分离 。 研究成果发表在了综合类期刊Advanced Science上 。


推荐阅读