嘿siri,你怎么听见我在叫你?
现代生活发生了微妙的变化。在假期期间,我们将与家里的智能扬声器交谈:“爱丽丝,请播放一些圣诞节歌曲”,“ Google,请打开美妙的灯光”,“ Siri,Siri,烤土耳其出来需要多长时间” ,就像与家庭成员的对话一样,这种无形的指示几乎立即被执行。
亚马逊,Google和Apple等设备已出现在英国房屋中的五分之一。 2019年,全球已售出1.47亿台,预计2020年的销售额将增长10%。令人惊讶的是,智能扬声器的语音识别能力和准确性很高。这些都归因于用于解释语音的高敏性语音传感器和复杂的机器学习算法。
从正常语音转换为文本需要两个过程:(1)配音传感器将接收的声波转换为电信号; (2)使用软件识别语音中的单词。在第二阶段,首先将电信号从模拟信号转换为数字信号,然后使用快速的傅立叶变换来找出随着时间的推移,不同频率信号的幅度变化。将手机与算法语言的标准音素进行比较以形成完整的语音。在语音识别过程中,机器学习非常重要,可以用来提高准确性。计算程序记得我们对我们所说的内容的更正,因此在解释我们的个人声音时会变得更加精确。
奥黛丽项目和电容传感器
敏感性声探测器起源于19世纪后期。原始的声音传感器是碳粉接触麦克风,由E. Berliner和美国的T. Edison独立发明,英国的D. Hughes。该麦克风压缩两个金属板之间的墨粉颗粒,然后在两侧增加电压。传入的声波导致金属膜片之一振动。在压缩过程中,碳颗粒变形并增加了相互接触区域开元棋官方正版下载,导致接触电阻减小,并且电流增加。随着隔膜移动,声音可以通过当前的变化记录。
但是,语音识别技术并未在1952年首次实现。 ,以及许多其他电子仪器。
自奥黛丽(Audrey)建立以来,语音识别的计算取得了长足的进步,并且还严格测试了语音传感器。铝制皮带麦克风,动态麦克风,碳粒子麦克风等已经出现,但又一次地逐渐淡出了市场,而电容传感器一直是主流。 1916年,美国西部电子工程实验室的EC Wete发明了一个电容传感器,该传感器利用电容板之间的电压和间距的物理效应。在固定背板和移动膜的两侧增加电压,并且随着膜振动外部声波的振动,电容器两端的电压发生变化,从而计算由不同频率的声波引起的幅度变化。
G. Sessler等。贝尔电话实验室在1962年发明了电容器麦克风(ECM)。element材料(例如聚氟乙烯)具有内在的表面电荷,可以在电容器上保持固定电压kaiyun全站app登录入口,从而降低输入功率。直径为3-10毫米的ECM占据了麦克风市场约50年。但是,减小传感器的大小会导致信噪比和稳定性的降低,尤其是在变化变化的环境中。
与《时代》保持同步的配音传感器。自E. Berliner(左),T。Edison和D. Hughes首先发明了碳粒麦克风以来,配音传感器取得了长足的进步。 (中)element电容麦克风; (右)MEMS电容麦克风
当用于语音识别时,大多数ECM传感器已被微电力系统(MEMS)电容传感器取代。该传感器在智能扬声器中的直径约为20-1000毫米。 MEMS传感器和ECM之间的差异是内部模拟数字转换电路。与ECM相比,MEMS设备对电子噪声不敏感,尺寸较小。它们是使用半导体过程线处理的,从而使它们更易于批处理生产。 MEMS传感器的缺点是它们的寿命较短,不适合苛刻的工作环境。沉积在隔膜,雨水和附着在隔膜表面的空气层上的颗粒都将降低其敏感性。
新解决方案
尽管电容传感器数十年来一直占据了整个行业,但它们并不是未来发展的首选。 Vesper是美国的一家公司,设计了一个压电配音传感器,成为一种新解决方案。该公司的最初设计成立于2014年,源自该公司首席执行官Bobby Littrelld的研究。
压电配音传感器使用由压电材料制成的隔膜,例如铅锆钛酸含量压电材料,将机械能直接转化为电响应。当压电膜收到声波时kaiyun.ccm,内部内部离子之间的距离会产生电偶极子,从而使结构中的离子形成最低的能量分布。该偶极只能存在于非中心对称结构晶体细胞中。偶极子在晶体中的累积作用会产生电压,该电压随晶体中应变的变化而变化。
与电容性配音传感器相比,压电传感器的优势是不会用污染物,空气或水分染色,因此具有更长的寿命。此外,该设备是自动的,为电池节省了空间。
但是,像这样的薄膜设备以及电容性设计通常很难准备,并且在高真空甚至超高的真空环境中需要。有必要选择合适的底物并根据单个细胞的一定晶体取向生长膜,以便在机械应变条件下生长的偶极子均面向相同的方向。需要高温以改善原子的迁移率,以使原子在基板的最低能量位置形成理想的晶格。但是,单晶膜必须在有序结构上生长,而柔性底物具有无定形结构,因此很难种植单晶膜。
从大自然中学习
在言语认可领域,韩国Kaist的团队开发了一种新的压电传感器,该传感器模仿了人类听力。它们的压电传感器的形状与人耳蜗的地下膜相似,因此可以收集信息的两倍,是常规电容传感器的两倍。该优势不仅源于收集包含所有频率的单个信号,从中提取频率和振幅信息,而且还在膜中的不同位置获得了多个信号。丰富的信息使语音识别更加准确。该设计的准确性和敏感性优越,使您可以从远处获得音频信号,并能够区分单个声音。
他们研究中的棘手问题是分析来自这些通道的信号,并给出不同频率信号的相对幅度,这是由于该通道的共振行为调节的幅度所致。该团队认为,已经找到了适合此类探测器的渠道数量,但是必须收集更多信息以提高准确性,并且必须平衡适当尺寸的处理器。
喉咙传感器
语音识别技术不仅限于将传感器放在房屋的每个角落或口袋中。在声音几乎无法传播的情况下,例如在嘈杂的工业环境中或人们戴着笨重的气罩时,用于检测喉咙振动而不是声波的传感器非常重要。 2019年,Posboa科学技术大学的韩国制作了一项突破性的工作,以开发灵活的电容传感器,并且可以附着在皮肤上。该传感器通过检测喉咙环形软骨上皮肤的振动来感知一个人的声音。由于喉皮的加速度与声压线性相关,因此可以通过测量电容值的变化,然后转换为声压来感知喉咙加速度。团队制作了厚度小于5μm的环氧树脂膜,以模拟自然界中的柔性聚合物材料。
语音识别探测器的未来是一种面向应用程序的智能设备,例如高灵敏度,能够识别单个语音信息作为密码或指纹。
本文从物理学中选择,2021年第1期
(由Pip Knight的北京大学的Zhu Xing翻译。物理世界,2020年,(12):25)