人工智能技术的精进与开发无疑对人工智能的应用至关重要,而人工智能除了在与生活强关联方面的应用,回应少数群体的需求也将成为人工智能发展的必然方向。
近日,加州大学伯克利分校的研究人员表示,他们正在使用无声语言和收集肌肉活动的传感器来训练人工智能。其中,无声语言是用肌电图(emg)检测的,电极则放在脸和喉咙上。研究人员表示,该模型的重点是研究被称之为“沉默语音”的模型,该模型可以检测到人们想说、但没说出声的话。
研究人员相信,他们的方法可以为那些无法发出声音的人提供大量的应用,并且可以支持人工智能助手或其他对语音命令做出响应的设备进行沉默语音检测。
尽管设想美好,但想真正实现却并不容易:首先,在收集数据时,研究者会先在实验者的脸上等部位贴8个贴片,每个贴片都是一个“监视肌肉变化”的传感器。
随后,研究人员需要录制一段实验者的有声语音,并与肌电图进行对应这种方法能够将肌肉的变化情况、和语音的类型对应起来。然后使用wavenet解码器生成音频语音预测。在记录数据的过程中,还要再录制一段“对口型”的肌电图,但不需要发声,也就是“沉默语音”。
与用发声肌电数据训练的基线相比,该方法在书中句子转录的单词错误率下降了64%到4%,错误率比基线减少了95%。此外,为了推动这一领域的进一步研究,研究人员还开发了一个由近20小时面部肌电数据组成的数据集。
这项题为“无声语音的数字发声”的研究论文,在近日举行的自然语言处理经验方法(emnlp)活动上,获得了最佳论文奖。
研究小组的论文写道:“数字化无声语音有着广泛的潜在应用。”例如,它可以用来制造一种类似于蓝牙耳机的设备,它允许人们在不干扰周围人的情况下进行电话交谈。而显然,这种设备在环境噪音太大无法捕捉到可听语音或保持沉默的环境中将具有重要作用。
Android电视盒电源修复图解
智能家居陷入混战,但仍“形式大于内容”
英特尔退出移动设备市场!会不会言之过早?
奔驰gla2017款简评,颜值和配置双重升级,2016年豪华车销量冠军之位
基于模糊控制的无人机应急电源快速充电方法
失语者的未来:无声语音的数字发声
Hifn携业内首款硬件加速型存储解决方案亮相SNW秋季大会
PDP,PDP是什么意思
加速电容在电路中的作用
华为Mate10什么时候上市?最新消息:iPhone8还没热起来,华为Mate10即将发布价格5499元起
BGP高级特性——4字节AS号
解析服务机器人领域“五朵金花”的类型与商务模式
龙芯中科登陆科创板,首日大涨60%,募资35.12亿发力下一代CPU和GPU芯片
蓝兆推出新款蓝牙智能便捷式人机交互模块BT111
dfrobotXBee USB Adapter适配器介绍
带CMOS的防盗报警电路分享
什么是现场总线?现场总线有哪些类型?
英特尔创新回归两年周期 明年实现7nm产品首发
2024款斯柯达Enyaq系列车型提供多种动力系统
物联网网关如何对PLC设备进行数据采集