(文章来源:福布斯中文网)
今年5月,人工智能大师吴恩达(andrew ng)加入了中国互联网先驱百度公司,担任首席科学家职位。当时,吴恩达对他和他的团队在加州桑尼维尔一家新成立实验室可能取得的成果守口如瓶。但是,现在他终于忍不住披露了更出色的语音识别技术,这是智能手机时代引人关注的关键领域。
具体来说,deep speech在车内或人群中等嘈杂环境下比其他语音识别系统的表现更出色。当然,关键是让语音识别技术在现实世界中真正发挥作用。吴恩达说,测试显示,在嘈杂的背景下,deep speech的语音识别能力优于其他几种语音识别系统——谷歌speech api、wit.ai、微软的 bing speech和苹果dictation,词汇辨识错误率比这几种技术低10个百分点以上。
百度提供了两位大学教授的正面评论。“百度研究院最近的工作有可能颠覆语音识别在未来的应用效果,”卡耐基梅隆大学(carnegie mellon university)工程学助理研究教授伊恩·莱恩(ian lane)在一份新闻稿中表示。百度公司要求,在今天上午发布论文前不要对外透露细节,因此我们无法联系谷歌、苹果和其他公司发表评论。如果以上各方选择随后发表评论,笔者会补充他们的观点。
像其他语音识别系统一样,百度的语音识别系统是以人工智能技术的一个分支为基础,称为深度学习。这类软件试图(以非常原始的形式)模拟大脑新皮层的神经层活动——大脑80%的思维活动发生在新皮层,因而深度学习系统能够学习如何识别声音、图像和其他数据的数字表现模式——理论上可以识别很多数据。吴恩达在接受采访时说,“第一代深度学习语音识别系统正在接近极限。”
百度团队采集来自9,600人的约7,000小时语音会话,大部分对话是在安静的环境中进行——不过有时讲话者戴着耳机,播放吵闹的背景音,因此他们就要改变自己的音高和语调,就像他们在嘈杂环境中讲话那样。然后,百度团队使用一种称为叠加的物理原理,在这些语音样本中加入大约15种噪音,比如餐馆、汽车和地铁的环境噪音。这些做法实质上把语音样本增加到10万小时的数据。然后,百度团队让语音识别系统学习在所有的噪音环境下识别语音。
吴恩达表示,这种方法比现有的语音识别系统更为简单。他们使用了一系列用来分析音素和语音其他部分的模块,这通常需要对模块进行手工设计,用到被为隐马尔可夫模型(hidden markov models)的统计概率系统,需要大量的人力调适模板噪声和语音变化。吴恩达表示,百度的语音识别系统采用深度学习算法取代了这些模型,这种算法在递归神经网络或者模拟神经元阵列中进行训练,让语音识别系统更加简单。
如果没有这样的速度,对这么多数据进行分析是不可能做到的。吴恩达表示,这个系统比现有基于gpu的其他系统更为先进。“我们正在进入语音2.0的时代,”他说,“而这仅仅是个开始。”
吴恩达认为,随着互联网用户的文化水平门槛越来越低,他们更愿意使用语音而不是文字,因此语音识别技术的重要性将进一步提升。“让计算机和我们对话是个关键,”他说。吴恩达举了个最近在中国进行搜索查询的例子:“嗨,百度,你好吗?昨天中午我在一家街角小店吃了面条。你知道这家店明天还卖面条吗?”吴恩达承认,到今天为止,为这个请求提供答案依然非常困难,但是他认为更完善的语音识别将起到关键作用。
语音重要的另一个原因是,物联网的发展把现在所有无声的电子设备连接到网络。他设想在未来的某个时期,如果他有了孙子孙女,他们一定会惊讶于我们曾经使用电视遥控器,拥有不能对语音命令做出响应的微波炉。“语音是一项能够促进物联网成长的技术,”吴恩达说。
百度究竟要多长时间才能把这种全新的语音识别方法集成到其搜索和其他服务中,这一点吴恩达拒绝透露。但是被问及是否要用几年的时间时,他很快回答说,“天哪,用不了!”如此看来,这种技术很有可能在新一年的某个时候正式亮相。百度的cool box是一个可能应用这种语音识别方法的“试验性”项目,这个系统可以使用语音激活音乐播放要求。
在百度尝试提升自我、跻身于顶级互联网公司行列的努力中,吴恩达和他的团队的工作将发挥重要作用。这个团队现在大约有30名员工,明年人数可能会翻一倍。目前,百度主要服务于中国市场,但这家公司着眼于扩大其国际影响范围,这将涉及到开发世界顶级的语音识别、翻译和其他功能。
凌力尔特推出精确的SOT23电压基准器件LT6656
iPod Shuffle停产:物理按键推出历史舞台 触摸屏的全面胜利
2020年5G产业发展趋势分析
浦桑尼克LDSM6扫地机器人评测 两千元档明星产品
Rovr——VR体感操作领域新宠
百度的语音识别技术或将超越谷歌和苹果
ZC-2-10A自动充电机,ZC-2-10A automatic charger
AI将会助力哪些新兴企业布局人工智能
STM32F4_TIM输入波形捕获 (脉冲频率)
一文弄懂热力膨胀阀该如何选择
AD9361 RF捷变收发器的性能及应用
小马智行自研自动驾驶域控制器ADC已开始向用户交付样品
在Android 12中,操作系统的更新可能会更容易
硬创早报:台积电将为索尼PS5释放更多7nm产能
SPEOS—光学产品设计及仿真工具
氢气发生器原理及构造
igbt模块参数怎么看 igbt的主要参数有哪些?
OPPO Watch性价比之最,VOOC快充还有高颜值
感应电流方向用什么定则 电磁感应现象怎么判断电流方向
神十五载人飞行任务看点 六大看点解读