IBM的语音识别已达到较高的水平,并且能有与人类语音识别水平相较的低错误率。
上周,IBM的语音识别团队实现了仅达5.5%的错误率,与之前的记录6.9%的错误率相比,是一个巨大的进步。
像Apple的Siri和Microsoft的Cortana这样的数字语音助手需要接近甚至超越人类语音识别错误率(据IBM估计,为5.1%)以便更多的消费者使用。语音助手预计将成为智能手机、可穿戴设备、连接汽车和家庭控制中心下一个主要的计算接口。
虽然数字语音助手还远不及完美,但技术企业之间都在加强语音识别的能力,因为他们互相都在竞争。Microsoft的首席演讲科学家黄学东表示,IBM与Microsoft是相互竞争的,Microsoft去年开发了一个语音识别系统错误率为5.9%;这高出了IBM整个百分点。
尽管取得了进步,但是现有的研究语音识别的方法缺乏行业的标准,这使得很难真正地衡量技术的进步。IBM测试了一种人工神经网络“Long Short-Term Memory”(LSTM),Google DeepMind的WaveNet的言模型则是一系列的人类对话记录。虽然SWITCHBOARD在最近20年以来一直是语音识别的测试基准,但还有一些其他的更加严格和困难的测试,比如”CallHome”。IBM提到,对于机器来说这个测试集更难识别。使用CallHome基准测试,公司达到10.3%的错误率。
此外,语音助手在大规模采用之前需要克服很多障碍:
● Kleiner Perkins的分析师Mary Meeker指出,他们需要超越“尽可能的接近人类“,尽管最近的进步,语音识别需要达到大约95%的正确率才能被认为是最有效的计算输入形式。这是因为消费者对自动化服务的准确率要求甚高。事实上,一组美国智能手机的用户被问及他们最想要语音助手哪方面做得更好时,MindMeld认为”理解我所说的话“,并得到44%的选票。
● 消费者行为需要改变。语音要真正的替代文字或者触屏输入,消费者需要更情愿在所有情况下都使用这个技术。然而,相当少的消费者经常使用语音助手;根据Accenture Report指出,2016年只有33%的14-17岁的消费者使用语音助手。
● 语音助手需要更有用。开放第三方app的接口给语言助手则提供了一个入口,让语音助手能够真正实现助手该做的工作。像Siri、Google Assistant和Echo这样的语音助手,进入到这些apps使用户可以执行更多的操作,如订购汽车。
物联网正在迅速地增长,因为世界各地的公司每天都在连接成千上万的设备。但在这些设备背后,有一个价值数千亿美元的行业支持物联网。
平台是将物联网连接在一起的粘合剂,用户可以充分利用连接设备的颠覆性的潜力。这些平台使物联网实现其变革的潜力,使企业能够管理设备,分析数据和自动工作流。