|
Siri最难的技术不是语音,而是语义识别。 4月5日消息,“Siri是催化剂,但是能否修成正果尚需时日。” 小i机器人董事长袁斌对TechWeb表示。 自从去年10月,借助发布iPhone 4S之势推出Siri语音问答系统以来,全世界都掀起了一场语音技术热潮,这些长期被边缘化的公司瞬间成为了市场关注的焦点。前有Ciriis和Airi,后有科大讯飞的“语点”。 被资本市场高度热捧的是市场是机会还是陷阱?目前下定论显然有点早。 过去的一个月,TechWeb走访了国内众多从事语音技术的公司,发现这些Siri的跟随者们都面临的共同问题是,听得懂你在说什么,却不理解你在说什么。至少目前来看,语音市场距离大规模商用依然有不小的距离。 这个问题的出现并不意外,因为即便是苹果的Siri同样困扰于此。近日,Siri在国外遭到了多起诉讼,原因是Siri无法准确理解用户的问题,苹果涉嫌夸大宣传。由此可见,如果Siri尚且不够完美,那么中国的Siri必定还有更多的路要走。 “最后的礼物”不完美 2011年10月,苹果iPhone 4S发布,虽然iPhone 4S无甚亮点,但其配备的语音控制助手Siri一经发布便艳惊全球。被称为乔布斯送给这个世界“最后的礼物”。 这是苹果唯一一款打上Beta标签的产品,但却承载了巨大的期望。苹果可以借此机会创建一个人工智能程序的生态系统,将Siri做成平台,让Siri与其他程序结合,Siri本身将成为入口。其结果是谷歌的搜索形式将被颠覆,用户可以通过更自然的交互方式直接获得答案。《纽约时报》撰文称:Siri代表着苹果的商业未来,也预示着未来“搜索”的形态。 虽然苹果有长远的规划,但Siri的发布还是略显仓促,实现这些美好愿景尚需时日。Siri所具有的发电子邮件、播放音乐、安排会议等诸多功能用户使用频率并不高。最新的一项调查显示,30%的用户从未使用Siri来发送电子邮件,32%的用户分别表示自己从未使用Siri播放音乐。对Siri表示非常满意的用户只有55%。 本月早些时候,纽约iPhone 4S用户弗兰克·法齐奥(Frank M. Fazio)在加州联邦法院提起诉讼,指控苹果发布的广告中对Siri功能的描述存在“误导性和欺骗性信息”。另一位iPhone 4S用户大卫·琼斯(David Jones)在美国加州库珀蒂诺对苹果提起诉讼,指控苹果错误地描述了Siri功能。“Siri要么无法理解原告所提出的问题,要么在经过长时间等待后提供了错误的答案。” 语义识别之难 为什么Siri会有这些不完美?国内从事了十年智能网络机器人研究的小i机器人董事长袁斌解释称,Siri最难的技术不是语音,而是语义识别。 我们现在看到的Siri实际上由两部分组成,一部分是语音识别,一部分是语义识别。当用户对Siri讲一句话时,语音识别分析出这句话说的是什么,语义识别分析出这句话是什么意思。语音和语义两部分技术在Siri中所占的比例分别是20%和80%。也就是说,要正确理解用户的意思并作出反应,语义识别实际上更为关键。 脱胎于美国国防部技术的Siri真正擅长的是语义识别。语音识别部分,Siri选择跟语音识别引擎Nuance合作。Siri现在的任务是不断加强其语义识别能力,建立更加庞大的数据库。据说苹果已经在印度招大量工程师进行数据库的梳理。 语义识别的另外一个挑战是,内容越多,对智能识别的挑战越大,需要的算法更强。 从事了多年语音技术研究的李开复也表达过类似的观点,他说:“人们一旦开使用语音跟你交流了,就会把你当做一个人,这个带来的超级高的期望值会给语音带来很大的挑战。” Siri不适合创业公司 Siri的火爆让不少国内的创业者非常兴奋,因为它代表着一个可以探索的新方向。但是不少业内人士对此表示怀疑态度。 李开复曾在微博中称:"中国Siri’创业计划不太适合中国创业公司,需要解决的问题很多也很棘手,主要是新的智能语音控制技术如何引导用户行为,再是克服海量数据学习门槛和应用整合困难等。” 国内现在已有的类Siri应用,Ciriis和Airi,尚且都停留在娱乐层面。而前段时间科大讯飞高调发布的“讯飞语点”也并未有实质性突破,如果一句话中间增加停顿,它便无法正确理解。 袁斌认为,要做中国的Siri,第一需要语料库,第二需要人工智能的算法。讯飞拥有前者的优势,但后者仍需积累摸索。“需要长期的、系统的平台去处理每天进来的海量的知识,经过长期的集聚,形成工程化的产品,最后才能对每天进来的知识进行去重、筛选,同时能够学习新的知识点。” 在这一点上,袁斌的小i机器人有值得借鉴的经验。 小i机器人是一款网络机器人,主要应用于运营商、银行等的网络客服系统。小i机器人从2001年开始开发,最终以IM聊天机器人的形式推出,经历了个人用户激增、产品线众多、用户满意度下降、公司负担过重等一系列问题,最终艰难转型。而这些问题与今天的Siri以及类Siri应用面临的问题非常相似。 袁斌认为,无论谁做语音控制技术或者智能识别技术,这些问题都无法绕开。解决了,则柳暗花明,解决不了,只有死路一条。 |