科大讯飞,成了中国的Siri又如何?
[来源:] 2012-08-28 16:22:00 编辑: 点击: 次
扁鹊兄弟 发表于 雪球
2012.8.24,科
2012.8.24,科
扁鹊兄弟 发表于 雪球
2012.8.24,科大迅飞复牌,由于中移动入股15%,股价当日涨停。背靠大款,科大迅飞是不是就凤凰涅槃,脱胎换骨了呢?本人认为这相当不靠谱!
中移动入股对在语音增值(如10086或声讯台)方面的效果我不作评估,也许中移动为了这个投资标的,把全国所有的10086都外包给科大迅飞来运营,再造一个神州泰岳一样的故事。但如果投资者认为,中移动入股后,其语音识别或语音输入会突飞猛进地发展,延伸到掌控产业链,我认为是相当的不靠谱。首先,Apple,Google对语音交互的战略定位,从来没有想靠语音输入来掌控产业链,只是在原有的产业链和商业模式下增加一种交互方式,增强客户的粘性和活跃度,扩大整个价值链的价值,迅飞就想凭着这一个武器就想掀翻别人格局,简直就是痴人说梦!
首先,语音输入的场景不适合公共场合(隐私原因和太嘈杂),也不适合办公场合(隐私),在家里可用可不用。锻炼身体和开车时适合一些,但我不知在这两个场合的使用频率占多少,难道我们人类真的就象黑客帝国所说的那样,人类沦类计算机网络的“电池”,要无时无刻地为网络“充电”吗?
第二,上帝赋予人类的交流体系有触觉交流、语音交流、视觉交流,体感交流,在与计算机的交流上,都用上了,但还没有一个通过交互技术来掌控价值链的,触觉没有,视觉没有,语音也不会有。目前最有效率的交互体系是触觉和视觉并用,达成流畅和高效的交互体系,语音交流体系是很自然的交流方式,但绝不是优质高效准确的交流方式,原因有三:1、视觉输出的信息是丰富的,大量的,随机读取、快速的,而语音给出的信息是单调的,串行的,缓慢的(类似于过去的磁带串行读取和现在的高速随机的磁盘读取),这大大降低了程序的执行效率;2、语音识别输入与触觉输入(我把键盘和鼠标也定为触觉交互)相比,执行效率更慢,因为触觉输入内置于程序之中,而语音识别输入需要调用外部的语音云识别程序,跑到了程序外,这受制于网络和识别效率,如果语音识别准确率不高,还要来回地确认,那这个交互的效率实在是让人吐血了。3、视觉输出和触觉输入是准确性最高的,因为程序逻辑与输入输出高度耦合,输入输出的上下文环境内置于程序之中,程序引导明确,出错的概率极小,而语音识别存在太多的分支和可能性,识别和执行逻辑的准确性低。1个月前,跑到苏宁去体验了一下智能电视,其中有一项就是语音控制,你必须首先进入语音操作环境,然后当电视向我确认是否做某项操作时,我说“好”,电视机没反应,导购人员告诉我说:“你必须对电视说‘是’”!人类语言太过复杂,看来人们要能熟炼用语音操作计算机或电视的话,还得培训几天,熟炼掌握电脑能理解的“行话”。
第三、从语音识别输入的应用类型来看,只有存在大量文字输入,如发微博,短信的应用,适合于用语音(当然也适合用键盘输入和手写输入),其它如执行程序,特别是应用内的交互场景,都很难适合于语音识别输入。本人做了一个小规模调查,样本达130人(样本主要来自深圳的白领,年龄在30岁左右,文化程度较高的一群人),使用语音识别输入的只占到2.5%左右,键盘输入占到70%,手写输入占到25%。这也验证了当前各种输入方式的流行程度。所以年初讯飞CEO在回答投资者问题时说:“未来肯定是语音输入为主,触摸输入为辅”这个话时,我觉得他如果不是在骗投资者的话,那就是陷入了对自我的意淫当中。
最后一点,也是很重要的一点。Google、Apple发展语音交互,是因为其后台有商业模式,苹果通过差异化的用户体验多卖手机,Google则通过语音搜索,可以报一条广告给用户,如果是通过第三方导过去的搜索,还可以给应用开发商分钱,这样产生两方面的效应:一是Google,Baidu和QQ等肯定是免费开放语音交互接口,把用户导流到这些平台上,通过搜索变现赚钱;二、开发商肯定是愿意在这些平台上开发应用,可以分钱。而科大讯飞呢?由于其后台没有可变现的商业模式,可能还想找应用开发商要钱呢,语音识别一次收费几何!两者高下立判。而后台可变现的互联网商业模式(如搜索)在讯飞基本看不到希望。
哪天中国移动把10086的自动语音服务流程改成自然语言交互的话,而不是听一堆语音提示,最后利用电话听筒按“1,2,……”这些数字键后,也许语音输入的时代才真正到来。但我想中国移动并不敢这样做,因为这会太幅降低用户体验。
纯属个人看法。