然而很多年过去了,人机自然语言交互依然不是主流的交互方式。
尽管投资人、用户以及政府都对人工智能充满了期望,应该看到目前的进步都还只是量变,并没有达到质变。
于是我们看到很多拿到投资的企业很快就变得平庸了,不再能让我们眼前一亮。
但最初的操作系统是命令化操作,只有专业人士才能记住那些复杂的命令,于是电脑成了“奢侈品”,普及困难。
触摸屏交互和鼠标键盘交互存在的问题主要有以下几点:
第一、菜单式操作,能容纳的功能有限。大多数人在手机上安装的APP不会多于100个,大多数人即便在电脑上安装的软件数量也不会多于100个。因为太多了查找起来就很困难。我们大多数人手机里的电话号码不会多于1000个,微信里的好友很多人连5000个都没有加满。这都是受限于操作系统需要通过菜单展示信息。
第二、需要人理解机器。过去计算机要输入汉字是件很困难的事情。我们上学时最流行的是五笔字型输入。需要参加培训才能学会这种输入法。现在也需要通过各种输入法去解决汉字输入的问题。这就需要我们理解输入法的规则。过去很多软件操作都很复杂,需要经过培训成为专业人士用户才能使用。现在尽管软件都智能了很多,但一些软件还是需要人们去学习才能掌握它的使用方法。
第三、需要近距离操作,占用手和眼。无论键盘鼠标还是触摸屏,都需要近距离操作,需要手眼配合。因此在用计算机和电脑的时候,我们就不能干别的事情。另外,也因为近距离操作,限制了人们的使用场景。例如,必须有电源,有办工作安防电脑等等。
为什么SIRI不能实现以上功能呢?很多时候,那些SIRI一类机器人更像个智障。
其实人机自然语言交互需要的不仅仅是自然语言处理,而是一个系统,一个大脑。语言处理的过程就是思辨的过程。我说“吃”,你不知道我说的啥意思,但我说话的对象就能听得懂。因为他从我这里获得的信息比你多,他能综合各个信息通过思辨来理解我的意图。语言本身是模糊的,甚至矛盾的。说“是”也许表达的是否定,说“快乐”也许表达的是伤心。只有通过思辨才能理解一句话。机器要理解人就需要机器具备思辨能力,思辨能力就是智慧。如果像写普通程序那样写人工智能程序,不会让机器拥有思辨能力。
其次,只有机器拥有了相应的知识才能解决相应问题。但人类的知识是个无限集,是非常非常庞大的。只有通过UGC的模式,让每个参与者都为机器人提供知识,才能保证机器人拥有无限多的知识。如果需要通过训练来让机器人拥有知识,那普通用户是无法参与的。
另外,语言是流动的是模糊的。一个词在现代包含的意思和在古代不一定完全相同。一句话在不同的场合含义都不一样。要理解语言,不是理解字面,而应当去理解文字背后的语义。如果把语言当成处理对象,那就错了。