老罗曾经说:“语音识别技术的使用上,无论是siri还是它的模仿者,都从根上就犯了错,所以都是热闹一阵就过去了,几乎没人认真用它(因为不好用+用起来显得巨傻)。”虽然说的有些偏激,但是没人认真用也就是说大家不愿意开口说话这件事情是值得思考的,语音识别技术这个根正苗红的太子发展到现在,试图渗透着我们生活的同时,我们也发现这玩意儿看起来并没有传说的那么神乎其神,从语音机器人到Siri再到Google Glass,每一次相关产品的问世都引起极大的关注度,但又随着时间和了解逐渐平息下来,到底是什么让我们觉得巨傻而难开金口呢?
市场现状
首先来看下目前常见的语音类产品:
一、手机领域:微信、语音助手、听歌搜索
二、PC领域:语音聊天、外语教学软件、盲人辅助软件
三、其他设配领域:Google Glass、车载系统
图1:宝马公司旗下车载语音控制系统,驾驶员只要按方向盘的控制键,激活语音辅助系统,通过声音就能够发送信息、打电话以及使用其他语音指令。
图2: Google Glass。
图3:盲人阅读器。
图4:Duolingo外语学习软件,通过语音练习听说。
使用习惯分析
他们有的涉及识别,有的不涉及,但从以上这些产品中,可以发现几个有趣的现象:
1.在手机这个领域,听歌搜索这个细分领域的识别还是很准确的;
2.由于微信的教育,可以见到越来越多的人在公共场合对着手机说话,语音的沟通方式已经没有显得那么不自然了,用户习惯逐渐形成;
3.外语教学和盲人辅助类的软件都有他们的特有的市场,竞争壁垒高也容易取得了成绩;
4.其他设备领域虽然尚属新兴,但由于其设备条件和配备场景的特殊性和前瞻性,是发展渗透的趋势。
问题和解决方案
通过以上这些发现,不难看出人们在使用语音进行人机交互时遇到的问题,方便我们借助设计手段提升用户开口说话的欲望:
识别的准确率
环境噪音、硬件设备的条件、技术的限制都会降低识别的准确率,和人们表达能力的差异性以及人们理解能力的广泛性相比起来,技术和人还不能相比,因此在试过几次之后,我们说话时会变得咬文嚼字小心翼翼。
那么从交互的角度,我们将“小心翼翼”的问题拆开来细看,有一些办法可以优化甚至解决:
1.不知道对准哪里说——应用中最大的call to action语音按钮置于麦克风附近,例如iphone的麦克风在手机的下部,Siri的按钮和声波动效反馈也都在手机下部,用户自然形成对准手机下部说话的条件反射;
2.不知道何时开始/结束说话——长按进行语音录入。第一,长按作为语音录入方式已经形成用户习惯,不仅可以应用在社交软件领域,也可以应用到语音识别的场景;第二,长按对于语音录入的开始或者结尾是由人自己进行控制,相比机器判断更加准确,利于屏蔽不必要的噪音;(例如:百度语音助手Android版)
3.识别语言不清晰——进行有效的提示和引导。一种情况下识别的结果不唯一,可以通过置信区间的判断给出用户更多的结果建议,或者提供可供修改的部分和候选项来降低用户心理挫败感和降低修改成本。(例如:百度地图语音输入查找地点“鹏寰大厦”后提供的搜索建议列表)。
情感因素
人机对话过程可以拆分为三个阶段:人的语音输入→语言识别、分析→机器的回答反馈。
从体验设计的角度来思考解决方案,第一阶段尤其是在公共场合下,对着一个机器用咬文嚼字的腔调说话略显奇特,从交互的角度来看,我们可以:
1. 提供备选输入方式——键盘输入;
2. 分层收敛——进入足够垂直的场景,减少不必要的干扰因素(例如:百度语音助手“召唤小黄鸡”进入小黄鸡对话场景,在这里就是打趣,和打趣无关的一切事情皆被抛开,发挥想象力,我们可以把“打趣”换成任意一个场景);
3. 模拟已有的使用习惯。例如把电话拿到耳边这个行为,它具有足够的针对性指向打电话的场景,如锤子系统语音打电话功能,直接把电话拿到耳边说出姓名即可开始拨打电话,省去操作步骤,也免去让别人觉得自己奇怪的心理顾虑。
在人机对话过程的第三阶段机器的回答中,因机器固定的语调、缺乏情感色彩的答案等略显冰冷,可以采取拟人化的场景设计或者丰富的语音播报类型舒缓紧绷的神经。(例如:天气通提供各种方言或者明星播报天气状况,增加趣味性)
其它
而以上这些都影响着用户再次使用的行为,还有其他的一些点值得入手:
1.在产品定位的选取上,不论你是从教育的角度入手,还是帮助残障人士,亦或是完全趣味性的探索,都能找到争当居家旅行杀人灭口必备产品的手段;
2.在某些特殊场合下,肢体或视线被占用时,用语音交流也是较好的方案,如开车时提供语音对车内功能进行操作、做饭时参考菜谱等;
3.细分场景进行特殊优化,如建提醒、听播报。
新闻热点
疑难解答