下一代人机交互方式是语音还是手势+眼动?

太平洋科技 2024年06月03日 09:18

      17年前,我们与手机之间的交互方式,是通过一个个物理按键进行点按操作,有点类似于电脑端的键盘,每一次交互,我们的手指都会接收来自按键的物理反馈。

      直到iPhone的出现,这一交互方式才正式被打破。凭借多点触控技术,苹果引领整个手机行业从功能机时代过渡到了智能机时代。此时人机交互方式也发生了变化,不再是手指点击按键,而是手指直接在手机屏幕上进行滑动操作。

      由此不难看出,人机交互方式每发生一次变化,手机都会迎来一次变革,甚至是改变世界。如果按照这个逻辑思考,我们下一代的人机交互方式又会是什么?虽然此前市面上出现了折叠屏手机,厂商们想要通过改变手机形态开启下一个时代,但是折叠屏手机的交互方式与传统智能机并没有太大区别,依旧是触屏操作。

      这就有点类似于各式各样的功能机,外观形态各不相同,但交互方式却都是物理点按操作。

      智能手机之交互探索之路

      众所周知,自iPhone问世以来,人机的交互方式便停留在了触屏阶段,智能手机这一品类也已经趋于饱和。近年来,厂商们每发一次新机,每举办一次发布会,新机的核心升级点基本上都是枯燥的硬件参数升级,像是1英寸大底,高通新一代芯片、素质极高的屏幕等,这些司空见惯的升级点,对于普通消费者来说,感知并没有那么明显。

      而软件层面,各大厂商开始卷AI大模型,推出了一系列AI相关的功能,包括一键消除、智慧识屏、AI翻译等。

      虽然每年智能手机的硬件不断提升,软件功能也在不断丰富,但是智能手机最为核心的交互方式却从来没有变过。哪怕是曾经掀起手机智能化浪潮的苹果,也没有想出能够再次改变世界的人机交互方式。

      话虽如此,但这并不代表厂商们没有继续探索下一代人机交互方式。事实上,厂商们早已开始研究全新的人机交互方式,只是这些小小的尝试被拆分成功能推送给了每台手机。

      例如2011年,苹果在iPhone 4S上首次加入智能语音助手Siri,用户可以通过语音指令的形式,让Siri播报当天的天气情况、导航到某地、播放音乐等。

      早期的手机语音助手,受限于硬件和技术,它们只能帮助用户完成一些简单的操作,比如设置早上7点的闹钟,以往我们需要先解锁手机,再找到时钟APP并打开,然后切换到闹钟一栏,最后再将时间调整为7点。现在,我们只需要对语音助手说一声:“帮我设置早上7点的闹钟”,闹钟就立刻设置成功了。

      不可否认的是,在某些特定单一的场景下,手机上的语言助手确实为用户提供了便利性。

      手机上另一种交互功能是隔空手势操作。三星在2013年推出了Galaxy S4,并首次引入隔空手势功能,用户可以通过特定的手势,在不接触手机的情况下,接听电话、翻页、页面跳转等。

      其实,最早将隔空手势应用到手机的不是三星,而是索尼。索尼在2012年推出了一款名为Xperia Sola的智能机,这台手机最大的卖点在于加入了悬浮触控技术。当用户的手指距离屏幕15mm时,即可触发该功能,无需接触手机,便可实现网页操作。

      与语音助手相同,早期隔空手势功能体验可以说十分糟糕,手机无法精准识别手势,以至于这项功能逐渐边缘化。但是,随着传感器和技术迭代,现在的隔空手势已经达到了非常可用的地步,同时使用场景也变得更加广泛。

      举个例子,如果你想要一边洗碗一边刷抖音,在隔空手势功能出现以前,每刷新一条抖音,就需要擦一次手,不仅操作麻烦,体验还很糟糕。现在,你需要对着手机做出上下翻页的动作,便可切换至下一条抖音。

      一听到眼动追踪,想必大家最先想到的是游戏本和VR头显。实际上,眼动追踪这项技术也被应用在了手机上。2023上半年,荣耀发布了Magic 5系列新机,并带来了一项黑科技「眼动追踪」。开启该功能后,如果手机收到了消息通知,用户只需将视线停留在浮窗,系统就会自动展开浮窗,再停留几秒便可开启通知。

      尽管我们在手机上看到了语音、眼动、隔空手势这样的交互方式,但是它们现阶段扮演的角色更多是辅助,核心依旧是多点触控。这些小的交互功能,并不会改变所有用户的使用习惯。而且,只有在某些特定场景下,这些交互功能才有用武之地。

      AI新势力,语音交互的另一种载体

      如果说上述交互方式,因为将智能手机作为载体而显得大材小用,那么摆脱手机这一束缚,是否可以开启下一个人机交互时代呢?

      前苹果设计师伊姆兰·乔德与妻子贝芬妮·邦杰奥诺利用AI语音交互对智能手机发出了挑战。他们创立了一家名为Humane的初创公司,并推出了旗下首款产品Ai Pin。

      这款产品非常特殊,它没有屏幕,体积非常小,人机交互方式是语音和虚拟投影。在Open AI提供的大模型加持下,AI Pin对语言的理解能力和执行力要比传统语音助手强很多。但是,这样一块没有屏幕的智能可穿戴设备,虽然语音交互得到了史诗级加强,但是舍弃了手机打发碎片化时间的娱乐属性,又有多少消费者愿意去使用呢?

      毋庸置疑,AI Pin确实是一款极具创新的产品,将语音交互体验提升到了一个新高度。就目前来看,这款产品只能作为手机的辅助配件,而且应用场景也非常有限。

      与之相比,另一家初创公司推出的竞品倒是温和许多。Rabbit R1拥有一块2.88英寸的触摸屏,内置AI语音助手基于LAM大模型,它可以完成手机大部分功能,帮助用户简化使用APP的流程,只需输入相应的语音指令,Rabbit R1便会理解并立刻执行。不过,与AI Pin一样,Rabbit R1同样不具备娱乐属性,更多的是协助手机的配件工具。

      也就是说,不管是AI Pin还是Rabbit R1,它们都不能取代手机,也不能开启下一个交互时代。这类产品只是将AI和语音交互的结合进一步细化,在系统层面赋予语音更高的权限,利用AI简化了用户使用各种APP的流程。

      眼动+隔空手势,空间交互才是未来?

      论创新程度,新势力品牌要比手机厂商更大胆。但是,拥有「交互之王」称号的苹果自然也没有闲着,只是不再聚焦于手机,而是将新的交互用在了自家新品类。

      或许苹果也觉得手机的交互已经到头了,没有太多可以持续创新的点,反而将重心转移到了MR领域。Apple vision Pro这款设备是苹果低调多年秘密研发的集大成之作。

      苹果向我们展示了空间交互的最佳方案:手势+眼动。因为这套交互逻辑更符合人们日常在三维空间与物体交互时的习惯。举个例子,当你想吃苹果的时候,你的视线会锁定苹果,然后动手去拿。这就跟Apple vision Pro的交互逻辑很像,当人眼移动到某款APP时,我们只需做一个手指捏合的动作,便可进入APP。

      当其他手机厂商还在卷二维平面的交互时,苹果已经抢先一步涉足三维交互领域,要知道MR是一个非常烧钱的领域,苹果愿意持续注入研发资金去教育这个新的市场,这个胆量还是值得称赞的。毕竟按照商业的角度,为了将风险降到最低,很多公司会优先选择经过市场验证的产品或设计,而非铤而走险地走在最前列。

      抛开产品,只看vision Pro这套交互,苹果的完成度还是很高的。但是,如果将vision Pro和交互放在一起来看,就变成了一个很糟糕的产品。

      Apple vision Pro除了价格过于昂贵外,头显的重量、佩戴舒适度、续航能力,以及VST(视频透视)方案,并不适合普通消费者。通过机身外部摄像头捕捉外界画面,然后再投射到vision Pro内部屏幕的方案,其本身就存在一个很严重的弊端,那就是在光线不足的环境下,尤其是夜间,由于摄像头的进光量下降,vision Pro显示的画面势必会出现大量噪点,手势识别传感器的精度也会有所下降。

      因此,现阶段的手势+眼动并不能开启下一个人机交互时代,这套交互方案或许只是未来的其中一种。

      不是没到,就是时候未到

      事实上,很多科幻电影已经向大众展示了未来的人机交互方式,虚拟投影+AI人工智能体。可以肯定的是,未来的交互方式一定是在三维空间展开,和Apple vision Pro类似,但与之不同的地方在于电影里的空间交互载体是无形的,可能是一个庞大的AI终端,也可能是一个比手机还要小巧轻便的设备,但一定不是Apple vision Pro那样厚重的头显。

      科幻电影里的交互方式,是人直接与空间中的虚拟投影进行交互,同时与AI智能体展开语音对话交互。本质上就是手势+语音,因为电影里的人物不需要头显,人眼可以直接看到现实空间中的虚拟投影,所以自然也就不需要眼动追踪这样的交互技术了。

      也就是说,未来的交互方式一定是空间交互。只是受限于现有技术,即便是财大气粗的苹果,也只能做出Apple vision Pro那样的产物。

      归根结底,我们距离下一个人机交互时代,可能还有很长一段时间。只能说,不是不到,时候未到吧。

      人机交互方式    语音    手势 眼动