下一代人机交互方式是语音还是手势+眼动？

太平洋科技 2024年06月03日 09:18

17年前，我们与手机之间的交互方式，是通过一个个物理按键进行点按操作，有点类似于电脑端的键盘，每一次交互，我们的手指都会接收来自按键的物理反馈。

直到iPhone的出现，这一交互方式才正式被打破。凭借多点触控技术，苹果引领整个手机行业从功能机时代过渡到了智能机时代。此时人机交互方式也发生了变化，不再是手指点击按键，而是手指直接在手机屏幕上进行滑动操作。

由此不难看出，人机交互方式每发生一次变化，手机都会迎来一次变革，甚至是改变世界。如果按照这个逻辑思考，我们下一代的人机交互方式又会是什么？虽然此前市面上出现了折叠屏手机，厂商们想要通过改变手机形态开启下一个时代，但是折叠屏手机的交互方式与传统智能机并没有太大区别，依旧是触屏操作。

这就有点类似于各式各样的功能机，外观形态各不相同，但交互方式却都是物理点按操作。

智能手机之交互探索之路

众所周知，自iPhone问世以来，人机的交互方式便停留在了触屏阶段，智能手机这一品类也已经趋于饱和。近年来，厂商们每发一次新机，每举办一次发布会，新机的核心升级点基本上都是枯燥的硬件参数升级，像是1英寸大底，高通新一代芯片、素质极高的屏幕等，这些司空见惯的升级点，对于普通消费者来说，感知并没有那么明显。

而软件层面，各大厂商开始卷AI大模型，推出了一系列AI相关的功能，包括一键消除、智慧识屏、AI翻译等。

虽然每年智能手机的硬件不断提升，软件功能也在不断丰富，但是智能手机最为核心的交互方式却从来没有变过。哪怕是曾经掀起手机智能化浪潮的苹果，也没有想出能够再次改变世界的人机交互方式。

话虽如此，但这并不代表厂商们没有继续探索下一代人机交互方式。事实上，厂商们早已开始研究全新的人机交互方式，只是这些小小的尝试被拆分成功能推送给了每台手机。

例如2011年，苹果在iPhone 4S上首次加入智能语音助手Siri，用户可以通过语音指令的形式，让Siri播报当天的天气情况、导航到某地、播放音乐等。

早期的手机语音助手，受限于硬件和技术，它们只能帮助用户完成一些简单的操作，比如设置早上7点的闹钟，以往我们需要先解锁手机，再找到时钟APP并打开，然后切换到闹钟一栏，最后再将时间调整为7点。现在，我们只需要对语音助手说一声：“帮我设置早上7点的闹钟”，闹钟就立刻设置成功了。

不可否认的是，在某些特定单一的场景下，手机上的语言助手确实为用户提供了便利性。

手机上另一种交互功能是隔空手势操作。三星在2013年推出了Galaxy S4，并首次引入隔空手势功能，用户可以通过特定的手势，在不接触手机的情况下，接听电话、翻页、页面跳转等。

其实，最早将隔空手势应用到手机的不是三星，而是索尼。索尼在2012年推出了一款名为Xperia Sola的智能机，这台手机最大的卖点在于加入了悬浮触控技术。当用户的手指距离屏幕15mm时，即可触发该功能，无需接触手机，便可实现网页操作。

与语音助手相同，早期隔空手势功能体验可以说十分糟糕，手机无法精准识别手势，以至于这项功能逐渐边缘化。但是，随着传感器和技术迭代，现在的隔空手势已经达到了非常可用的地步，同时使用场景也变得更加广泛。

举个例子，如果你想要一边洗碗一边刷抖音，在隔空手势功能出现以前，每刷新一条抖音，就需要擦一次手，不仅操作麻烦，体验还很糟糕。现在，你需要对着手机做出上下翻页的动作，便可切换至下一条抖音。

一听到眼动追踪，想必大家最先想到的是游戏本和VR头显。实际上，眼动追踪这项技术也被应用在了手机上。2023上半年，荣耀发布了Magic 5系列新机，并带来了一项黑科技「眼动追踪」。开启该功能后，如果手机收到了消息通知，用户只需将视线停留在浮窗，系统就会自动展开浮窗，再停留几秒便可开启通知。

尽管我们在手机上看到了语音、眼动、隔空手势这样的交互方式，但是它们现阶段扮演的角色更多是辅助，核心依旧是多点触控。这些小的交互功能，并不会改变所有用户的使用习惯。而且，只有在某些特定场景下，这些交互功能才有用武之地。

AI新势力，语音交互的另一种载体

如果说上述交互方式，因为将智能手机作为载体而显得大材小用，那么摆脱手机这一束缚，是否可以开启下一个人机交互时代呢？

前苹果设计师伊姆兰·乔德与妻子贝芬妮·邦杰奥诺利用AI语音交互对智能手机发出了挑战。他们创立了一家名为Humane的初创公司，并推出了旗下首款产品Ai Pin。

这款产品非常特殊，它没有屏幕，体积非常小，人机交互方式是语音和虚拟投影。在Open AI提供的大模型加持下，AI Pin对语言的理解能力和执行力要比传统语音助手强很多。但是，这样一块没有屏幕的智能可穿戴设备，虽然语音交互得到了史诗级加强，但是舍弃了手机打发碎片化时间的娱乐属性，又有多少消费者愿意去使用呢？

毋庸置疑，AI Pin确实是一款极具创新的产品，将语音交互体验提升到了一个新高度。就目前来看，这款产品只能作为手机的辅助配件，而且应用场景也非常有限。

与之相比，另一家初创公司推出的竞品倒是温和许多。Rabbit R1拥有一块2.88英寸的触摸屏，内置AI语音助手基于LAM大模型，它可以完成手机大部分功能，帮助用户简化使用APP的流程，只需输入相应的语音指令，Rabbit R1便会理解并立刻执行。不过，与AI Pin一样，Rabbit R1同样不具备娱乐属性，更多的是协助手机的配件工具。

也就是说，不管是AI Pin还是Rabbit R1，它们都不能取代手机，也不能开启下一个交互时代。这类产品只是将AI和语音交互的结合进一步细化，在系统层面赋予语音更高的权限，利用AI简化了用户使用各种APP的流程。

眼动+隔空手势，空间交互才是未来？

论创新程度，新势力品牌要比手机厂商更大胆。但是，拥有「交互之王」称号的苹果自然也没有闲着，只是不再聚焦于手机，而是将新的交互用在了自家新品类。

或许苹果也觉得手机的交互已经到头了，没有太多可以持续创新的点，反而将重心转移到了MR领域。Apple vision Pro这款设备是苹果低调多年秘密研发的集大成之作。

苹果向我们展示了空间交互的最佳方案：手势+眼动。因为这套交互逻辑更符合人们日常在三维空间与物体交互时的习惯。举个例子，当你想吃苹果的时候，你的视线会锁定苹果，然后动手去拿。这就跟Apple vision Pro的交互逻辑很像，当人眼移动到某款APP时，我们只需做一个手指捏合的动作，便可进入APP。

当其他手机厂商还在卷二维平面的交互时，苹果已经抢先一步涉足三维交互领域，要知道MR是一个非常烧钱的领域，苹果愿意持续注入研发资金去教育这个新的市场，这个胆量还是值得称赞的。毕竟按照商业的角度，为了将风险降到最低，很多公司会优先选择经过市场验证的产品或设计，而非铤而走险地走在最前列。

抛开产品，只看vision Pro这套交互，苹果的完成度还是很高的。但是，如果将vision Pro和交互放在一起来看，就变成了一个很糟糕的产品。

Apple vision Pro除了价格过于昂贵外，头显的重量、佩戴舒适度、续航能力，以及VST（视频透视）方案，并不适合普通消费者。通过机身外部摄像头捕捉外界画面，然后再投射到vision Pro内部屏幕的方案，其本身就存在一个很严重的弊端，那就是在光线不足的环境下，尤其是夜间，由于摄像头的进光量下降，vision Pro显示的画面势必会出现大量噪点，手势识别传感器的精度也会有所下降。

因此，现阶段的手势+眼动并不能开启下一个人机交互时代，这套交互方案或许只是未来的其中一种。

不是没到，就是时候未到

事实上，很多科幻电影已经向大众展示了未来的人机交互方式，虚拟投影+AI人工智能体。可以肯定的是，未来的交互方式一定是在三维空间展开，和Apple vision Pro类似，但与之不同的地方在于电影里的空间交互载体是无形的，可能是一个庞大的AI终端，也可能是一个比手机还要小巧轻便的设备，但一定不是Apple vision Pro那样厚重的头显。

科幻电影里的交互方式，是人直接与空间中的虚拟投影进行交互，同时与AI智能体展开语音对话交互。本质上就是手势+语音，因为电影里的人物不需要头显，人眼可以直接看到现实空间中的虚拟投影，所以自然也就不需要眼动追踪这样的交互技术了。

也就是说，未来的交互方式一定是空间交互。只是受限于现有技术，即便是财大气粗的苹果，也只能做出Apple vision Pro那样的产物。

归根结底，我们距离下一个人机交互时代，可能还有很长一段时间。只能说，不是不到，时候未到吧。

人机交互方式语音手势眼动

查看原文