增强现实、AIGC、语言模型全线发力，苹果Apple Vision Pro“出场即王炸”

北京时间6月6日凌晨，苹果WWDC 2023全球开发者大会正式开幕，作为苹果一年一度的开发者盛会，不仅迎来了iOS、iPadOS、tvOS、macOS、watchOS等一系列新系统以及新技术的发布，同时也迎来了M2 Max、M2 Ultra两款桌面级芯片，预示着苹果Mac产品线开始全面转向自研芯片。

而作为“One more thing”登场的Apple Vision Pro，更是将所有人的兴趣点直接引向高潮，成为近年来最受关注的苹果产品。

Apple Vision Pro杀入XR市场，苹果“出场即王炸”

作为几乎不在人前提及“元宇宙”的苹果公司，如今靠着Apple Vision Pro杀入元宇宙领域，不得不让行业感叹，其作为全球市值最高的科技公司，那令行业望尘莫及的产品设计能力，与品牌号召力。

苹果公司CEO库克表示，“Apple Vision Pro将带我们进入空间计算时代，这是一个伟大历程的起点，一个强大个人化科技的全新维度。”

首先在设计上，Apple Vision Pro采用了环绕式的头带设计，相比市面上XR很多为了分摊重量而采用顶部头带式的“发型毁灭者”设计，对于烫头爱好者来说要友好得多。

而为了解决XR产品的“沉浸感”难题，苹果用做VR头显的方式，打造了一台AR头显。Apple Vision Pro完全放弃传统AR眼镜显示画面与现实场景叠加的方式，转而采用摄像头捕捉场景，并通过内置双目定制的高素质Micro-OLED屏幕映射现实场景，实现了视频上的“通透模式”。这样做，成功避免了传统AR头显在强光下显示不清晰的问题。

当然，用户还可以通过拨动数码旋钮，实现现实场景与虚拟场景的切换，当用户切换至虚拟场景中，就仿佛在视觉上开启了“降噪模式”，大幅提升了使用的沉浸感。

虽然实现形式与目前VR行业普遍采用的VST（Video See Through，视频透视）功能并无二致，但苹果在传感器的堆料上，却可以用“丧心病狂”来形容。

Apple Vision Pro正面共搭载了6颗常规摄像头、2颗深感摄像头、2颗红外发射器，以及一颗LiDAR（光学雷达）构成，能够以极高的速度捕捉外部场景与手部动作。内部则由4颗红外摄像头以及LED照明模组构成，用以捕捉眼神的移动。此外机身内部还内置了5枚传感器与6个麦克风，分别进行用户头部动作和声音的捕捉。

而想要同时驱动大量的传感器，苹果还从芯片层面开始定制，为Apple Vision Pro搭载了M2芯片，强大的算力能够执行先进的计算机视觉（CV）算法，全新的R1芯片专门负责处理来自摄像头、传感器和麦克风的输入，将图像在12毫秒内传输到显示屏上，实现几乎无延迟、实时的视界观感。这也让Apple Vision Pro实现了不需要额外的手柄外设，仅通过头显对于眼神、手指、语音的捕捉，便可以实现大部分的操作。

另外，Apple Vision Pro所搭载的M2芯片，更是为设备提供了强大的性能。相比市面XR设备普遍采用的高通骁龙XR2芯片，M2的CPU性能是前者的2.5倍，GPU性能更是前者的5倍。配合深感镜头，Apple Vision Pro能够直接录制3D视频。

至于佩戴XR设备时的“社交”难题，苹果给出的答案是“EyeSight”功能，通过一块向外的屏幕，可以展示你的眼睛，让附近的人知道你是否在使用应用程序或完全沉浸在体验中。而当有人接近时，Vision Pro会在画面中让用户看到对方，并向他们展示眼神。用眼神的专注，解决社交的尴尬。

事实上，在速途元宇宙研究院看来，Apple Vision Pro相对于XR 行业现有困局的多点突破，源自于“不惜成本”：一个软硬件实力皆强劲的企业，在产品上死命堆料的结果，而代价是3499美元的高昂售价，这也充分体现了苹果强大的行业号召力，以及充足的现金流，给予了苹果定价的勇气。

而Apple Vision Pro的发布，也给了行业一些思考：我们看似始终到达不了的那个“元宇宙”，并非遥不可及，只是我们需要更多的能量，用产品改变世界的能量。

内卷改变不了世界，但创新可以。

Apple Vision Pro将于2024年年初逐步开售，高昂的价格以及近一年的准备期，也为其他XR企业预留了发展的空间。一方面，苹果在等待开发者构建成熟生态的时间里，也为其他厂商提供了产品转向的机会；另一方面，3499美元之下，充分的定价空间，也让更多XR厂商们能够现在现有的技术条件下，做出Cost Down的产品，丰富XR市场，带来XR市场的繁荣。

除了惊艳的Apple Vision Pro，作为目前大热的AI技术领域，苹果也小小地秀了一下肌肉，发布了多项基于AIGC、语言模型、机器学习等方面的技术，展示了苹果这家看似平时不怎么与AI搭边的公司，不容小觑的AI实力。

AIGC、语言模型技术亮相，苹果AI积累不容小觑

AIGC生成人像

在使用Apple Vision Pro进行FaceTime视频通话时，由于没有朝向用户的摄像头，而用户佩戴XR设备，也会让用户看上去非常奇怪。为此，苹果通过Apple Vision Pro前置镜头扫描人脸信息，基于机器学习技术，系统会使用先进的编码神经网络，为用户生成一个“数字分身”，并动态模仿用户的面部和手部的动作，甚至可以保留数字分身的体积感和深度。使用的简易性和效果甚至超越了目前市面上的一部分数字分身软件。

更加智能的输入法

众所周知，XR行业目前最受诟病的困局之一，便是输入方式的匮乏，无论是手柄的单键输入，还是浮空键盘的输入方式，无论在效率与精度上，相比实体键盘，体验都十分糟糕。

而Apple Vision Pro主要互动方式为眼神、手势和语音，这就意味着语音输入可能将成为Apple Vision Pro最主要的键入方式之一。

虽然苹果并没有在Apple Vision Pro介绍中强调输入法，但是在iOS 17的介绍中则提到了更加智能的输入法，不仅可以纠正拼写错误，甚至还可以纠正用户在输入过程中的语法错误。自动更正的单词会被临时下划线标记，让用户清晰地知道哪些单词被更改了，并且只需轻触一下即可恢复到原始单词。

更为重要的是，基于设备端的机器学习，输入法还会根据用户每一次的键入自动改进模型。将输入法的自动纠正功能达到了前所未有的准确度。此外，基于最前沿的单词预测Transformer语言模型，单词联想功能可以非常快速地输入下一个词，甚至是完整的句子。

而这种极为个性化的语言预测模型，也可以让输入法更加了解用户的语言习惯，也能在用户使用语音，输入的时候大幅提高输入的准确性。

全新的“手记”App

伴随iOS 17发布的，还有全新的“手记（Journal）”App，能够利用设备上的机器学习技术，根据用户的照片、音乐、锻炼等信息为您创建个性化的回忆和写作建议。App会根据这些信息为您提供适合您的时刻进行记录和书写的建议。

这意味着基于iPhone的算力，设备已经能够部署本地化处理文字、图片等多媒体内容的语义理解能力，同时具备一定的生成式AI功能。

场景与动作识别能力

除此之外，例如空间音频的计算、眼球动作以及手部行为的捕捉，这些也是人工智能技术所发力的领域，苹果凭借着M2和R1两颗芯片提供的算力支撑，实现了人工智能顺利的本地化部署，充分体现了苹果在消费电子领域人工智能应用的能力。

尽管在WWDC 2023上，苹果并未过度强调其AI能力，但从产品功能的方方面面来看，其AI能力却已经深入渗透到其产品的各个细节中，成为改进用户体验的重要手段。作为全球最具影响力的科技公司之一，尽管苹果没有过多宣传其在人工智能方面的成就，但你苹果擅长一鸣惊人的产品风格来看，其在人工智能领域的实力仍然不容小觑。