iOS最强AI「视觉智能」，苹果AI眼镜的前哨

• 2024-11-15 09:57:00 • 阅读

在 iOS 18.2 Beta 2 上，苹果 Visual Intelligence（视觉智能）正式登场。

作为 Apple Intelligence 的一部分，Visual Intelligence 是 iPhone 16 系列上的「独占」功能。主要通过 iPhone 16系列上新增的相机按钮，利用摄像头捕捉物理世界的对象，并通过大模型分析有关该物体的「深度和有用信息」。

例如，拍摄餐厅的照片，用户可以立即获得其营业时间、评价和菜单等详细信息；拍摄活动传单的照片，该工具可以提取并整理重要详细信息，例如活动的名称、日期和地点。

Visual Intelligence 配合 iPhone 16 系列的相机按钮，具有免解锁、一键 AI 的特性，相对之前的 iPhone 或其他设备而言，具有更高效率。

基于 Visual Intelligence ，苹果也为接下来的 AI、AR 眼镜做了足够的技术铺垫、场景探索与用户习惯的养成。Ray-Ban Meta 已经证明了 AI 眼镜技术路径的可行性，苹果也于近日启动了代号为「Atlas」的智能眼镜项目，一场巨变正在酝酿。

Visual Intelligence ，以摄像头为核心的「空间GPT」
相对文字形式，图形图像属于典型的空间数据，是人们日常获取信息最主要的方式。Visual Intelligence 的出现，让这种信息获取现在有了更数字化的方式。

海外媒体在 iOS 18.2 Beta 的评测信息显示，当 Visual Intelligence 界面打开时，只需点击相机快门按钮即可拍照。然后，用户可以点击屏幕上的按钮向 ChatGPT 询问图片，也可以按搜索按钮启动 Google 搜索。用户可以选择在没有帐户的情况下使用 ChatGP；如果不登录，请求将保持匿名。

从下方的三张图中，分别展示了利用 Visual Intelligence 进行「识别物体」，「计算食物卡路里」，以及「提取重要信息」的场景，不管是利用「物体图片进行检索文字信息」，还是利用「图片上的文字检索更深度的图片、文字信息」，Visual Intelligence 都能很好地给出答案。

不同的是，一些是显而易见的基础信息，一些是需要网络数据的挖掘匹配，还有一些是需要持续对话进行挖掘。当然，这些取决于前置的 Prompt，如果有更完善的 AI 工作流设定，相信它会基于每种不同的物体，甚至不同的用户，给出千人千面的答案。如：当识别图片物体为「食物」时，自动去分析它的「卡路里」以及相关营养信息，而不仅仅是告诉我，它是什么，将会进一步提升效率。

图源：CNET

图源：Future

免责声明：本站所有内容不构成投资建议，币市有风险、投资请慎重。
- FTFTX资讯