不起眼的截图可能是打造优秀人工智能助手的关键

什么都值得读
8个月前
291
更新：2025-04-20 08:29:00

在这个充斥着人工智能工具的时代，养成一个好习惯至关重要：开始截屏。大量的截屏。截取任何事物的截图。尽管人们都在谈论语音模式、无处不在的摄像头以及万物多模态的未来，但或许没有什么数字行为比按下按钮并保存你正在查看的内容更有价值的了。

截图是捕捉数字信息最通用的方法。只需点击几下，你就可以截取几乎任何东西（这要感谢Netflix！），然后保存并分享到几乎任何设备、应用程序或个人。“这是一种便携式数据格式，”数字存储应用程序Fabric的创始人Johnny Bree说道，“没有任何其他东西如此便携，以至于你可以在任何软件之间移动。”

屏幕截图包含大量信息，例如来源、内容，甚至屏幕一角的时间显示。最重要的是，它传递了一个至关重要且复杂的信号：我关心它。我们拥有无数新的人工智能工具，它们旨在观察世界、我们的生活以及一切，并试图为我们理解这一切。这些工具大多质量低劣，原因有很多，但主要是因为人工智能非常擅长识别事物，却无法判断它们是否重要。屏幕截图赋予了系统价值，并告诉系统需要关注。

屏幕截图还能让用户掌控一切。“如果我允许你访问我的所有电子邮件、WhatsApp 消息等所有内容，那肯定会引起很多争议，”Nothing 智能手机营销主管 Mattia Deserti 说道。根本没有理由保存你收到的每封电子邮件或访问的每个网页——更不用说隐私问题了。“那么，如果你可以自己开始训练系统，向系统输入你想让系统了解的信息，情况会怎样呢？” 与Microsoft Recall 等要求无限制访问所有内容的工具不同，屏幕截图让你可以自行选择要分享的内容。

到目前为止，截图一直是一个相当不方便的工具。你截了一张图，它就被保存到相机胶卷里，然后很可能就被遗忘在那里，直到永远。（更不用说我那些不小心截的图了，大部分都是锁屏截图。）充其量，你或许能搜索到图片里的文字。但更有可能的是，你只能滚动屏幕才能再次找到它。

让截图更有用，第一步是弄清楚截图里到底有什么。乍一看，这并不复杂：光学字符识别技术早已在识别页面上的文本方面做得很好。人工智能模型更进一步，你可以搜索标题或“影片”来查找你所有的海报、Fandango 搜索结果、TikTok 推荐等数字快照。“我们使用 OCR 模型，”谷歌产品经理兼Pixel Screenshots 应用团队成员 Shenaz Zack 说道，“然后我们使用实体检测模型，再使用 Gemini 来理解屏幕的实际内容。”

瞧，截图远不止包含文字。合适的 AI 模型应该能够仅凭特定的绿色就能判断截图来自 WhatsApp。它应该能够通过标题徽标识别网站，或者理解你保存的是 Spotify 歌曲名称、Yelp 杂工评论还是亚马逊商品详情。有了这些信息，截图应用或许就能自动帮你整理所有这些图片。而这仅仅是个开始。

综上所述，我们实际上打造的是一款非常优秀的截图查看应用，但没有人觉得这是一个好主意，因为这只会增加一项需要检查的内容——或者说，很容易忘记检查。真正有趣的是，当你的设备或应用能够真正开始使用截图时，它能够帮助你记住截图的内容，甚至利用这些信息来完成一些工作。

例如，在 Nothing 的新应用 Essential Space中，该应用可以根据你保存的内容生成提醒。如果你截取了想去的音乐会的屏幕截图，它会自动提醒你音乐会即将开始。Pixel Screenshots 则将这一理念进一步拓展：如果你保存了音乐会列表，Pixel 手机可以在你下次打开 Spotify 时提示你收听该乐队的曲目。如果你截取了身份证或登机牌的屏幕截图，它可能会要求你将其输入 Wallet 应用。扎克表示，这个想法是将屏幕截图视为其他所有操作的输入系统。

艺术家诺克斯的三张截图以及他的巡回演唱会日期。截取你喜欢的乐队的截图是一回事，但之后能够再次找到他们又是另一回事。图片：David Pierce / The Verge 独立开发者 Mike Choi 开发了一款名为Camp的应用，部分原因是为了更好地利用自己的截图。他开始致力于将每张截图变成一张“卡片”，将重要的信息与图片一起存储。“你截一张截图，底部有一个按钮，按下按钮就可以翻转卡片，”他说道，“如果是地点，卡片会显示地图；如果是歌曲，卡片会显示歌曲的预览。我们的想法是，面对无限多的不同类型的截图，AI 能否动态地为该类别生成完美的 UI？”

如果这一切听起来很熟悉，那是因为这里发生的事情还有另一个术语：代理人工智能。科技界的每家公司似乎都在研究如何使用人工智能来代表你完成任务。只是在这种情况下，你不必写长篇提示或与助手来回聊天。你只需截取屏幕截图，然后让系统开始工作。“你正在构建一个知识库，而今天这个知识库仅限于你的图库，没有任何作用，”Deserti 说。他很高兴能够实现这一点：你截取一张音乐会日期的屏幕截图，Essential Space 就会在门票开始发售时自动提示你购买。

理解屏幕截图并不总是那么简单。有些东西你想永久保存，比如你可能经常需要的身份证；而其他东西，比如演唱会海报或停车证，保存期限则极其有限。话说回来，一个应用程序该如何区分你每天上班时用的停车证和你在机场用过一次就再也不需要的停车证呢？我手机上的一些截图是通过 WhatsApp 发送给我的；其他一些截图是我从 Instagram 上截取的，然后发给朋友。任何人都不应该完全拿相机胶卷来对付自己，截图也是如此。很多截图应用程序都在想方设法提示你添加注释或自行整理内容，以便为系统提供一些额外的有用信息。但要做到这一点而不破坏截图最初无缝便捷的特性，却很难。

解决这个问题的一个方法，让截图更加自动化地发挥作用，就是从你的设备中收集一些额外的上下文信息。这正是谷歌和 Nothing 等公司的优势所在：因为他们制造了设备，所以他们可以看到你截图时发生的一切。如果你从网页浏览器中截取截图，他们还可以存储你正在查看的链接。他们还可以查看你的实际位置，或者记录时间和天气。有时这些功能很有用，但有时却毫无意义；他们收集的数据越多，这些应用就越有可能陷入截图最初帮助解决的噪音问题。

但输入系统确实有效。我们每个人都会截图，而且习惯于用截图来标记各种有用的信息。获取这类相关的个性化数据是打造优秀AI助手最难的事情。计算的未来无疑是多模态的，包括摄像头、麦克风和各种传感器。但AI的最佳使用方式或许是一次截图。