人工智能 2026-04-21 来源：The Verge 13 小时前

DeepMind投下新炸弹：GATO-2通用智能体开启AI‘多面手’时代

就在昨天，谷歌旗下的人工智能研究巨头 DeepMind 再次向世界投下了一枚重磅“炸弹”。这一次，它带来的不是一个只能下棋的专家，也不是一个仅能预测蛋白质结构的工具，而是一个名为“GATO-2”的智能体。它被设计为一种“通用”的存在，能够同时理解文字、图片、声音，并基于这些理解去执行一系列复杂的任务——无论是虚拟世界里的代码调试，还是未来可能通过机器人手臂进行的物理操作。这标志着AI研究正从一个“单功能工具”时代，大踏步迈向一个试图模仿人类综合认知能力的“通用智能体”时代。 ![DeepMind GATO-2 AI](/image/news-d69fda9aaf054703af9e88c0a9ac06fc.png) **“多面手”的进化：从GATO到GATO-2** 关注AI领域的朋友可能对“GATO”这个名字并不陌生。早在2022年，DeepMind就发布了初代GATO，它已经展示出令人印象深刻的多模态能力：同一个模型，既能看图说话，也能玩雅达利游戏，还能控制机械臂。它像是一个“通才”的早期原型，证明了用一个模型处理多种任务是可行的。而这次的GATO-2，可以看作是这一理念的全面深化和规模化升级。如果说GATO是一个聪明的实习生，什么都能沾点边，那么GATO-2的目标则是成为一位经验丰富的“多面手”工程师。根据发布的信息，它的核心突破在于“跨模态理解与执行”的深度整合。它不再仅仅是“看到图生成文字”或“听到指令执行动作”这种相对线性的处理，而是能够将不同模态的信息融合成一个统一的内在“理解”，并基于此规划出一系列步骤去达成目标。举个例子，未来某天，你可以对集成在家庭机器人中的GATO-2说：“我有点冷，而且窗台上的那盆绿萝叶子黄了。”它需要同时处理你的语音（理解“冷”和“叶子黄了”）、视觉（识别窗户、绿萝及其状态），然后规划行动：先去调高空调温度，再去查看绿萝的土壤湿度，如果干燥就浇水，并可能提醒你植物可能需要施肥。这需要模型在内部将语言指令、视觉场景、物理常识和任务序列无缝衔接起来。 **技术基石：规模、架构与数据的交响曲** GATO-2的实现，并非依靠某个神秘的“银弹”算法，而是建立在对现有技术路径的极致推进和巧妙整合之上。其背后是三大支柱的协同作用。首先是**前所未有的模型规模与架构**。虽然DeepMind尚未公布GATO-2的全部参数细节，但可以预见，它必然采用了类似GPT-4等大型语言模型的Transformer架构，并进行了适应多模态任务的扩展。模型需要拥有巨大的容量，以编码从文本语法、图像特征到声音频谱的庞杂知识。更重要的是其“统一表示”的能力——将所有输入（无论文字、图像像素还是音频波形）都转化为一种通用的、模型能理解的“令牌”序列，并在同一个神经网络中进行处理。这使得不同模态的信息能够真正在“同一层面”上对话和关联。其次是**海量、高质量的多模态训练数据**。GATO-2的“智慧”来源于对互联网规模数据的吞噬。这包括万亿级别的文本、数十亿的图文对、海量的视频（可分解为图像序列和音频）以及各种模拟环境或真实机器人操作的数据集。通过在这些数据上进行预测练，模型逐渐学会了文字与图像的对应关系、动作与结果的联系、以及复杂任务中的步骤逻辑。DeepMind在数据清洗、配比和安全对齐（确保模型输出符合人类价值观）方面无疑投入了巨大精力。最后是**强化学习与规划能力的深度集成**。理解世界是一回事，在其中采取有效行动是另一回事。GATO-2不仅是一个“思想家”，更是一个“行动者”。DeepMind将其强大的强化学习研究传统融入其中，使模型能够在虚拟或物理环境中通过“试错”来学习最优策略。当面临一个复杂任务时（如“用积木搭一座桥”），它能够在内部进行模拟推演，规划出可行的步骤序列，而不是盲目尝试。 ![multimodal AI training data](/image/news-586199de5f2047ff8db59ca987798dac.jpg) **“通用”的诱惑与现实的挑战** DeepMind发布GATO-2，其象征意义和长远愿景可能比当前的具体能力更为重要。它直指人工智能的终极梦想之一：创造具有广泛适应性和学习能力的通用智能体（AGI）。GATO-2代表了在这条道路上的一次关键押注——即通过扩展多模态模型，并赋予其行动能力，是通向更通用智能的有效路径。这对于开发者和科技行业意味着什么？短期来看，它预示着一种新型的AI应用范式的到来。我们可能很快会看到，基于此类技术开发的AI助手，将能真正理解我们通过自然语言、截图、甚至手势表达的复杂需求，并调用相应的软件API或设备来完成工作。比如，你可以对未来的IDE助手说：“帮我把昨天会议上提到的那个用户登录流程优化一下，这是UI设计稿。”然后它就能理解代码上下文、设计稿意图，并生成或修改代码。然而，通往真正“通用”的道路依然布满荆棘。GATO-2目前展示的能力，很可能仍局限于其训练数据覆盖的领域和预设的任务框架内。它距离人类那种触类旁通、拥有常识和深刻物理直觉的智能还有巨大差距。**“幻觉”问题**（生成看似合理但错误的内容）在涉及多模态和行动决策时可能带来更严重的后果。此外，将这样的智能体安全、可控地部署到开放的物理世界中，面临着巨大的伦理和安全挑战。一个误解指令的聊天机器人顶多闹笑话，而一个误解指令的操作机器人则可能造成物理损害。 **生态与未来：是平台，更是新起点** 值得注意的是，DeepMind此次发布，很可能不仅仅是为了展示一个研究原型。它更可能是在为未来构建一个**通用智能体平台**打下基础。GATO-2可以成为一个“大脑”，被接入到各种“身体”中——无论是软件应用、数字人，还是实体机器人。谷歌和Alphabet庞大的产品生态（从搜索引擎、办公套件到自动驾驶和机器人公司）都将成为其潜在的试验场和应用场景。对于整个AI社区而言，GATO-2的发布是一个强烈的信号：AI研究的焦点正在从追求单项任务的“刷分”，转向构建能够综合感知、思考、行动的系统级智能。它可能会激发新一轮的研究热潮，围绕如何让大模型更好地“动手”、如何确保多模态决策的安全可靠、以及如何设计能与这类智能体高效协作的人机接口。总之，DeepMind的GATO-2不是一个终点，而是一个引人注目的新起点。它让我们真切地瞥见了未来AI的形态：不再是躲在对话框后的聊天专家，而是能够融入我们数字和物理世界，主动帮助我们处理复杂事务的多模态智能体。尽管前路挑战重重，但这场从“专用”到“通用”的漫长迁徙，已经因为它的出现，而迈出了坚实的一步。作为开发者和时代的亲历者，我们是时候开始思考，如何为这样一个“多面手”智能体的到来，准备好我们的代码、我们的产品，以及我们的伦理框架了。

加载中...

同类热点