1、智能体Gato简介

最近,Deepmind发布了一个通用性的智能体:Gato,其在西班牙语中的含义为“猫”。按照DeepMind的说法,Gato可以使用具有相同权重的同一个神经网络,能学习到各种不同模式的数据,实现了聊天、视图等任务,甚至还能在现实环境里控制机械臂,真正达到了通用智能。此杀器一出,震惊四座,无不对Deepmind竖起来大拇指。

2、智能体Gato原理介绍

Gato的训练数据集十分广泛,包括不同模态的各色数据,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。为了能够处理这种多模态数据,Deepmind将所有数据序列化为一个扁平的token序列。在这种表示中,Gato可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的token会根据上下文组合成对话响应、字幕、按钮按下或其他动作。看到这里,我们已经明白了,这是一个action-env-state的强化学习模型。下图为Gato的训练流程:

在Gato的训练阶段,来自不同任务和模态的数据被序列化为扁平的token序列,由一个类似于大型语言模型的transformer神经网络进行深度学习。

DeepMind的这项最新工作将强化学习、计算机视觉和自然语言处理这三个领域合到一起,虽然技术思路上沿用了前人的方法,但能将CV、NLP和RL这三个不同模态映射到同一个空间,用一套参数表达,还是非常不容易的。

3、智能体Gato与Transformer

正如Deepmind所言:我们受到语言大模型Transformer的启发,用类似的方法把模型能力拓展到文本之外的领域。这次立功的又是语言大模型中常用的Transformer架构。Transformer的本质就是把一个序列转换(transform)成另一个序列。文本自不必说,天然就是序列信息;对于图像而言,可以先按nxn像素分割,再给每个像素块编上号处理成序列;玩游戏时的按键输入同样是序列,操纵机器人时的传感器信号和关节力矩属于连续值,也通过一系列采样和编码处理成离散序列;最终,所有序列数据都交给同一个Transformer处理。

4、飞燕点评

看到 Gato 的释出,我感到非常高兴,这是强化学习领域的有一大步,也是 transformer 的有一大步,这两个技术都是我所喜欢的技术。关于 Gato 模型,我打算在【飞燕动手实战联盟】和【飞燕外包联盟】开个公开课,给大家说一下,欢迎大家的关注。