Transformer论文最后一名作者从谷歌离职

2017年12月,谷歌的8位研究人员发表了一篇论文 Attention is All You Need。

Transformer论文最后一名作者从谷歌离职插图

文章概要如此开头:“当前主流的序列转换模型,基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。性能最优秀者,还通过注意力机制连接编码器和解码器。我们提出了一种全新的简单网络架构,即Transformer,它完全基于注意力机制,完全摒弃了循环和卷积。”

这篇提出了Transformer架构的论文,奠定了今天生成式人工智能和大模型的基石。

如今,其中的Llion Jones即将离开谷歌日本,成为这8位作者中,最后一位离开谷歌的。他休息一阵子后,将创办自己的公司。

其余的7个人都去哪儿了?基本上不是在OpenAI做大模型,就是创业做大模型,属于这个领域估值最高的公司。

从风险资本到科技大厂,现在都在卷AI论文,直接去抓论文作者了。不知道我们所选的这些论文的作者,会有多少被卷走。

以下节选自未尽研究与启明创投联合发布的报告《生成式AI》的“前沿研究”部分,解读了2023上半年最重要的人工智能论文:

大模型的“慢思考”

在生成式 AI 的各种基础模型中,GPT-4 至今仍代表了最高的水准,人工智能研究者们还在忙于地发表测试的论文与报告,试图理解涌现出来的智能。

微软的测试论文指出:GPT-4 展示出比以前的 AI 模型更具普适性的智能。我们讨论了这些模型不断提升的能力和其所带来的影响。我们展示了除了掌握语言之外,GPT-4 能够在数学、编码、视觉、医学、法律、心理学等涵盖了新颖且困难的任务中进行解决,而无需任何特殊提示。此外,在所有这些任务中,GPT-4 的表现与人类水平的表现非常接近,往往远远超过了 ChatGPT 等先前的模型。鉴于 GPT-4 的广度和深度,我们认为它可以合理地被视为人工通用智能(AGI)系统的早期(尽管仍不完整)版本。1

Transformer论文最后一名作者从谷歌离职插图1

该研究提出了通往通用人工智能,未来大模型需要解决的一些问题,也构成了研究的方向:信心校准、长期记忆、持续学习、个性化、规划和概念跨越、透明度、认知谬误和非理性、对输入的敏感性挑战,等等。而过去半年最重要的研究方向,是破解和理解大模型神秘而又令人兴奋的智能“涌现”。大模型既需要超越对下一个词的预测能力,也需要一个更丰富、更复杂的“慢思考”深层机制,来监督“快思考”预测下一个词的机制。

预训练几乎可以产生所有大模型的知识,只需要有限的指令调整数据,就可以指导模型产生高质量的输出。2 而调动大模型的智能,发现其泛化能力的新领域,可以用更有效率的方式,如用直接偏好优化(DPO)的算法,训练和微调的过程大为简化。3

可以说大模型的成功,在于捕捉词汇之间的大量统计相关性,但实验表明,大模型在发现因果关系的表现方面,有时甚至不及随机猜测。4 克服这些局限,还是需要继续引导大模型正确的思考方法,或者借助外部的资源。一种新的语言模型推理框架,“思想之树”(ToT),在流行的“思想链”方法的基础上进一步发挥,允许大模型通过考虑多个不同的推理路径和自我评估选择来进行深思熟虑的决策,以决定下一步行动方向,以及在必要时进行预见或回溯以做出全局选择。5 此外,还有大模型可以自己编写API调用,这些生成和执行代码的能力,可以减轻幻觉问题,增加了输出的可靠性和适用性。但也可能带来一些控制大模型方面的风险。6

还有研究人员提出了基于 Transformer 训练出来的推理模块,可以在大模型上即插即用,改善其推理能力。7

大型语言模型理解人类常识推理,还往往取决于其“情商”,即理解人类的信念、目标和心理状态,这被称为心智理论(ToM)任务。适当的提示可以提升大模型的心智推理能力(甚至共情能力),对上下文的依赖非常重要。8

此外,研究人中同学发现了节省计算资源的训练方法,有的能提升 2 倍的效率。9

最后,是训练大模型的数据问题:由人类原生的数据,将来可能会越来越稀缺;高质量的自然语言数据,最快有可能到2026 年就被大语言模型耗尽。10

一项数据众包的研究,发现其中 30%-40% 来自承包者使用大模型获取的数据。这就产生了大模型喂自己数据的问题,就像一条蛇,它咬住了自己的尾巴,要把自己整个吞下。11

但随着大模型在人们生活和工作中作用日益重要,合成数据在大模型训练中的数据来源占比越来越大。如用扩散模型的合成数据,可以提升 ImageNet 中分类的准确度。12

1. “Sparks of Artificial General Intelligence: Early experiments with GPT-4,Microsoft Research 2. LIMA: Less Is More for Alignment

3. Direct preference optimization: your language model is secretly a reward model

4. Can Large Language Models Infer Causation from Correlation?

5. Tree of Thoughts: Deliberate Problem Solving with Large Language Models

6. Gorilla : large languge models connected with massive APIs

7. Tart: A plug-and-play Transformer module for task-agnostic reasonin

8. Boosting Theory-of-Mind Performance in Large Language Models via Prompting

9. Sophia: a Scalable Stochastic Second-Order Optimizer for Language Model Pre-training

10. Will We Run Out of Data? An Analysis of the Limits of Scaling Datasets in Machine Learning

11. Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks

12. Synthetic Data from Diffusion Models Improves ImageNet Classification

开源

Meta 于 2 月份推出了一个开源大模型 LLaMA ,这个模型原本只对从事大模型研究社区开放,但很快在社交网站上泄露,迅速流行开来。已经被公认超过了 GPT3。在此基础上,微调出了一个开源模型的“羊驼家族”。与此同时,一份谷歌内部文件泄露,称面对正在兴起的开源大模型,闭源大模型并没有任何门槛。这样,开源大模型能否达到闭源大模型的水平?如何实现大模型技术的民主化,以及更垂直,更小型,更个人化。各种测试与研究,形成了一个热点。

开源模型四年来进步不大?

大模型层出不穷,开源的模型更是令人目不暇接,但是这些模型的水平如何?需要严谨科学的测试。阿里的达摩院和新加坡国立大学的研究团队,用 2019 年的 T5 开源大模型与当下比较流行的开源模型进行测试比较,结果显示:写作能力有提升,但在解决问题和对齐方面还有差距。四年了,开源的模型似乎并没有明显的进步,目前的开源社区已经展开了疯狂的模型开发,但也要建立起对其表现评价的标准。1

模仿不是开源的出路

能否通过模仿大模型,让较弱的开源模型获得闭源大模型应用(如 ChatGPT) 的能力?研究者对一系列模仿 ChatGPT的语言模型进行了微调,使用不同的基础模型大小(1.5B 至13B)、数据源和模仿数据量(0.3M 至 150M 标记)。然后使用众包评估者和经典的自然语言处理基准对这些模型进行评估。

最初,模仿模型的输出质量有些惊艳――它们在遵循指令方面表现出色,输出与 ChatGPT 相媲美。然而,在进行更有针对性的自动评估时发现,在没有大量模仿数据支持的任务中,模仿模型在缩小基础模型与 ChatGPT 之间的差距方面几乎没有任何作用。模仿者只擅长模仿 ChatGPT 的风格,但无法模仿其真实性。

总体而言,模型模仿是一个虚假的承诺:开源模型与闭源模型之间存在着相当大的能力差距,当前的方法只能通过更大量的模仿数据或使用更强大的基础模型来弥合这一差距。因此,改进开源模型的最有效策略是开发更好的基础模型,而不是采取模仿闭源大模型的捷径。2

要模仿,就模仿推理

小模型利用大模型生成的输出,来对自己进行解释调整,这种模仿学习,看起来能让增强小模型事半功倍。但也要看情况。如果小模型只是获得大模型浅层输出的有限模仿信号、规模较小且同质化的训练数据,以及缺乏严格的评估导致高估能力,小模型往往只学习模仿大模型的风格而不是推理过程。为了解决这些挑战,微软团队开发了 Orca,一个拥有130 亿参数的模型,学习模仿 GPT-4 的推理过程。

这样,小模型获得了丰富的信号,包括解释痕迹、逐步思考过程和其他复杂指令,同时借助 ChatGPT 的指教,还利用了大规模和多样化的模仿数据进行谨慎的采样和选择。结果在一些测评和专业考试中,Orca 胜过了最好的开源模型、达到了 ChatGPT 的水平,接近了 GPT-4 的水平。3

华盛顿大学博士生 Tim Dettmers 带领的团队,提出了一种高效的微调方法 QLORA,足够降低内存使用量,能在单个48GB 的 GPU 上微调一个有 650 亿参数的模型。4

当音乐不再是“天籁”

Meta 在 GitHub 上以开源方式发布了 AI 音乐生成模型 MusicGen 的 代 码, 该 AI 模型利用 Transformer 架构,可以根据文本和旋律提示创作音乐。与 Riffusion、Mousai、MusicLM 和 Noise2Music 等其他音乐模型相比,MusicGen 在音乐与文本之间的匹配度以及作曲的可信度等客观和主观指标上表现得更加优异。5

1. INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

2. The False Promise of Imitating Proprietary LLMs

3. Orca: Progressive Learning from Complex Explanation Traces of GPT-4

4. Qlora: Efficient Finetuning of Quantized LLMs

5. Simple and Controllable Music Generation

智能代理

使用大型语言模型作为核心控制器构建代理是一个很酷的新兴概念。除了下述论文之外,另外有几个概念证明演示,如AutoGPT、GPT-Engineer 和 BabyAGI,都是鼓舞人心的例子。大模型的潜力超越了生成优秀的复制品,故事,论文和程序;它可以被构架为一个强大的通用问题解决器。

科学研究的智能助理

来自卡内基梅隆大学的研究人员提出了一个 Intelligent Agent(以下简称 Agent)系统,结合了多个大型语言模型, 用于自主设计、规划和执行科学实验。1

Transformer论文最后一名作者从谷歌离职插图2

系统架构概述。代理由多个模块组成,这些模块交换消息。其中一些模块可以访问API、互联网与Python解释器。

模拟人生,模拟社会

智能代理除了帮助人类完成较复杂的任务之外,代理之间也可能产生互动。生成代理(generative agents)是一种模拟逼真人类行为的计算软件代理。为了实现生成代理,需要一种架构,将大型语言模型扩展到使用自然语言存储代理经历的完整记录,随着时间的推移,将这些记忆综合成更高层次的反思,并动态地检索它们以规划行为。斯坦福和谷歌的研究团队实例化了生成代理,在一个受《模拟人生》启发的交互式沙盒环境里,用户可以使用自然语言与 25 个代理居民进行交互。在评估中,这些生成代理产生了可信的个体行为和群体行为:例如,仅从用户指定的一个概念开始,即一个代理想要举办情人节派对,代理在接下来的两天内自主地传播派对的邀请,结识新朋友,相互约会参加派对,并协调好在正确时间一起出现在派对上。实验证明了代理架构的观察、规划和反思组件对于代理行为的逼真性至关重要。通过将大型语言模型与计算机交互代理融合在一起,这项工作引入了一种架构和交互模式,实现了逼真的人类行为模拟。2

游戏中的生命体:活到老,学到老

Voyager 是第一个由 LLM 驱动、可以终身学习的具身智能体。英伟达团队在之前关于代理在 Minecraft 中玩游戏的研究基础上进行了改进。他们利用 GPT-4 为代理开发了一个课程和构建工具库的方法。这极大地加快了学习速度,并带来了更高质量的解决方案。它可以利用 GPT-4 不停地探索世界,开发越来越复杂的技能,并始终能在没有人工干预的情况下进行新的发现:发现新物品、解锁 Minecraft 技术树、穿越多样化地形,以及将其学习到的技能库应用于新生成世界中的未知任务方面,Voyager 表现出了优越的性能。3

1. Emergent Autonomous Scientific Research Capabilities of Large Language Models

2. Generative Agents: Interactive Simulacra of Human Behavior

3. Voyager: An Open-Ended Embodied Agent with Large Language Models

多模态

多模态指的是机器学习模型可以处理和理解多种类型的数据,如文本、图像、音频和视频等。在现实世界中,信息是通过多种模态传递的,因此一个能处理和理解这些不同类型数据的模型,将更能理解和处理实际问题。多模态能力也是提升 AI 与人类交互能力的关键。如何有效地整合和处理不同类型的数据,以及如何在不同的模态之间转换和翻译等,这些都是当前和未来研究的重要课题。

聊天对话框,一个新的图形界面?

由于 ChatGPT 是通过语言进行训练的,它目前还无法处理或生成来自视觉世界的图像。与此同时,虽然诸如 Visual Transformer 或 Stable Diffusion 等视觉基础模型展示了极佳的视觉理解和生成能力,但它们只是在特定任务上的专家,需要一轮固定输入和输出。为此,微软团队构建了一个名为Visual ChatGPT 的系统,集成了不同的视觉基础模型,使用户能够通过 1) 发送和接收不仅是语言,还有图像 2) 提供复杂的视觉问题或需要多个 AI 模型多步协作的视觉编辑指令 3) 提供反馈并要求纠正结果。研究团队设计了一系列提示,将视觉模型信息注入 ChatGPT,考虑到需要多个输入/ 输出和需要视觉反馈的模型。实验显示,Visual ChatGPT在视觉基础模型的帮助下,为研究 ChatGPT 的视觉角色开启了大门。1

Transformer论文最后一名作者从谷歌离职插图3

Visual ChatGPT的架构

寻找多模态之间的共同语言

不同模态的模型在不同的领域存储不同形式的常识知识,谷歌团队展示出这种多样性是互补的,可以通过苏格拉底模型(SMs)来利用:一个模块化框架,可以通过多模态提示(即零样本)来组合多个预训练模型,以便彼此交换信息并捕获新的多模态能力,无需进行微调。在最小的工程改动下,SMs 不仅能与最先进的零样本图像标注和视频到文本检索竞争,而且还能启用新的应用,例如 (i) 回答关于以自我为中心的视频的自由形式的问题,(ii) 通过接口与外部 API 和数据库(例如,网络搜索)进行多模态辅助对话与人交流(例如,烹饪食谱),以及 (iii) 机器人的感知和计划。2

大一统:从多模态到高模态

由 卡 内 基 梅 隆、 密 西 根 和 DeepMind 组 成 的 团 队, 研究了高模态场景的高效表示学习,结果是一个单一模型HighMMT,扩展到 10 种模态(文本、图像、音频、视频、传感器、本体感知、语音、时间序列、集合和表格)和来自5 个不同研究领域的 15 项任务。HighMMT 表现出至关重要的规模行为:每增加一种模态,性能就会继续提高,并且在微调期间,它将转移到全新的模态和任务。3

1.Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

2. Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language

3.HighMMT:Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning

具身智能

具身智能指的是 AI 系统能够通过与环境的物理交互来理解和学习的能力。这对于生成式 AI 来说非常重要,因为它扩大了 AI 系统可以处理和生成的数据类型和范围。与处理抽象数据相比,具身智能可以帮助生成式 AI 更好地理解和处理现实世界的复杂性和多样性。然而,具身智能也带来了一些挑战,包括如何在物理环境中进行高效的学习,如何处理和解决实际环境中的不确定性,以及如何保证在与环境交互过程中的安全性等。这些都是当前和未来研究的重要课题。

一个具身的多模态大语言模型

谷歌团队提出了一个具身的语言模型,以直接将真实世界的连续感知模态纳入语言模型,从而建立词语和感知之间的联系。这个具身语言模型的输入是多模态句子,其中交错了视觉、连续状态估计和文本输入编码。研究团队将这些编码进行端到端的训练,结合预训练的大型语言模型,用于多个实体任务,包括顺序机器人操控规划、视觉问题回答和字幕添加。评估表明,这个被称为 PaLM-E 的单一的大型实体多模态模型,可以处理各种具身推理任务,来自各种观察模态和在多个具身上,并且进一步表现出积极的转移:该模型从跨互联网规模的语言、视觉和视觉 – 语言领域的多样化联合训练中获益。除了在机器人任务上进行训练外,还是视觉 – 语言通用型模型。1

Transformer论文最后一名作者从谷歌离职插图4

OBJECTFOLDER BENCHMARK 测试套件包含 10 个用于多感官对象中心学习的基准任务,围绕对象识别、重建和操纵展开。作为对 OBJECTFOLDER 中1000 个多感官神经对象的补充,团队还引入了 OBJECTFOLDER REAL,它包含从 100 个真实世界物体中收集的真实多感官数据,包括它们的 3D 网格、视频录制、冲击声音和触觉读数。

视觉、听觉、触觉,真实世界的多维感知

李飞飞等研究人员提出了 OBJECTFOLDER BENCHMARK,这是一个围绕物体识别、重构和操作的 10 个基准任务的套件,旨在推动多感官物体为中心学习的研究。团队还介绍了OBJECTFOLDER REAL,这是第一个包含 100 个真实家庭物体的视觉、声音和触觉实际测量数据的数据集。团队希望其新数据集和基准套件能够作为基石,促进多感官物体建模和理解方面的进一步研究和创新。2

人类已经训练出机器人打败了李世石,可以训练出一个机器人胜过梅西吗?

Google Deepmind 和牛津的团队,使用深度强化学习训练了一个具有 20 个驱动关节的人形机器人,使其能够玩简化的一对一(1v1)足球比赛。首先独立训练了各个技能,然后在自我对抗的环境中将这些技能端到端地组合起来,展示了运动技能,如快速摔倒恢复、行走、转身、踢球等,并以平稳、稳定和高效的方式在动作之间进行过渡,远远超出了对机器人的直观预期。机器人还发展出了对游戏的基本战略理解,学会了预测球的移动并封堵对手的射门等。这些行为的全都是从一组简单的奖励中出现的。训练在模拟环境中进行,并在实际机器人上进行了零样本迁移。3

智能驾驶即智能规划

现代自动驾驶系统的特点是顺序性的模块化任务,即感知,预测和规划。上海人工智能实验室等组成的研究团队,追求最终目标,即自驾车的规划。他们重新审视了感知和预测中的关键组件,并优先考虑了这些任务,以使所有这些任务都能为规划做出贡献。他们引入了统一的自动驾驶(UniAD),这是一个全面的框架,它在一个网络中集成了全栈驾驶任务。它精心设计以利用每个模块的优点,并从全局视角提供互补特性抽象以进行代理人交互。任务通过统一的查询接口进行沟通,以便互相促进规划。他们还实例化了 UniAD。(获CVPR 2023 最佳论文)4

1. PaLM-E: An Embodied Multimodal Language Model

2. The OBJECTFOLDER BENCHMARK: Multisensory Learning with Neural and Real Objects

3. Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

4. Planning-oriented Autonomous Driving

安全与可信

ChatGPT 推出,展示了生成的文本与人类生成的内容无法区分的能力,但这一“后图灵测试”时代的来临,带来了新的挑战。通用人工智能成功记忆人类知识,并不能保证模型能按照人类的期望来执行。其实早在 ChatGPT 推出之前,已经有研究揭示了一些大模型内部的行为异常,包括生成有害内容,强化偏见和传播虚假信息。这个提高期望的社会行为和抑制不期望的社会行为的过程,通常被称为“社会对齐”(social alignment)。

大模型模拟社会互动

与人类不同,人类通过社会互动达成关于价值判断的共识,而当前的语言模型则是在孤立中训练以僵化地复制其训练语料库,导致在不熟悉的场景中的泛化表现不佳,并容易受到对抗性攻击。这项工作提出了一种新的训练范式,允许大模型从模拟的社会互动中学习。与现有的方法相比,这一方法更具可扩展性和效率,在对齐基准测试和人类评估中表现出卓越的性能。这种在大模型训练中的范式转变,有助于开发能够稳健准确地反映社会规范和价值观的 AI 系统。1

Transformer论文最后一名作者从谷歌离职插图5

思维克隆(TC)的总体框架。TC 代理有两个部分:上层部分和下层部分。在每个时间步,TC 代理接收观察结果、任务以及思维历史作为输入。上层部分产生思维,下层部分根据这些思维产生行动。生成的思维和行动与示范数据集中的实际情况进行比较,以计算损失。

学说人话,也要学习用人话思考

我们不仅训练大模型说人话,更重要的是训练大模型像人一样,用语言思考。这个研究团队的成员之一,来自辛顿的Vector 研究所,并且是加拿大 CIFAR AI 的主席。研究团队认为,强化学习(RL)代理远未达到人类在这些能力上的水平。假设这种认知缺陷的一个原因是他们缺乏用语言思考的好处,可以通过训练它们像人类一样思考来提升 AI 代理的能力。

研究团队引入了一种新的模仿学习框架,称为“思维克隆”,其理念不仅是克隆人类示范者的行为,而且还要克隆人类在执行这些行为时的思维。虽然研究者认为在互联网规模的数据集上,人们在行动时大声思考(例如,带有文字记录的在线视频),思维克隆将真正出彩,但在这里,他们的思维和行动数据都是在人工生成的领域进行实验。结果表明,思维克隆的学习速度远超行为克隆,其性能优势在分布测试任务的情况下越发显著,凸显了其更好地处理新情况的能力。

思维克隆还为 AI 的安全性和可解释性提供了重要的好处,并使得调试和改进 AI 变得更加容易。因为我们可以观察到代理的思维,我们就能(1)更容易地诊断问题所在,使得修复问题变得更加容易,(2)通过纠正其思维来引导代理,或者(3)防止其执行不安全的计划。总的来说,通过训练代理如何思考以及行为,思维克隆创造出更安全、更强大的代理。2

保护版权,数据来源透明,水印基本可靠

随着大语言模型变得普遍,机器生成的文本有可能充斥互联网,带来垃圾邮件、社交媒体机器人和无价值的内容。水印技术使大模型生成的文本可以被检测和记录,可以减轻这些危害。然而,一个关键的问题仍然存在:在实际情况下,水印技术的可靠性如何?水印文本可能被修改以适应用户的需求,或者被完全重写以避免检测。研究了发现,即使在经过人工和机器转述后,水印仍然可以被检测出来。虽然这些攻击稀释了水印的强度,但转述在统计上很可能会泄露出原文的 n-grams(词汇序列模式)或者更长的片段,当观察到足够的词元时,会产生高置信度的检测。例如,即使对大量的人类转述,平均观察 800 个词元后,可以检测到水印,误报率设置为 1e - 5。研究还考虑了一系列新的检测方案,这些方案对嵌入在大型文档内的短跨度水印文本敏感。3

1、Training Socially Aligned Language Models in Simulated Human Society

2、Thought Cloning

3、On the Reliability of Watermarks for Large Language Models

GenAI2023