文本描述
人工通用智能的星星之火:GPT-4的早期实验
S;ebastien Bubeck Varun Chandrasekaran Ronen Eldan Johannes Gehrke
Eric Horvitz Ece Kamar Peter Lee Yin Tat Lee Yuanzhi LiScott Lundberg
Harsha NoriHamid PalangiMarco Tulio RibeiroYi Zhang
微软研究院
摘要
人工智能(AI)研究人员一直在开发和完善大型语言模型(LLM),这些模型在各种领域和任务中表现出非凡
的能力,挑战了我们对学习和认知的理解。OpenAI开发的最新模型GPT-4 [Ope23]是使用前所未有的计算和
数据规模进行训练的。在本文中,我们报告了我们对早期版本的GPT-4的调查,当时它还在OpenAI的积极开
发中。我们认为(这个早期版本)GPT- 4是新一批LLM的一部分(例如ChatGPT和谷歌的PaLM),它们比之前的AI
模型表现出更多的通用智能。我们讨论了这些模型不断提升的能力和影响。我们证明,除了对语言的掌握,
GPT-4可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务,而不需要任何特别的提
示。此外,在所有这些任务中,GPT-4的表现惊人地接近人类的表现,而且大大超过之前的模型,如
ChatGPT。鉴于GPT-4能力的广度和深度,我们相信它可以被合理地视为人工通用智能(AGI)系统的早期版本
(但仍不完整)。在我们对GPT-4的探索中,我们特别强调发现其局限性,并讨论了向更深入、更全面的AGI版
本推进所面临的挑战,包括可能需要追求超越下一个单词预测的新范式。最后,我们对最近技术飞跃的社会
影响和未来研究方向进行了反思。
内容
1 介绍 4
1.1 我们研究GPT-4智能的方法.. . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 我们演示的构成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 多模态和跨学科组的组合 13
2.1 综合能力......................... 13
2.2 视觉 .................... 16
2.2.1 记忆之外的图像生成 ..................... 16
2.2.2 按照详细说明生成图像(类似Dall-E)................. 17
2.2.3 在草图生成中的可能应用.................... 18
2.3 音乐 .................... 19
3 代码能力21
3.1 从指令到代码 .................. 21
3.1.1 编程挑战 ................... 21
3.1.2 现实场景 ................... 22
3.2 理解现有代码 ........................ 26
14 数学能力30
4.1 与GPT-4的数学对话 .................... 31
4.1.1 对原始问题的第一次泛化.................... 31
4.1.2 原问题的第二种变体 .................... 32
4.1.3 分析谈话中突出的局限性................... 34
4.2 在数学问题数据集上的表现 ............... 35
4.3 各个领域的数学建模 .................... 37
4.4 高等数学......................... 39
5 与世界的互动 43
5.1 工具的使用..................... 43
5.1.1 使用多种工具来解决更复杂的任务 .................. 44
5.1.2 讨论 .................... 49
5.2 体现互动......................... 49
5.2.1 热身:地图导航................ 49
5.2.2 基于文本的游戏 ..................... 49
5.2.3 现实世界的问题 ..................... 52
5.2.4 讨论 ..................... 53
6 与人类的互动 54
6.1 理解人类:思维理论 ...................... 54
6.1.1 测试思维理论的具体方面................... 54
6.1.2 在现实场景中测试思维理论 ............... 54
6.1.3 讨论 .................... 60
6.2 与人类对话:解释能力 .................. 60
7 鉴别能力69
7.1 PII检测 ................... 69
7.2 误解和事实核查 .................... 70
7.2.1 为什么目前的衡量标准不够? .............. 71
7.2.2 GPT-4作为评委..................... 73
8 GPT-4强调的自回归架构的局限性 76
8.1 用两个基本示例进行热身.................. 76
8.2 算术/推理问题中缺乏规划................. 77
8.3 文本生成缺乏规划 ....................... 78
9 社会的影响 82
9.1 错误生成的冲击 .................... 82
9.2 错误信息和捏造 .................... 83
9.3 偏见 .......................... 86
9.4 人类的专业知识、工作和经济 ................. 89
9.5 一系列的影响力和考虑因素 ..................... 90
10 方向和结论 92
10.1 智能、AI和AGI的定义 ................ 92
10.2 在通往更通用人工智能的道路上 .................... 93
10.3 到底发生了什么? ................. 94
2 一些未知的东西在做我们不知道的事情。
-阿瑟·爱丁顿爵士
1 介绍
智能是一个多方面的、难以捉摸的概念,长期以来一直挑战着心理学家、哲学家和计算机科学家。1994年,
52名心理学家组成的小组签署了一个宽泛的定义,并发表在一篇关于智力科学的社论中,试图抓住它的本质
[Got97]。共识派将智力定义为一种非常普遍的心智能力,其中包括推理、计 划 、 解决问 题 、 抽象思 考 、
理解复 杂 概念、快速学 习 和从 经验中学习的能 力 。这一定义意味着智力并不局限于特定的领域或任务,
而是包含了广泛的认知技能和能力。构建一个显示出1994共识定义所表述的那种通用智能的人工系统,是人
工智能研究的一个长期而雄心勃勃的目标。在早期的著作中,人工智能(AI)研究的现代学科的创始人为理解
智能提出了一系列雄心勃勃的目标[MMRS06]。几十年来,人工智能研究人员一直在追求智能的原则,包括可
泛化的推理机制(例如[NSS59],[LBFL93])和构建包含大量常识语料库的知识库[Len95]。然而,AI研究中许多
较近期的成功可以被描述为狭隘地专注于明确定义的任务和挑战,例如下国际象棋或围棋,这些分别在1996
年和2016年被AI系统掌握。在20世纪90年代末和21世纪初,开发更通用的AI系统的呼声越来越高(例如,
[SBD+96]),该领域的学术界试图确定可能作为更通用智能系统基础的原则(例如,[Leg08, GHT15])。“人工通
用智能”(AGI)一词在21世纪初得到普及(见[Goe14]),以强调从“狭义AI”(如正在开发的集中的、现实世界的
应用程序所示)转向更广泛的智能概念的愿望,这又回到了早期AI研究的长期愿望和梦想。我们用AGI来指代
上述1994年定义中所描述的展示广泛智能能力的系统,并有额外的要求,这些能力可能隐含在共识派的工作
中,即达到或超过人类水平。然而,我们注意到,AGI并没有一个被广泛接受的单一定义,我们在结论部分
讨论了其他定义。
过去几年,人工智能研究中最显著的突破是大型语言模型(llm)在自然语言处理方面取得的进展。这些神
经网络模型基于Transformer架构[VSP+17],并在海量的web-text数据语料库上进行训练,其核心使用的是预测部分
句子中的下一个单词的自监督目标。在本文中,我们报告了由OpenAI开发的一个新的LLM,它是GPT-4的早期
和非多模态版本[Ope23],根据1994年的定义,显示出许多智能的特征。尽管纯粹是一个语言模型,但这个早
期版本的GPT-4在各种领域和任务上表现出了卓越的能力,包括抽象、理解、视觉、编码、数学、医学、法
律、理解人类的动机和情感等等。在OpenAI早期开发GPT-4时,我们使用纯自然语言提问(提示)1与GPT-4进
行交互。在图1.1中,我们展示了GPT-4输出的一些初步示例,要求它以诗歌的形式写出质数无限的证明,用
TiKZ(一种用LATEX创建图形的语言)画一只独角兽,用Python创建一个复杂的动画,并解决一个高中水平的数
学问题。它轻松地完成了所有这些任务,并且产生的输出基本上与人类能够产生的输出没有什么区别(甚至比
人类能够产生的输出更好)。我们还将GPT-4的性能与之前的LLM进行了比较,尤其是ChatGPT,它是GPT-3
[BMR+20]的微调(改进)版本。在图1.2中,我们展示了向ChatGPT询问质数无限性的证明诗歌和TikZ独角兽绘画
的结果。虽然系统在这两项任务上的表现都不平凡,但与GPT-4的输出没有比较。这些初步的观察结果将在
整个论文中重复出现,在各种各样的任务中。GPT-4能力的通用性,与跨越广泛领域的众多能力相结合,以
及它在广泛的任务范围上达到或超越人类水平的表现,使我们可以轻松地说,GPT-4是迈向AGI的重要一步。
1随着GPT-4在我们的实验之后继续发展,人们应该可以预期GPT-的最终版本会有不同的反应
4. 特别是,所有的量化结果都应该被视为对模型潜力的估计,而不是确定的数字。我们在整篇论文中重复这个警告,以澄清部署模型
上的经验可能不同。此外,我们强调,我们测试的版本是仅支持文本输入的,但为了简单起见,我们也将其称为GPT-4。
3 GPT-4
提示:你能写出一份证明,证明存在无限多个质数,并且每行都要押
TiKZ
韵吗? 提示:用 画一只独角兽。
GPT-4:
是的,我想我可以,GPT-4: [LATEX编译生成如下的图片]
尽管这可能需要一个聪明的计划。我将从欧几里得的
证明开始,证明了质数不仅仅是冷漠的。假设我们有
一个有限的列表,
并且没有漏掉任何一个质数。
把它们相乘,
再加1,很聪明。
结果会是一个数字,
没有质因数,太神奇了!
但每个数字都有质数,
除以它,只是时间问题。
所以我们发现了一个矛盾,
我们有限的名单需要被驱逐。
肯定有无限多个质数,
这就是我押韵的台词的结尾
提示:你能对以下数据生成pyplot吗:x= [1, 3, 5, 6, 8], y1 = [2, 3, 5, 18, 1], y2 = [3, 5, 6, 8, 1], y3 = [5, 1, 2, 3, 4],
y4 =[9, 7, 2, 3, 1] 。我希望y1, y2在同一个图中,但是y3在那个图旁边的另一个图中,y4在下面。我希望y1的标题是
“bob”,y2是“alice”,y3是“bilbo”,y4是“allie”。我希望x轴标记为“时间”,y轴标记为“金钱”。我想在
每条曲线