文本描述
腾讯云开发者
腾讯云开发者
腾讯云开发者
腾讯云开发者
人工通用智能的星星之火:GPT-4的早期实验
SebastienBubeck Varun ChandrasekaranRonenEldan JohannesGehrke
;腾讯云开发者
Eric Horvitz Ece Kamar Peter Lee Yin Tat Lee Yuanzhi Li Scott Lundberg
腾讯云开发者
Harsha Nori HamidPalangi MarcoTulio Ribeiro Yi Zhang
微软研究院
腾讯云开发者
腾讯云开发者
摘要
腾讯云开发者
人工智能(AI)研究人员一直在开发和完善大型语言模型(LLM),这些模型在各种领域和任务中表现出非凡
的能力,挑战了我们对学习和认知的理解。OpenAI开发的最新模型GPT-4 [Ope23]是使用前所未有的计算和
腾讯云开发者
数据规模进行训练的。在本文中,我们报告了我们对早期版本的GPT-4的调查,当时它还在OpenAI的积极开
发中。我们认为(这个早期版本)GPT-4是新一批LLM的一部分(例如ChatGPT和谷歌腾讯云开发者的PaLM),它们比之前的AI
模型表现出更多的通用智能。我们讨论了这些模型不断提升的能力和影响。我们证明,除了对语言的掌握, 腾讯云开发者
GPT-4可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务,而不需要任何特别的提
示。此外,在所有这些任务中,GPT-4的表现惊人地接近人类的表现,而且大大超过之前的模型,如
腾讯云开发者
ChatGPT。鉴于GPT-4能力的广度和深度,我们相信它可以被合理地视为人工通用智能(AGI)系统的早期版本
(但仍不完整)。在我们对GPT-4的探索中,我们特别强调发现其局腾讯云开发者限性,并讨论了向更深入、更全面的AGI版
本推进所面临的挑战,包括可能需要追求超越下一个单词预测的新范式。最后,我们对最近技术飞跃的社会腾讯云开发者
影响和未来研究方向进行了反思。
腾讯云开发者
内容 腾讯云开发者
1 介绍 4 腾讯云开发者
1.1 我们研究GPT-4智能的方法. . . . . . . . . . . . . . . . . . . . . . . . . . 7
腾讯云开发者1.2 我们演示的构成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
腾讯云开发者
2 多模态和跨学科组的组合 13
2.1 综合能力 ........................腾讯云开发者. 13
2.2 视觉.................... 16
腾讯云开发者 2.2.1 记忆之外的图像生成 ..................... 16
2.2.2 按照详细说明生成图像(类似Dall-E)................. 17
腾讯云开发者
2.2.3 在草图生成中的可能应用.................... 18
2.3 音乐...................腾讯云开发者........ 19
3 代码能力 21
腾讯云开发者
3.1 从指令到代码 .................. 21
腾讯云开发者3.1.1 编程挑战 ................... 21
3.1.2 现实场景 .............腾讯云开发者............. 22
3.2 理解现有代码 ........................ 26
腾讯云开发者
腾讯云开发者
1
腾讯云开发者
腾讯云开发者
腾讯云开发者
腾讯云开发者 腾讯云开发者
腾讯云开发者
4 数学能力 30
4.1 与GPT-4的数学对话 .............腾讯云开发者.............. 31
4.1.1 对原始问题的第一次泛化.................... 31 腾讯云开发者
4.1.2 原问题的第二种变体 .................... 32
4.1.3 分析谈话中突出的局限性................... 34
4.2 在数学问题数据集上的表现 ............... 35
4.3 各个领域的数学建模 .......腾讯云开发者............. 37
4.4 高等数学 ......................... 39 腾讯云开发者
5 与世界的互动43
5.1 工具的使用..................... 43
5.1.1 使用多种工具来腾讯云开发者解决更复杂的任务 .................. 44
5.1.2 讨论 .................... 49
腾讯云开发者
5.2 体现互动 ......................... 49
5.2.1 热身:地图导航................ 49 腾讯云开发者
5.2.2 基于文本的游戏 ..................... 49
5.2.3 腾讯云开发者现实世界的问题..................... 52
5.2.4 讨论 ..................... 53
腾讯云开发者
6 与人类的互动54 腾讯云开发者
6.1 理解人类:思维理论...................... 54
6.1.1 ................... 54
腾讯云开发者 测试思维理论的具体方面
6.1.2 在现实场景中测试思维理论 ............... 54
6.1.3 讨论 ..............腾讯云开发者............. 60
6.2 与人类对话:解释能力 .................. 60 腾讯云开发者
7 鉴别能力 69
腾讯云开发者
7.1 PII检测 ................... 69
7.2 误解和事实核查 ........腾讯云开发者............ 70
7.2.1 为什么目前的衡量标准不够? .............. 71 腾讯云开发者
7.2.2 GPT-4作为评委 ..................... 73
腾讯云开发者8 GPT-4强调的自回归架构的局限性 76
8.1 用两个基本示例进行热身腾讯云开发者.................. 76
8.2 算术/推理问题中缺乏规划................. 77
腾讯云开发者
8.3 文本生成缺乏规划....................... 78
腾讯云开发者9 社会的影响 82
9.1 .................... 82
错误生成的腾讯云开发者冲击
9.2 错误信息和捏造 .................... 83
9.3 偏见 ...................腾讯云开发者....... 86
9.4 人类的专业知识、工作和经济 ................. 89
腾讯云开发者9.5 一系列的影响力和考虑因素 ..................... 90
腾讯云开发者
10 方向和结论 92
10.1 智能、AI和AGI的定义..........腾讯云开发者............. 92
10.2 在通往更通用人工智能的道路上 .................... 93
10.3 到底发生了什么? ................. 94
腾讯云开发者
腾讯云开发者
2
腾讯云开发者
腾讯云开发者
腾讯云开发者
腾讯云开发者 腾讯云开发者
腾讯云开发者
一些未知的东西在做我们不知道的事情。
-阿瑟·爱丁顿爵士
腾讯云开发者
1 介绍腾讯云开发者
智能是一个多方面的、难以捉摸的概念,长期以来一直挑战着心理学家、哲学家和计算机科学家。1994年,
52名心理学家组成的小组签署了一个宽泛的定义,并发表在一篇关于智力科学的社论中,试图抓住它的本质
腾讯云开发者
[Got97]。共识派将智力定义为一种非常普遍的心智能力,其中包括推理、计划 、 解决问 题 、 抽象思 考 、
腾讯云开发者
理解复 杂 概念、快速学 习 和从经验中学习的能力 。这一定义意味着智力并不局限于特定的领域或任务,
而是包含了广泛的认知技能和能力。构建一个显示出1994共识定义所表述的那种通用智能的人工系统,是人
工智能研究的一个长期而雄心勃勃的目标。在早期的著作中,人工智能(AI)研究的现代学科的创始人为理解
智能提出了一系列雄心勃勃的目腾讯云开发者标[MMRS06]。几十年来,人工智能研究人员一直在追求智能的原则,包括可
泛化的推理机制(例如[NSS59], [LBFL93])和构建包含大量常识语料库的知识库[Len95]。然而,A腾讯云开发者I研究中许多
较近期的成功可以被描述为狭隘地专注于明确定义的任务和挑战,例如下国际象棋或围棋,这些分别在1996 腾讯云开发者
年和2016年被AI系统掌握。在20世纪90年代末和21世纪初,开发更通用的AI系统的呼声越来越高(例如,
[SBD+96]),该领域的学术界试图确定可能作为更通用智能系统基础的原则(例如,[Leg08,GHT15])。“人工通
腾讯云开发者
用智能”(AGI)一词在21世纪初得到普及(见[Goe14]),以强调从“狭义AI”(如正在开发的集中的、现实世界的
腾讯云开发者
应用程序所示)转向更广泛的智能概念的愿望,这又回到了早期AI研究的长期愿望和梦想。我们用AGI来指代
上述1994年定义中所描述的展示广泛智能能力的系统,并有额外的要求,这些能力可能隐含在共识派的工作腾讯云开发者
中,即达到或超过人类水平。然而,我们注意到,AGI并没有一个被广泛接受的单一定义,我们在结论部分
腾讯云开发者讨论了其他定义。
腾讯云开发者
过去几年,人工智能研究中最显著的突破是大型语言模型(llm)在自然语言处理方面取得的进展。这些神
腾讯云开发者
经网络模型基于Transformer架构[VSP+17],并在海量的web-text数据语料库上进行训练,其核心使用的是预测部分
句子中的下一个单词的自监督目标。在本文中,我们报告了由OpenAI开发的一个新的LLM,它是GPT-4的早期
腾讯云开发者
和非多模态版本[Ope23],根据1994年的定义,显示出许多智能的特征。尽管纯粹是一个语言模型,但这个早
腾讯云开发者
期版本的GPT-4在各种领域和任务上表现出了卓越的能力,包括抽象、理解、视觉、编码、数学、医学、法
律、理解人类的动机和情感等等。在OpenAI早期开发GPT-4时,我们使用纯自然语言提问(提示)1与GPT-4进 腾讯云开发者
行交互。在图1.1中,我们展示了GPT-4输出的一些初步示例,要求它以诗歌的形式写出质数无限的证明,用
腾讯云开发者TiKZ(一种用LATEX创建图形的语言)画一只独角兽,用Python创建一个复杂的动画,并解决一个高中水平的数
学问题。它轻松地完成了所有这些腾讯云开发者任务,并且产生的输出基本上与人类能够产生的输出没有什么区别(甚至比
人类能够产生的输出更好)。我们还将GPT-4的性能与之前的LLM进行了比较,尤其是ChatGPT,它是GPT-3
腾讯云开发者
[BMR+20]的微调(改进)版本。在图1.2中,我们展示了向ChatGPT询问质数无限性的证明诗歌和TikZ独角兽绘画
的结果。虽然系统在这两项任务上的表现都不平凡,但与GPT-4的输出没有比较。这些初步的观察结果将在
腾讯云开发者
整个论文中重复出现,在各种各样的任务中。GPT-4能力的通用性,与跨越广泛领域的众多能力相结合,以
腾讯云开发者
及它在广泛的任务范围上达到