文本描述
证券研究报告 | 行业点评
2022 年 12 月 05 日
区块链
AIGC的里程碑——Chat GPT 凭什么引爆科技圈?
事件:11 月 30 日,OpenAI 上线了新模型 ChatGPT,其网页应用允许用户 增持(维持)
免费使用, 能够理解人类语言并且回答问题,不限于普通聊天、协
ChatGPT
助写代码、解决具体难题等等应用场景。因为其高质量的回答、高效获取信
息的方式、以及上瘾式的交互体验,ChatGPT引起了社交媒体的广泛传播与行业走势
关注。
通信沪深300
ChatGPT 效果出人意料,“全能AI”火遍社交媒体。ChatGPT 的交互界面16%
简洁,只有一个输入框,AI 将根据输入内容进行回复,并允许在一个语境
下持续聊天。ChatGPT 的聊天范围广泛,涵盖大部分领域,根据亲身体验以 0%
及社交媒体分享的内容来看,ChatGPT 能在绝大部分知识领域给出专业回
-16%
答,同时对输入的理解能力和包容度高。无论是让ChatGPT 写首押韵的诗、
检查代码的bug、回答科学问题、对推特未来的发展提出建议都不在话下, -32%
其回复内容每次都是随机的,但总体保持着一定的专业性和信息量,具备很 2021-12 2022-04 2022-08 2022-12
强的参考意义。与 ChatGPT 持续对话是一种令人上瘾的体验,因此在该应
用发布的短短几天内,就能看到国内外的社交媒体上就有大量关于 ChatGPT
对话的分享。作者
ChatGPT 的背后离不开大模型、大数据、大算力。ChatGPT 成为 AIGC 里分析师 宋嘉吉
程碑的背后,是算力发展和数字时代形成的大数据所共同支持的大模型训 执业证书编号:S0680519010002
练,才能实现目前的效果。由 OpenAI 研发的 ChatGPT 是微调后的GPT-3.5邮箱:songjiaji@gszq
系列模型,有着多达 1750 亿个模型参数,并在今年年初训练完成。模型训 相关研究
练的背后离不开大数据的支持,OpenAI 主要使用的公共爬虫数据集有着超
1、《通信:运营商价值重估的三大核心支撑》2022-12-04
过万亿单词的人类语言数据集。在算力方面,GPT-3.5 在 Azure AI 超算基础
设施(由V100GPU 组成的高带宽集群)上进行训练,总算力消耗约36402、《区块链:Web3 底层语言:Move 弥补了 Solidity 哪
PF-days(即每秒一千万亿次计算,运行 3640 个整日)。 些不足?》2022-12-01
3、《通信:5G 后周期的投资框架》2022-11-27
AIGC 不仅改变创作,还将改变获取信息的主要方式。在之前的报告中,我
们讨论过 AIGC 对于创作的替代,降低了创作门槛,为元宇宙数字内容的丰
富打下基础。而在此之上,ChatGPT 所展示了作为生产力的存在,ChatGPT
在寻找答案、解决问题的效率上已经部分的超越了如今的搜索引擎,
ChatGPT 或许在未来会改变我们获取信息、输出内容的方式,AIGC 有望成
为数字经济时代驱动需求爆发的杀手级应用。
模型缺点瑕不掩瑜,未来迭代值得期待。据官网显示,ChatGPT 目前存在着
一些局限性,包括:有时会给出看上去正确但荒谬的答案、微调提问的方式
会得到完全不同的答案、有时会反复使用某些句子等等。在我们实际体验中
也能感受到,这些问题来自训练过程和数据集的局限性。ChatGPT 本次面向
用户免费开放能够进一步强化训练,从而完善模型质量。
投资建议:软硬件与数据集。生成算法、NLP 与算力决定AIGC 能否运行,
而高质量的数据集决定了AIGC 质量与商业模式。软件层面主要包括自然语
言处理技术:谷歌、微软、科大讯飞、拓尔思;AIGC生成算法模型及数据
集:视觉中国、万兴科技、蓝色光标、昆仑万维;算力层包括:三大运营商
(移动、电信、联通)、英伟达、澜起科技、中兴通讯、新易盛、天孚通信、
中际旭创等。
风险提示:技术创新不及预期;政策监管风险。
请仔细阅读本报告末页声明扫码进群领取
1、优质研报免费获取,行业报告定期打包
2、每日推送行业最新深度研报(精选10篇)
3、最新行业报告、公司研究、专业大咖分享 2022 年 12 月 05 日
11 月 30 日,OpenAI 上线了新模型 ChatGPT,该模型允许用户以对话的方式与其交互。
ChatGPT 是之前发布的InstructGPT 的兄弟模型,后者被训练用于根据输入给出详细的
一段输出。同时,ChatGPT 模型为了获得更多用户反馈,在目前阶段对用户开放免费使
用,用户可通过 chat.openai 进行应用交互体验。
ChatGPT 的交互界面简洁,只有一个输入框,用户可以任意开启话题或者给出指令,模
型将根据输入内容给出输出。ChatGPT 的一大特点就是允许在同一个语境下持续交流,
能够根据上下文进行回复。
ChatGPT 的聊天范围广泛,涵盖大部分领域,具备参考意义。根据亲身体验以及社交
媒体分享的内容来看,ChatGPT能在绝大部分知识领域给出专业回答,同时对输入的理
解能力和包容度高。无论是让ChatGPT 写首押韵的诗、检查代码的bug、回答科学问题、
对推特未来的发展提出建议都不在话下,其回复内容每次都是随机的,但总体保持着一
定的专业性和信息量,具备很强的参考意义。
图表 1:ChatGPT 使用截图
资料来源:chat.openai、国盛证券研究所
ChatGPT 的对话内容开始在社交媒体引起关注。因为 ChatGPT 对话的随机性以及较为
丰富的信息量,与 ChatGPT 持续对话令人上瘾,在该应用发布的短短几天内,国内外的
社交媒体上就有大量关于ChatGPT 对话的分享。这其中包括马斯克像 ChatGPT 请教如
何改变推特,也有各类有趣的问答合辑。
P.2请仔细阅读本报告末页声明
2022 年 12 月 05 日
AIGC 里程碑的背后离不开大模型、大数据、大算力。ChatGPT 成为 AIGC 里程碑的背
后,是算力发展和数字时代形成的大数据所共同支持的大模型训练,才能实现目前的效
果。由 OpenAI 研发的 ChatGPT 是微调后的GPT-3.5 系列模型(GPT模型专门用于人类
语言应用),有着多达 1750 亿个模型参数,并在今年年初训练完成。
模型训练的背后离不开大数据的支持,公共爬虫数据集有着超过万亿单词的人类语言数
据集,OpenAI 团队在此基础上进行整理加工形成用于训练模型的数据集。在算力方面,
GPT-3.5 在 Azure AI 超算基础设施(由 V100GPU 组成的高带宽集群)上进行训练,总
算力消耗约3640 PF-days(即每秒一千万亿次计算,运行 3640 个整日)。
图表 2:不同模型训练所需要的算力对比
资料来源:Language Models are Few-Shot Learners、国盛证券研究所
AIGC 不仅改变创作,还将改变获取信息的主要方式。在之前的报告中,我们讨论过AIGC
对于创作的替代,降低了创作门槛,为元宇宙数字内容的丰富打下基础。而在此之上,
ChatGPT 所展示了作为生产力的存在,ChatGPT 在寻找答案、解决问题的效率上已经部
分的超越了如今谷歌等搜索引擎,ChatGPT或许在未来会改变我们获取信息的方式,
AIGC 成为新时代的用户入口。
模型缺点瑕不掩瑜,未来迭代值得期待。官网注明了 ChatGPT 目前存在着一些局限性及
原因,在我们的实际体验中,也确实遇到这些问题:
1)有时 ChatGPT 会写一些看上去合理但错误且荒谬的答案,这个在体验中较少但会出
现。据官网描述,这个问题是难以解决的,因为:第一,在训练期间,并没有提问者目
前所有的事实;第二,如果让模型过于谨慎,那么他能回答的问题也会拒绝回答;第三,
有观察的训练误导了模型,因为正确的答案来源于模型的数据库而非人类知道什么。
2)ChatGPT 对输入的改变比较敏感。例如,给出一句问题,模型声称无法得知答案,
但轻微地改变问题,就能正确地回答。这种特性在体验中表现的比较明显。
3)ChatGPT 有时会非常重复表达,反复使用某些句子,例如:重申自己是 OpenAI 训练
的语言模型。这个问题在我们的体验中也经常出现,根据官网,该问题来自于训练数据
的偏差,以及过度拟合问题。
4)在理想情况下,当用户问题模糊时,模型应该会提问将问题清晰化。但目前的模型经
P.3请仔细阅读本报告末页声明
2022 年 12 月 05 日
常不去追问问题,直接猜想用户可能问的方向。
除了官网提到的局限性外,根据实际体验,ChatGPT 即是在输入的明确要求下,也难以
在表达中使用数据支持,这可能是因为ChatGPT 所使用的语言数据集并不包含太多关于
数据的内容。
投资建议
相比于此前的 AI 绘画,ChatGPT 更具有将 AI 能力与工作流程相结合的潜力,例如我们
试着让其解释“光学模块中的光芯片和电芯片是什么?当前的全球主流供应商是谁?中
国企业的竞争地位如何?未来是否有什么技术可以替代 InP 材料?”这类问题时,
ChatGPT 能够给出颇为专业的答复,且语言表达流畅。如果将 ChatGPT 与 Midjourney
等创作工具融合,有可能直接输出设计图稿等内容,毕竟文字生成是基础,而用户要做
的尽量调整自己的输入,以促使 AI 输出更质量的内容,这本身也是一种训练和反馈过程。
目前部分用户已在社交媒体上表达了对ChatGPT 的付费意愿,可见 C 端用户为了提高效
率有意愿订阅此类服务。
目前OpenAI 等巨头已着手自建计算集群来满足AIGC的要求,这种集中式的训练对GPU、
存储、机房、供电等基础设施均有巨大需求。国内部分创业团队目前基于公有云训练,
随着需求的增加,也有望转向自建集群。
今年以来,我国“东数西算”战略自上而下快速推进,作为数字经济的基础,“算力即权
力”,其重要性不言而喻,此前我们更多的互联网应用聚焦于“存”而非“算”,随着 AIGC
技术在全球的兴起,“东数西算”的算力需求将越来越显著。
关于 AIGC 的投资策略,能够从软硬件与数据集的三个角度梳理,生成算法、NLP与算
力决定 AIGC 能否运行,而高质量的数据集决定了 AIGC 质量与商业模式。
软件层面主要包括自然语言处理技术:谷歌、微软、科大讯飞、拓尔思。
AIGC 生成算法模型及数据集:蓝色光标、视觉中国、昆仑万维、万兴科