首页 > 资料专栏 > 经营 > 运营治理 > 其他资料 > 【申万宏源】AI行业系列点评:ChatGPT、AIGC九问九答PDF

【申万宏源】AI行业系列点评:ChatGPT、AIGC九问九答PDF

在水依方
V 实名认证
内容提供者
热门搜索
ChatGPT 点评 申万宏源
资料大小:3712KB(压缩后)
文档格式:PDF
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2023/6/8(发布于吉林)

类型:积分资料
积分:15分 (VIP无积分限制)
推荐:升级会员

   点此下载 ==>> 点击下载文档


相关下载
推荐资料
“【申万宏源】AI行业系列点评:ChatGPT、AIGC九问九答PDF”第1页图片 图片预览结束,如需查阅完整内容,请下载文档!
文本描述
行业及产计算机

2023 年 02 月 06 日
行ChatGPT/AIGC 九问九答


究/
看好 ——AI 行业系列点评




相关研究
本期投资提示:
"计算机主线会持续吗?AIGC FAQ 几大
问题!- 计算机行业周报 近期市场对于 AIGC/ChatGPT关注较高,投资者常见以下问题。
证 20230130-20230203" 2023 年 2 月 4
券 日 Q:大规模预训练模型(大模型)与小模型的核心区别?相比小模型,大模型有什么优势?

究 "数字经济+chatGPT+港股科技,均预 首先最核心区别在于参数量,例如GPT-3 参数量达到了 1,750 亿个,是传统深度学习小模
示科技全面 机会! -计算机 行业周报
报型参数量的至少一万倍以上。通过模型的扩大,可以带来提升包括:1)GPT-2 等大模型
20230116-20230120" 2023 年 1月 29
告舍弃了小模型中常见的调参过程,转向无监督训练;2)在NLP 中常见小模型需要对不同

的任务使用不同模型分别训练解决,而 GPT-3 等大规模预训练模型不再规定任务,而是对
不同任务都有较好效果;3)GPT-3 先使用海量数据预训练大模型,得到一套模型参数,
证券分析师 然后用这套参数对模型进行初始化,再进行训练。大幅降低后续对数据量的需求。
洪依真A0230519060003
hongyz@swsresearch Q:GPT-3 等大模型和Transformer 的关联?GPT/Bert等大模型都在自然语言领域应用。
林起贤A0230519060002 而 Transformer 是目前 NLP 领域效果较好的深度学习模型,因此 GPT/Bert 等都使用了
linqx@swsresearch
刘洋 A0230513050006 Transformer。Transformer最大的特点是,可以让每个单元都可以捕捉到整句的信息,
liuyang2@swsresearch这也是 RNN/LSTM 等更早期NLP 模型无法做到的一点。
联系人
洪依真 Q:Transformer对于 CV 机器视觉可以有类似 NLP 的提升吗?实际上2017 年
(8621)23297818× transformer 推出之后,2018年就有学者将其应用于CV 图像领域,但当时应用效果未发
hongyz@swsresearch 现相比传统CNN 等算法有较大提升。但在2021 年后,随着swin transformer、mae等
论文推出,transformer在 CV 和跨模态等应用增加。因此国内擅长CV 的 AI 公司,在 2022
年前对于基于 transformer 的大模型关注投入较少,但是我们认为随着 VIT 等效果提升,
应用类的CV 公司也会开始关注并投入大模型。
Q:国内 transformer 大模型做的怎样?如何看待中美技术差距。首先需要承认这一类大
模型底层创新在美国开始。中国在2021 年后加速追赶。此前国内大部分视觉类 AI 公司都
以小模型路线为主,投入大模型研发较多的包括百度、华为等。百度推出文心大模型,基
本实现跨模态和多下游应用。华为推出最大中文语言预训练模型盘古大模型。
Q:怎样的公司有机会参与大模型底层技术研发?我们认为大模型对存储、算力要求极高,
且对于开发者对深度学习框架使用也有要求,普通机构难以复现。
Q:上市公司中有哪些机会呢?计算机:泛 AI 领域是相关主线。稳健标的如 AI 领军、科
大讯飞、万兴科技、虹软科技,弹性标的为云从科技、汉王科技、博彦科技、商汤科技(H)。
互联网:看好国内 AIGC 市场,持续跟进 AIGC 的技术发展和文本、音频、图像等单模态
的应用落地。重点关注技术驱动的初创代表企业、科研院所,以及与应用场景关联的A 股
上市公司。相关标的:中文在线、汉仪股份、视觉中国、蓝色光标。
风险提示:大模型技术中美仍存在差异,部分技术尚处于早期实验室阶段,存在落地风险;
实体清单等可能对训练硬件产生影响。
本研究报告仅通过邮件提供给 中庚基金 使用。1
请务必仔细阅读正文之后的各项信息披露与声明
扫码进群领取
1、优质研报免费获取,行业报告定期打包
2、每日推送行业最新深度研报(精选10篇)
3、最新行业报告、公司研究、专业大咖分享
行业点评
近期市场对于AIGC/ChatGPT 关注较高,投资者常见以下问题。
Q1:大规模预训练模型(大模型)与小模型的核心区别?相比小模型,大模型有什么
优势?
首先最核心区别在于参数量,例如 GPT-3 参数量达到了 1,750 亿个,是传统深度学习
小模型参数量的至少一万倍以上。通过模型的扩大,可以带来提升包括:
1)GPT-2 等大模型舍弃了小模型中常见的调参Fine-Tuning 过程,转向容量更大、
无监督训练。
2)在自然语言理解 NLP 中,常见任务包括翻译、问答、文本填空等,常见小模型需
要对不同的任务使用不同模型分别训练解决,而 GPT-3 等大规模预训练模型不再规定任务,
而是对以上不同任务都有较好效果;可以理解为,一个饱读诗书的人,应该会写作、对话、
阅读理解等多种技能,而不需要对单独技能训练;
图 1 预训练大模型在综合大量信息后可以用于多范围任务
资料来源:《On the Opportunities and Risks of Foundation Models》、 申万宏源研究
3)传统的模型训练方式是反向传播算法,先对网络中的参数进行随机初始化(预训练
大模型中不是随机初始化的),再利用随机梯度下降等优化算法不断优化模型参数,这种
方式下对数据需求量较大。GPT-3 先使用海量数据预训练大模型,得到一套模型参数,然
后用这套参数对模型进行初始化,再进行训练。大幅降低后续对数据量的需求。
图 2 参数量较大的模型在即使在 Few-shot 下也有很好的表现
本研究报告仅通过邮件提供给 中庚基金 使用。2
请务必仔细阅读正文之后的各项信息披露与声明第 2 页 共 13 页 简单金融 成就梦想
行业点评
资料来源:《Language Models are Few-Shot Learners》,申万宏源研究
Q2:因此大规模预训练思路对 AI 应用落地有什么帮助?
小模型时代,商用模型开发会综合考虑调参等研发投入量和带来的商业价值,模型开
发出来后能否复用以摊薄研发成本,同时对于部分训练样本量较少的场景,没有很好解决
方法。
大模型可以在长尾场景应用落地,降低训练成本、减少数据要求。基于大规模预训练
思路,一方面大模型可以应对多个泛化任务,大模型+细分场景微调,更适合长尾落地;另
一方面,对于小样本(fewshot)训练,大模型也有较好提升。
Q3:GPT-3 等大模型和Transformer 的关联?
GPT/Bert 等大模型都在自然语言领域应用。而Transformer 是目前 NLP 领域效果较
好的深度学习模型,因此GPT/Bert 等都使用了Transformer。
此前 NLP 模型问题是:例如 RNN、LSTM,基本做法是把一段话拆分成多个单元,然
后按前后顺序依次输入,输入的 LSTM 或 RNN 模块可以根据训练中句子的长度进行调整,
较短的句子可以通过占位符进行补齐。也就是说当输入第 n 个词的时候,机器仅有前 n-1
个词的信息。即实际训练无法充分发挥这些输入之间的关系而导致模型训练结果效果极差。
即使尝试用CNN 解决这个问题,但需要叠加很多层,才能捕捉长远的信息。
图 3 Transformer 的详细结构
本研究报告仅通过邮件提供给 中庚基金 使用。3
请务必仔细阅读正文之后的各项信息披露与声明第 3 页 共 13 页 简单金融 成就梦想
行业点评
资料来源:《Attention Is All You Need》、 申万宏源研究
Transformer 引入了 Self-Attention 自注意力机制:让机器注意到整个输入中不同部
分之间的相关性。Transformer 最大的特点是,可以让每个单元都可以捕捉到整句的信息,
这也是 RNN/LSTM 等更早期 NLP 模型无法做到的一点。
Q4:那 Transformer 对于 CV 机器视觉可以有类似NLP 的提升吗?
实际上 2017 年 transformer 推出之后,2018 年就有学者将其应用于CV 图像领域,
但当时应用效果未发现相比传统CNN 等算法有较大提升。当时常见做法是将自注意力和
CNN 一起使用,而原有结构基本不变,对于传统卷积神经网络仍有较高依赖。
Transformers 用在 CV 上的难点。对于一个Transformer 的 encoder,输入元素是
一个个的单词,输出是一些元素。Transformers自注意力操作中,每个元素需要和每个元
素互相进行两两互动,最后算得一个 Attention 自注意力图,通过加权平均,最后得到输
出。由于单元间两两互动,因此复杂度是序列长度的平方,也就是 n^2,在自然语言处理
中,一个句子的长度一般就是几百或上千,例如BERT 为 512 序列长度。
而对于一个比较常见的224 x 224 大小的图片,如果直接以每一个像素点为单位进行
两两互动的话,那序列长度为 50176,大概为BERT 序列长度的100 倍,因此复杂度极高。
但在 2021 年后,随着swin transformer、mae 等论文推出,transformer 在 CV
和跨模态等应用增加。
图 4 图像分类任务中使用Vision Transformer 取得了较好的结果
本研究报告仅通过邮件提供给 中庚基金 使用。4
请务必仔细阅读正文之后的各项信息披露与声明第 4 页 共 13 页 简单金融 成就梦想