首页 > 资料专栏 > IT > IT技术 > 硬件技术 > 【安信证券】计算机视角解读ChatGPT投资机会PDF

【安信证券】计算机视角解读ChatGPT投资机会PDF

同123
V 实名认证
内容提供者
资料大小:3065KB(压缩后)
文档格式:PDF
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2023/6/8(发布于江西)

类型:积分资料
积分:15分 (VIP无积分限制)
推荐:升级会员

   点此下载 ==>> 点击下载文档


相关下载
推荐资料
“【安信证券】计算机视角解读ChatGPT投资机会PDF”第1页图片 图片预览结束,如需查阅完整内容,请下载文档!
文本描述
2023 年 02 月 06 日行业周报
计算机
证券研究报告
计算机视角解读ChatGPT投资机会
投资评级领先大市-A
源起:从 GPT-1 到 ChatGPT,商用化进程逐渐开启
维持评级
从 GPT-1 到 GPT-3.5,模型持续迭代。GPT(Generative Pre-Trained
Transformer) 系列是 OpenAI 公司的 一 系 列 预 训 练模 型 , 通过
Transformer 为基础模型,使用预训练技术得到通用的文本模型。目 行业表现
前已经公布论文的有文本预训练 GPT-1,GPT-2,GPT-3,以及图像预 计算机 沪深300
训练 iGPT,而 ChatGPT 和今年年初公布的 InstructGPT 是在 GPT-48%
之前发布的预热模型,也被叫做 GPT-3.5。ChatGPT 和 InstructGPT -2%
在模型结构,训练方式上都完全一致,即都使用了指示学习和人工反 -12%
馈的强化学习来指导模型的训练,它们不同的仅仅是采集数据的方式 -22%
上有所差异。与之前的模型相比,ChatGPT 做到了在内容生成上的有
-32%
用性,真实性和无害性,实现了算法和用户体验上的创新。 2022-02 2022-06 2022-10 2023-02
微软全线产品整合,ChatGPT 开启商用化进程。OpenAI 公司宣布推出 资料来源:Wind 资讯
ChatGPT 的新订阅计划,起价为每月20 美元,可以享受更快的响应 升幅%1M3M12M
时间和优先访问。2 月 2 日,微软 CEO 宣布继搜索引擎必应、Office相对收益5.8 -0.5 6.3
绝对收益12.3 13.1 -3.0
办公软件之后,将在云计算平台 Azure 中整合 ChaGPT,标志着微软
有望实现ChatGPT 在全线产品中的整合。我们认为 ChatGPT 的商用 赵阳 分析师
化进程逐渐开启。 SAC 执业证书编号:S1450522040001
zhaoyang1@essence
夏瀛韬 分析师
技术:预训练模型+人工精标+强化学习,实现 NLP 技术创新
SAC 执业证书编号:S1450521120006
从技术角度来看,ChatGPT 的模型实现主要分为三个步骤,合称为xiayt@essence
RLHF(Reinforcement Learning by Human Feedback)技术:相关报告
1)SFT(Supervised Fine Tuning):基于 GPT-3 的预训练模型,采集 22Q4 计算机板块基金持仓 2023-01-30
新的数据用GPT-3 的训练方式对模型进行微调,这些数据一部分来复盘
自使用 OpenAI 的 PlayGround 用户,另一部分来自 OpenAI 雇佣的 40 优秀产品名单公示,工业软 2023-01-29
名标注工(labeler);件赛道长坡厚雪价值大
2)训练 RM(Reword Model):在采样的输入语句中,进行前向推理获 数据安全促使网安产业迈向 2023-01-16
得多个模型输出结果,通过人工标注进行这些输出结果的排序打标。 新景气周期
最终这些标注数据用来训练 Reward 奖励模型。通过人工标注的方式 新型电力系统蓝皮书发布, 2023-01-08
来提供这个奖励,可以给那些涉及偏见的生成内容更低的分从而鼓励 数字能源产业有望加速
模型不去生成这些人类不喜欢的内容,实现模型的有用、真实和无害。广州车展如期举办,CES开 2023-01-02
幕在即,智能车产业链仍是
3)PPO(Proximal Policy Optimization):随机抽取新的样本,用第
计算机投资主线
二阶段的 Reward Model 给产生的回答打分。这个分数即回答的整体
Reward,进而将此Reward 回传,由此产生的策略梯度可以更新 PPO
模型参数。整个过程迭代数次直到模型收敛。强化学习算法可以通过
调整模型参数,使模型得到最大的奖励(Reward),最大奖励意味着
此时的回复最符合人工的选择取向。
本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。1扫码进群领取
1、优质研报免费获取,行业报告定期打包
2、每日推送行业最新深度研报(精选10篇)
3、最新行业报告、公司研究、专业大咖分享
行业周报/计算机
我们认为 ChatGPT 的算法创新主要在于,采用人工标注排序的方式构
建强化学习的奖励模型,从而实现了预训练模型和强化学习的融合。
另一方面,第一阶段 GPT-3 的大模型以及高质量人工标注数据的微
调也促使了模型更加有效。
投资机会:布局 NLP 算法+数据标注+算力设施
从对于 ChatGPT 技术上的分析,我们可以看到自然语言处理技术的持
续迭代升级,对应到当前市场来看,我们认为主要的发展方向和投资
机会在于三个方向:
1)NLP 技术:由于ChatGPT 主要基于自然语言处理,因为在 NLP 领
域沉淀较多的企业有望率先实现功能的部分复现,建议关注科大讯
飞、拓尔思。
2)数据标注:在 ChatGPT 的训练过程中,加大了人工标注的力度和
精度,代表着未来在人工智能领域,优质的数据源和强大的标注能力
将成为行业的基础设施,利好人工智能数据标注企业如海天瑞声。
3)算力设施:我们可以看到ChatGPT 主要源于 GPT-3 的预训练模型,
而 GPT-3 相比于此前的模型,最大的不同在于模型体量的大幅提升,
根据 OpenAI 的数据,GPT-3 的参数量达到 1750 亿个,训练数据量达
到 45TB,而 GPT-2 参数仅有 15 亿个,40GB 数据。因此,我们认为人
工智能的跨越式发展,将成为算力流量消耗的重要驱动力,未来数据
中心和相关的配套产业有望实现更好增长,建议关注润泽科技等。
建议关注
基础工具:普源精电-U、鼎阳科技、坤恒顺维、霍莱沃、概伦电子、
华大九天。
智能汽车:德赛西威、中科创达、四维图新、道通科技、虹软科技、
万集科技。
工业软件:宝信软件、中望软件、中控技术、赛意信息、能科科技、
鼎捷软件。
数字能源:朗新科技、国能日新、南网科技、龙软科技、国网信通、
远光软件。
人工智能:科大讯飞、海康威视、大华股份、奥普特、商汤-W、寒武
纪。
网络安全:深信服、安恒信息、启明星辰、天融信、奇安信-U、信安
世纪。
风险提示
1)疫情加剧降低企业信息化支出;2)财政与货币政策低于预期;3)
供应链波动加大,影响科技产业发展。
本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。2 行业周报/计算机
内容目录
1. 本周行业观点 .............. 4
2. 市场行情回顾 .............. 5
2.1. 本周板块指数涨跌幅 ......... 5
2.2. 本周计算机个股表现 ......... 6
3. 重要行业新闻 .............. 7
3.1. 数字金融 ............ 7
3.2. 网络安全 ............ 7
3.3. 工业软件与数字化转型 ....... 7
3.4. 空天信息化、新兴技术与硬科技 ...... 7
3.5. 智能网联车 .......... 8
4. 重点公司动态 .............. 9
4.1. 基础软硬件 .......... 9
4.2. 基础工具链 .......... 9
4.3. 网络安全与数据安全 ......... 9
4.4. 数字金融 ........... 10
4.5. 智能网联车 ......... 10
4.6. AI 大数据应用 ....... 10
4.7. 医疗信息化 ......... 10
4.8. 数字能源 ........... 10
风险提示: ........... 10
图表目录
图 1. 本周各行业涨跌幅统计 .......... 5
表 1: 本周各类指数行情统计 ......... 5
表 2: 本周计算机个股涨跌幅统计 ............ 6
表 3: 本周陆港通持股情况统计 ....... 6
本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。3 行业周报/计算机
1.本周行业观点
源起:从 GPT-1 到 ChatGPT,商用化进程逐渐开启
从 GPT-1 到 GPT-3.5,模型持续迭代。GPT(Generative Pre-Trained Transformer)系列是
OpenAI 公司的一系列预训练模型,通过 Transformer 为基础模型,使用预训练技术得到通用
的文本模型。目前已经公布论文的有文本预训练 GPT-1,GPT-2,GPT-3,以及图像预训练 iGPT,
而 ChatGPT 和今年年初公布的 InstructGPT 是在 GPT-4 之前发布的预热模型,也被叫做 GPT-
3.5。ChatGPT 和 InstructGPT 在模型结构,训练方式上都完全一致,即都使用了指示学习和
人工反馈的强化学习来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。与
之前的模型相比,ChatGPT 做到了在内容生成上的有用性,真实性和无害性,实现了算法和
用户体验上的创新。
微软全线产品整合,ChatGPT 开启商用化进程。OpenAI 公司宣布推出ChatGPT 的新订阅计划,
起价为每月20 美元,可以享受更快的响应时间和优先访问。2月 2 日,微软 CEO 宣布继搜索
引擎必应、Office 办公软件之后,将在云计算平台 Azure 中整合 ChaGPT,标志着微软有望实
现 ChatGPT 在全线产品中的整合。我们认为 ChatGPT 的商用化进程逐渐开启。
技术:预训练模型+人工精标+强化学习,实现NLP 技术创新
从技术角度来看,ChatGPT 的模型实现主要分为三个步骤,合称为 RLHF(Reinforcement
Learning by Human Feedback)技术:
1)SFT(Supervised Fine Tuning):基于 GPT-3 的预训练模型,采集新的数据用 GPT-3 的训
练方式对模型进行微调,这些数据一部分来自使用 OpenAI 的 PlayGround 用户,另一部分来
自 OpenAI 雇佣的 40 名标注工(labeler);
2)训练 RM(Reword Model):在采样的输入语句中,进行前向推理获得多个模型输出结果,
通过人工标注进行这些输出结果的排序打标。最终这些标注数据用来训练Reward 奖励模型。
通过人工标注的方式来提供这个奖励,可以给那些涉及偏见的生成内容更低的分从而鼓励模
型不去生成这些人类不喜欢的内容,实现模型的有用、真实和无害。
3)PPO(Proximal Policy Optimization):随机抽取新的样本,用第二阶段的 Reward Model
给产生的回答打分。这个分数即回答的整体Reward,进而将此Reward 回传,由此产生的策
略梯度可以更新 PPO 模型参数。整个过程迭代数次直到模型收敛。强化学习算法可以通过调
整模型参数,使模型得到最大的奖励(Reward),最大奖励意味着此时的回复最符合人工的
选择取向。
我们认为 ChatGPT 的算法创新主要在于,采用人工标注排序的方式构建强化学习的奖励模型,
从而实现了预训练模型和强