文本描述
爆红出圈的AI聊天机器人chat GBT背后的研究实验室OpenAI,正在以收购邀约的形式出售现有股份,估值高达 290 亿美元,在没有收入和利润
的情况下,成为最值钱的美国出场公司之一。
我们认为这一个事件可能是 AI 时代资本定价的一个标杆事件,商业价值已经获得了全球资本的高度认可。
Q:拓尔思公司发展的背景和场景应用?
A:公司曾于1993年成立是全球的中文检索的创始者,公司成立之初,主要的技术方向围绕着中文全文检索,第一批用户主要是媒体用户。
1997年获得过国家科技进步二等奖,电子部科技进步一等奖。
2000 年到 2011 年阶段,公司核心技术是基于检索技术,开发智能内容的管理。
2007年我们启动了核高机的非结构化数据系统的研究专项。
拓尔思是作为第一家大数据公司上市A股,公司持续在自然语言处理技术上做研究。
语音智能是公司的核心技术的发展场景。
NLP自然语言处理的技术在各个场景中的应用上,我们不断进行深入的拓展。
治安语言处理在整个搜索引擎、智能客服,舆情分析还有内容处理方面。
通过持续的打造,形成了我们每个板块深度应用场景,同时打造了一批属于公司专属的软件平台,这一块是我们业务收入的增长,基于我们对各个
场景应用的熟悉,为用户输出了大量的、有时效的应用效果。
拓尔思公司所有的人工智能应用来自于公司对各种算法模型的积累。
在A股市场横向比较,在诸多的公司里,我们真正掌握了大量数据资产。
2000多台服务器分布在全国的三个数据中心,每天日增1亿条的开源的互联网的数据,公司已经积累了将近1300亿条的开源的数据资产。
因为有了数据资产,我们才能做各种各样的训练模型,才能够积累算法。
公司已经积累了 300 种以上的算法,并且对每个场景,如知识图谱的展现、知识库的建立档案、包括前期数据采集、数据的标引,关于数据要素
的环节,我们都有自己以完全知识产权的软件平台。
搜索引擎是公司自然语言处理的核心应用技术,公司30年以来坚持这方面的积累。
在全国大量企业级的搜索都在用 ELSG 的设计 spark开源软件的时候,公司完全做到了自主可控,应用到政府、金融,包括媒体等诸多行业。
公司数字经济研究院目前主要研究方向是人机对话,公司近几年在智能问答,围绕着像中国中医科学院的中医中文问答,中国标准化研究院的国家
标准的问答,人民卫星出版社的小 a 机器人,时代经济出版社的审计问答、吉林政务的小机智能机器人等。
除此之外,公司围绕着知识图谱事件分析,包括机器人自动写作、智能内容创作,我们都有多个成功的案例。
公司研究人员对于整个 OpenAI过去、现在和未来进研究。
结合公司的技术沉淀的事实和对场景应用研究,未来的展望,我们做了系统的梳理。
ChatGPT引领了数字劳动力时代,它将是生产力的第五次革命,在新的一经济时代,用工模式将会快速演变。
目前人员用工模式有全职员工、外包员工、兼职员工三大传统的用工模式。
现在出现了第四种用工模式,即数字化的劳动力,打破了人与机器的边界,依托人工智能技术,包括NLP相关技术,自主完成或者协助人类完成各
种工作,比如前端对客或者员工文案的工作等。
或者中后台运营协同的等工作。
在传统劳动力跟数字劳动力的结合下,通过NLP技术赋能,让传统劳动力爆发出更高效增长力。
根据麦肯锡统计到 2030年,数字化,劳动力市场规模可以达到 1.73 万亿水平。
chat GPT 的火爆,加速推动这个事件。
劳动数字化全面转变核心在于劳动力它的大脑、认知能力跟分析能力决定了数字劳动力是否能够准确的理解人类的任务指令,是否能够高效准确完
成任务。
chatGPT基于人类反馈的强化学习,经过千亿规模的模拟训练,能够有非常好的模型表现,可以融合世界的知识跟规则,使得认知能力跟沟通能
力能够取得接近人的水平。
chatGPT的火爆将增强大众对于对话式的 AI 的信心。
我们会有更多的研究来加入行列,推动整个对话式的 AI 的发展。
对话式AI方向大概分成四类,一类是信息查询类的,用户可查询企业相关信息,相当于我数字化劳动力能够替代枯燥重复性的劳动。 扫码进群领取
1、优质研报免费获取,行业报告定期打包
2、每日推送行业最新深度研报(精选10篇)
3、最新行业报告、公司研究、专业大咖分享另一类是专家咨询类,相当于数字劳动力能够替代部分或者扩充资源稀缺的劳动力。
数字化劳动力需要大脑赋能。
第三类是助手类,数字化劳动能够帮助人类去完成任务,帮订机票,帮预定会议等。
相当于数字化劳动力能够帮助人类高效完成某些任务的动作。
第四类是交流类的,数字化劳动力能够满足人类情感交流的需求,情感的陪伴,或者闲聊的场景等。
在第一个场景精力查询类应用的比较多,比如智能客服机器人,零售,电商银行等售前信息的查询,是通过数字化劳动力去替代重复枯燥的人类的
活动,是降本增效。
专家咨询类是NLP,加上世界知识,行业知识,为企业打造企业咨询。
比如在法律咨询市场,根据司法部数据显示,全国办理各类的法律事务事件大概是1300,相当于我们涉及到诉讼或者是非诉讼的大概 1300 万
件。
按照中国的律师平均费率是大概一个小时2788,每个案件平均服务时长十小时来算,整个法律的咨询的总体市场规模达到 3600 个亿。
我们要把法律相关的知识形成一种企业的大脑,能够对外赋能,涉及到怎么去利用知识构建复杂的知识体系。
第三个场景是助手类,很重要的一点是智能创作,如直播文案,广告文案的生成,剧本的创作。
智能创作整个市场,主要分成几个,数字资讯类、数字营销类、行政办公类的。
18 年各级的网信办审批的互联网信息、新闻信息服务单位总共有 700 多家。
在主要的门户资讯,微信公众号,总量大概 2100万,活跃账户有350万,每年SaaS软件一年3000块,这种报价来算,总体规模在120 个亿。
数字营销类每年全球的广告支出蛮高的,Emaster数据显示,18 的全球广告支出高达 6000 多亿美元,使用数字广告占到了 2800 亿美金。
行动办公领域是智能创作的重点挖掘的对象,比如帮你协助,创作,写邮件,写报告等。
按照每个用户付费100,总体规模达到 530亿。
第四交流类,在游戏行业,元宇宙的NPC,给养老机提供大脑。
在医疗里行业里头,提供跟老人的情感陪伴,做主动式的问答,做痴呆式的预防等。
进行情感交流。
卫健委老龄健康司数据显示, 21年我国有1.9 亿的老年人患有慢性病,其中施治人数有 4500 万。
这类人群对健康护理的需求很大。
在专业护理机构在配置上,轻度失能是 4: 1,要 4 个老人要配一个护理员,中度 3: 1,重度是 2: 1。
按平均来讲 3: 1。
我国的养老护理员的需求量要到 1500 万。
20年我国仅有 50 余万养老护理员,这个缺口超千万。
按照一台护理机器人5万计算,缺口比如替换 50% 整个护理机人的市场规模会到 2500 亿。
Q:chatGPT提升的原因?
A:加入了人类的反馈系统,第一步人类做的方案模型进行微调,得到模型。
第二步模型根据问题生成答案,训练出奖励模型,这个奖励模型给第三步打分,相当于输入奖励模型,得到分数。
优化,不断的迭代。
目前的是问题它是非实时模型,离线模型,它获取到的知识是 21年。
21 年以后的数据就不知道了。
因此无法保证结果的可靠性,他会编造事实,一本正经地胡说八道。
而且只能返回文本的信息。
缺乏对行业数据的积累。
它只是通用模型。
并且训练成本过高,chatgpt训练的大概的预估成本在 1200 万美金以上。
它的运行成本也很高。首先拓尔思有着来自境内外的各行各业的数据市场,超过 1200 个亿,已经具备千亿数据索引等。
这些是我们的核心资产,在大数据量的前提下,我们能够大力出奇,足够多的数据,模型有非常好的表现。
其次拓尔思技术的沉淀,坚持核心自主的研发,实现国产化,拥有 40 +发明专利,800 的软件的著作权利。
另一个是客户的沉淀,整个数据的产品和服务已经被国内外超过 1 万家的企业级的用户在广泛的使用。
智能客服基本是基于检索式,基于数据库,我们有深度模型,去库里检索答案,返回给用户。
Chatgpt的思想是基于大模型,我们有排量数据去训练模型出来,再加入人类反馈的数据,就能够提供更优质的对话体验。
第二点,我们需要行业深耕,chatgpt是一个通用模型,缺乏对行业客户、行业知识的了解,而我们对行业是非常了解的。
我们未来会让对话式的 AI 等这种人工智能技术跟行业客户的业务流程更深度融合,从局部业务到全场景的覆盖,实现全业务的数字化、智能化。
我们会持续的在行业中不断的累加场景,深耕场景,解决核心业务的。
从长远来看,拥有更好的数据,我们更有利于微调大模型,这样公司可以创造出一条可持续护城河。
Q:chatGPT可以对自己不懂的内容胡编滥造,那么目前技术发展路径如何保证AI回答模式的准确率呢?
A:目前整个智能客服处在比较成熟的阶段,所采用的技术基于线索式,它保证了所有的回复都是从库里去拿出来回复给用户。
Chatgpt基于生成式的回答给用户,它比较难保证回复的准确性。
我们在后续的训练跟维护的过程增加规则和安全检测的模块进到系统,能够保证异常条件下规避掉这些问题。
Q:从公司的视角以及包括整个产业发展趋势来看,4个场景哪一块是最先有可能形成商业化的落地?
A:几个点都有可能。
一是专家咨询类的,实际上相当于是企业大脑的角色,需要把我这些行业的知识变成企业的大脑,变成模型的知识,ChatGPT证明了在一些大模
型有比较好的表现。
二是在智能创作,助手类的,公司能够去高效地提升智能创作的水平,ChatGPT的一些文本生成已经能够满足创作者它的大部分的需求,能够去
帮助创作者生成初级的版本,一些创作者在上面再去继续修改,在直播文案的生成、广告文案的生成、基本创作等等有比较好的效