首页 > 资料专栏 > HRM > 人力资源 > 员工素养 > 北京大学互联网金融情绪指数第二期

北京大学互联网金融情绪指数第二期

北京科锐
V 实名认证
内容提供者
资料大小:1608KB(压缩后)
文档格式:WinRAR
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2018/11/30(发布于北京)

类型:积分资料
积分:10分 (VIP无积分限制)
推荐:升级会员

   点此下载 ==>> 点击下载文档


文本描述
北京大学互联网金融情绪指数
(2017年5月)
王靖一① 窦笑添② ③
摘要:互联网金融,自其作为一个概念被提出,其发展便伴随着
媒体的不同声音。为了能够科学、准确、量化地刻画互联网金融情绪
发展变化的脉络,我们利用近1600万条新闻全文数据,借助自然语
言处理、深度学习等方法,编制了一套覆盖2013年1月至2017年4
月的互联网金融情绪指数,指数包含了对于互联网金融整体与P2P网
络借贷、互联网支付等12个子类的关注度与正负情感的度量。指数
表明,互联网金融的整体关注情况呈现出波动上扬的趋势,而对其整
体的正负情感态度,则振动较为剧烈。而互联网金融各子类,在关注
程度与正负情感态度上,则有着较大分化

关键词:互联网金融、情绪指数、主题模型、词向量模型
2017年5月

王靖一,北京大学国家发展研究院博士研究生 ②
窦笑添,康奈尔大学硕士研究生,北京大学数字金融研究中心助研 ③
本课题为北京大学数字金融研究中心课题《北京大学互联网金融情绪指数》资助下的阶段性成果;作者
感谢黄益平、沈艳、黄卓、谢绚丽、孔涛、王海明、郭峰、鄂维南、任洁、王旭、曹琦、杨雨成、予象、
周伊敏在指数编制过程中的建议与帮助

ii
北京大学互联网金融情绪指数
http://idf.pkuii2017年5月
目录
1.引言 ..... 1
2.关注度指数构建方法 .... 2
2.1 数据准备3
2.2主题过滤及筛选 . 4
2.2.1 朴素过滤器 ........... 5
2.2.2 LDA过滤器6
2.2.3 讨论:为什么不将LDA的结果直接输出作为关注度指数 ........ 9
2.2.4 HDP过滤器介绍 .... 9
2.2.5 LDA归类器 .......... 12
2.2.6 未来扩展:动态主题模型(DTM) ........ 14
2.3关注度指数化 ... 14
3.正负情感指数构建 ..... 15
3.1词向量模型关键词拓展 ........... 16
3.2 情感指数的计算........... 18
3.3 词向量版本的情感描述........... 19
4.主要指数结果汇报 ..... 19
4.1关注度指数 ....... 19
4.2正负情感指数 ... 20
5.展望与扩展:开源 ..... 21
参考文献 ........... 22
北京大学数字金融研究中心简介 .......... 24
iii
北京大学互联网金融情绪指数
http://idf.pkuiii2017年5月
图表目录
图表 1 关注度指数计算流程图 . 3
图表 2 数据准备阶段流程 ......... 3
图表 3 主题过滤及筛选流程 ..... 5
图表 4 LDA模型示意 ...... 7
图表 5 一个LDA模型的结果示例 ......... 8
图表 6 中国餐厅过程 ... 10
图表 7 中国餐厅集团过程 ....... 11
图表 8 HDP结果11
图表 9 LDA归类器识别了支付子类下的不同主题 ..... 13
图表 10 动态主题模型 . 14
图表 11 关注度指数化 . 15
图表 12 情感指数构建流程 ..... 16
图表 13 CBOW和SKIP-GRAM模型示意图 ......... 17
图表 14 三层神经网络示意 ..... 17
图表 15 词向量模型,“庞氏骗局”近义词输出结果 ........... 18
图表 16 互联网金融情绪指数-关注度指数 .... 20
图表 17 互联网金融情绪指数-正负情感指数20北京大学互联网金融情绪指数
http://idf.pku12017年5月
1.引言
互联网金融,自作为一个独立概念,在四十人论坛2012年年会被谢平提出,
其发展过程始终伴随着来自不同源头、秉持不同态度的声音。互联网金融得益于
信息技术,其发展速度远超传统金融,据北京大学互联网金融发展指数度量,在
2014年1月至2016年3月期间,增长了4.3倍(郭峰等(2016));而同时,截
止至2015年11月,累计爆发问题的P2P网贷平台较2012年之前的数字增长了
72.31倍,而《网络借贷信息中介机构业务活动管理暂行办法》中提出的监管框
架似不能有效解决P2P网贷所 面临的问题(黄益平等(2016))。这些负面新闻
的密集出现,则令公众对于互联网金融产生了质疑,甚至大有“污名化”之势

另一方面,曾建光(2015)的研究则发现,公众可以有效地通过信息化手段,感
知网络安全风险,而公众对于风险的规避,则影响了互联网金融资产的价格。互
联网金融的发展情况,与对应的新闻报道的舆论情绪间的相关分析,对于学术界、
政府与业界均有较高的价值

然而,截至目前,虽然互联网金融发展情况有大量的结构化数据与指数可以
度量,但对于新闻报道这种非结构化信息,尚无一个有效的量化分析。故此,我
们编制了本北京大学互联网金融情绪指数(下简称情绪指数),以资后续研究

为使所得数据具有足够的覆盖广度与稳健性,我们收集了2013年1月1日,
至2017年4月30日,1594万余条新闻数据,原始数据规模逾500GB,数据来源
为和讯网①。虽然和讯网自身对于新闻有所分类,并且“互联网金融”单独成类,
但数据收集整理过程中我们发现,这一分类存在着较大的遗漏,例如在2013年
10月25日之前,“互联网金融”类目下不存在任何新闻,我们分析中的一个重
要环节,便是重新在全部新闻中寻找“互联网金融”相关新闻,并将其归类到互
联网金融几个子类之中

分析方法上,我们主要使用了Baker et al. (2015)构建经济政策不确定性
指数时使用的关键词查找法,自然语言处理中较为经典的隐含狄利克雷分布(LDA)
和层次狄利克雷过程。综合使用这三种算法,我们在数据处理能力和算法精度间

作者本人与所在单位与和讯网无合作关系或直接利益关系,选择其作为数据来源,是综合考虑新闻覆盖
广度、报道专业性、收集处理可行性的结果,数据获得方式为友好、无欺诈的爬虫。作者仅保证对于和讯
网目前公开、正常网页的完整准确采集,而对于和讯网收集过程中的完整、准确则无法做出相应承诺。采
集时间为2016年6-7月,此间部分过去时间的网页已无法正常访问,对于这部分网页的缺失原因与缺失带
来的影响,作者无法准确度量,但缺失数量小于样本总体的0.1%。北京大学互联网金融情绪指数
http://idf.pku22017年5月
找到一个较为适宜的平衡。随着本文所使用开源工具Gensim①的发展,未来还会
引入动态主题模型(DTM)

文章后续安排如下,第二节介绍指数的指标构建方法,第三节汇报指数的主
要结果,并做出初步分析

2.关注度指数构建方法
情绪指数的目的,是以度量互联网金融及其重要组成部分,在不同时期的受
关注情况;同时,描绘新闻媒体对于它们的正负评价情况。那么,构建工作其实
可以分为三个步骤,第一步,从1400万条新闻中,寻找互联网金融相关的新闻;
第二步,将这些新闻归类至互联网金融的不同子类中;第三步,构建对新闻的正
负情感的量化描述

其中,前两步对于指数的正确性有着很重要的影响,在近1500万各色新闻
中寻找互联网金融这样一个不算主流的主题,并进一步区分至各个子主题,要求
算法一方面能够高效处理大量数据,另一方面在一定规模的数据量的计算中,收
敛至一个较为精确的结果,为此我们设计了一套如图表1所示的流程

2.1 朴素过滤器2.2 LDA过滤器2.3 HDP过滤器2.4 LDA归类器
1.数据准备2.主题过滤及筛选3.关注度指数化
指数化
关注度指数
归类文档库
HDP过滤器朴素过滤器爬虫抓取文档解析
分词
文档库
新闻网站
专业词库
补充订正
...
50 主题
300主题
池化器
20主题
30主题
...
110主题
池化器
120主题

http://radimrehurek/gensim/
。。。以上简介无排版格式,详细内容请下载查看