首页 > 资料专栏 > 论文 > 技研论文 > 研发技术论文 > 基于主题模型的网络评论情感倾向分析研究_MBA毕业论文DOC

基于主题模型的网络评论情感倾向分析研究_MBA毕业论文DOC

安全情感
V 实名认证
内容提供者
资料大小:2913KB(压缩后)
文档格式:DOC
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2018/6/24(发布于贵州)

类型:金牌资料
积分:--
推荐:升级会员

   点此下载 ==>> 点击下载文档


文本描述
摘要
基于主题模型的网络评论情感倾向分析研究
摘要
随着网络的普及与迅猛的信息化趋势,互联网上各种平台(电子
商务、影音评论、新闻网站等)产生了海量的由用户创作的评论信息,
这些带有用户的主观态度的文本反映了人们对于评论对象的的看法、
理解和建议等。文本情感分析是以用户发表的评论性文本作为研究对
象,任务是挖掘、分类、提炼、标记这些评论中表达的观点、特征等
情感倾向。这些信息在不管在商业领域、科学领域都具有重要的实际
应用价值和科学价值,如何通过计算机准确、有效地挖掘、利用此类
评论文本中潜在的情感信息,涉及到多方面领域处理技术。这类情感
信息不仅在商家进行库存采购、改进产品等方面提供可靠的决策参
考;从消费者角度来看,它还能在消费者进行购买行为时提供商品各
方面信息,帮助消费者了解商品属性,选择更合适他们的产品

本文主要工作为完成电子商务评论类未标记文本的情感褒贬二
元分类任务,实现评论用户情感倾向的文本正负二向分类。该任务主
要通过计算机对己有情感倾向标记的文本的计算、分析与总结,实现
对未标记文本赋予文本情感倾向标记。如果能够利用计算机自主识
另U,则可高效、准确地对这些文本进行总结归纳,分析出用户对商品
所持态度,或态度表达程度

本文提出一种基于LDA (Latent Dirichlet Allocation)模型与邻近
词抽取的情感分析方法SE-LDA(Sentiment Extract LDA),该方法通过
I
北京化工大学硕士学位论文
抽取情感词与评价对象挖掘出在线用户评论文本中潜在的情感信息

通过邻近词抽取技术降低了文本维度,降低情感无关词语产生的噪声
与数据稀疏问题。通过LDA模型解析文本集合,挖掘出样本中潜在
的主题。利用Gibbs抽样方法解析文本语句可获得文本-主题分布与
单词在主题上的概率分布,并且通过实验结果证明本文提出的
SE-LDA方法分类准确率比不考虑邻近词抽取的方法提升5-10%

关键词:情感分析,用户评论,主题模型
II
Abstract
RESEARCH ON SENTIMENT ANALYSIS OF
E-COMMERCE REVIEWS BASED ON LATENT
DIRICHLET MODEL
Abstract
With the fast expansion of the Internet and information technology,
there are generating amount of E-commerce users’ reviews, these reviews
people’s opinion about the object. Text sentiment analysis use the user’s
reviews as the research object, the task is mining, classification the
information of these text sentiment point. This information has important
practical value and scientific value in the field of business and science.
How to accurately and effectively use the information from the massive
reviews is very important for the business. It can provide effective
suggestions for the purchase and sale to business. And it can provide all
aspects of commodity information to help consumers know more
attributes of the products, choose the right products for them.
In this paper, we mainly focus on the classification of two kinds of
emotions in unlabeled text. If we can calculate the text automatically by
computer, analyze what the user comments positive attitude to the
product, which users express negative attitude, and the positive degree or
hi 北京化工大学硕士学位论文
^
negative degree. We can analysis and calculate the text with emotional
marks to achieve the classification of unmarked text by computer.
This paper proposes an approach called SE-LDA based on Latent
Dirichlet Allocation to extract latent emotional sentiment polarity. This
approach reduces the dimension of the text base on extraction of the
sentiment words and object words. Use the LDA algorithm, calculate the
document-topic distribution and the topic-word distribution. Experiments
show that the proposed approach has outperforms state-of-the-art
techniques in sentiment polarity identification.
KEY WORDS: Sentiment Analysis, LDA, Users’ reviews
iv
gs
目录
m-胃绪论
i
i.i研宄背景与意义l.i.i研究背景1.1.2研宄意义1.2研究现状第二章网络评论的情感分析相关工作2.1电商网络评论2.2文本表示技术2.3分类器技术2.3.1贝叶斯分类器2.3.2最大熵模型2.3_3 SVM 模型第三章网络评论情感倾向分析方法
21
3.1 SE-LDA 模型
21
3.1.1数据预处理
21
3.1.2情感词典
23
3.1.3 SE-LDA评价对象生成规则
24
3.1.4LDA 建模
25
3.1.5分类器分类
29
3.2ST-LDA 模型
31
第四章实验与分析
35
4.1数据搜集
35
4.2实验结果评价方法
35
4.3实验结果与分析
37
V
北京化工大学硕士学位论文
4.3.1分类器选取
38
4.3.2分类结果分析
40
4.3.3评价对象分析
42
4.4 44
第五章总结与展望
47
5.1本文总结
47
5.2工作展望
48
参考文献
51
SCii 55
研究成果及发表的学术论文
57
作者简介
59
VI Content
Content
Chapter 1 Introduction1.1 Background and significance1.1.1 Research background1.1.2 Research significance1.2 Research statusChapter 2 Related work on sentiment analysis of web review2.1 E-commerce reviews2.2 Text representation2.3 Classifier2.3.1 Bayesian classifier2.3.2 Maximum entropy model2.3.3 Support Vector MachineChapter 3 Sentiment analysis algorithm of web review
21
3.1 SE-LDA algorithm
21
3.1.1 Data preprocess
21
3.1.2 Emotion dictionary
23
3.1.3 Object generate rule
24
3.1.4 LDA model
25
3.1.5 Classifier
29
3.2 ST-LDA model
31
Chapter 4 Experiment and analysis
35
4.1 Data collection
35
4.2 Measurement approach
35
4.3 Rresults and analysis
37
VII
北京化工大学硕士学位论文
4.3.1 Classifier analysis
38
4.3.2 Result analysis
40
4.3.3 Object analysis
42
4.4 Discussion
44
Chapter 5 Summary and Prospect
47
5.1 Works summary
47
5.2 Future work
48
Reference 51
Thanks 55
Research production
57
About the author
59
VJll
第一章绪论
第一章绪论
1.1研究背景与意义
1.1.1研究背景
近年来,随着信息技术的发展,互联网技术的应用越来越广泛,人们的购物、
社交、信息获取等生活方式己经逐渐走向信息化,如近年来互联网上出现的微博、
电商网站、新闻网站、社交网站等。这些网站通常会伴随着评论区,非常方便地
供浏览者们自由发表个人对事物的看法。如今越来越多的用户在选择在这些互联
网媒体上发表相关事件看法意见,表达个人主观情感观点。图1-1为亚马逊网站
某商品的部分评论展示,商品购买者可以在该区域创作对商品的主观评价。己购
买者所著评论会成为当前浏览者的获取商品信息的重要渠道

舍食會会^niceitem.
By Amazon Customer on Febatar/ 23; 2017
Color: Black Offer Type: With Special Offers Verified Purchase
Fast shipping, nice item.
Comment Was this review helpful to you ! Yes No ; Report abuse
會食愈食食Five Stars
By rntngal on February 23. 2017
Color: Black Offer Type: With Special Offers Verified Purchase
Exactly what I wanted & needed!
Comment Was this review helpful to you | Vfes j | No i Report abuse
图1-1用户评论
Figl-1 users’ reviews
这些网络商品评论具有良好的结构信息,每条评论的题目、内容、分星与评
论作者等之间都具有潜在关系,这些由用户发表的主观性评论显然蕴藏了巨大的
社会应用价值与商业价值。如何快速且高效地对这些评论进行分析与整理,挖掘
其中潜在的用户主观情感倾向不仅可以帮助消费者获取更全面的商品信息,还可北京化工大学硕士学位论文
以帮助商家更有效的了解用户情感表达、掌握市场需求,从而改善商品质量、获
得市场优势。同时用户所作评论通常携带真实的用户观点表达功能,政府部门可
以利用挖掘分析新闻时政类评论的主观信息,帮助相关政府程掌握民众对时政类
信息的观点舆论倾向,以此为参考建立更合理、更切合民意法律法规,合理实施
舆论倾向控制。用户所发表的评论有多种形式,有音频、视频、文字、图片等,
但发布文字类评价信息仍然是现在多数用户的选择,所以本文主要以文本类评论
作为研究对象。同时互联网中用户评论呈现指数级的速度增长趋势,仅仅是人工
阅读分析总结有价值信息几乎是无法完成的。因此我们迫切需要一种高效率的手
段,能够深入的整理、分析与提取海量数据中蕴藏的潜在价值,从而给政府、商
家以及用户提供直接可视、可用、准确、全面的信息。所以,计算机成为了可以
完成该类工作的工具,配合上数据挖掘、信息检索等相关技术可以高效率的完成
这一类情感信息提取工作

1.1.2研究意义
文本中的情感信息不管是对公众或者商家以及国家政府都有着重要作用。据
统计W有80%的通过电商购买商品用户在购买商品前都会有意的搜寻或者阅读
在线评论,其中79%的人认为这些评价信息对其购买行为产生了影响。
。。。以上简介无排版格式,详细内容请下载查看