文本描述
摘要
由于信息技术的迅猛发展,人们在生活中可w轻易地获取海量的动态网络
数据,但这也使得他们很难快速地寻找到能够解决棘手任务的最有用信息。在
高等教育领域,导师选择是学生开启他/她的研究生学术生涯之前的首要任务。
现有的相关研究表明,选择一个合适自己的导师对于送个学生未来的学术生涯
是极其重要的。
随着技术的改进,人们可W通过捜索引擎的方式来寻找自己需要的信息,
但是,这种方式的有用性是基于用户很明确地知道自己所要捜索的信息的关键
词这个假设前提的。在学生选择导师的情境中,大部分学生由于经验不足,是
不确定应该要捜索怎样的信息的,是对信息没有明确方向感的。他们在做选择
的过程中,主要面临着两大挑战:信息不完全和信息不对称。首先,传统的选
择方式都是在信息不完全的情况下进行的,这样的选择结果可能并不是最优的
选择;其次,学生通常都是利用捜索引睾找到潜在导师所在学校的个人主页,
进而参考相关信息,但是,送种信息不对称的方式使得学生只能获取部分的信
息,这些信息也并没有及时地更新,在这样的情况下会导致学生盲目的选择,
产生不匹配现象,进而会影响学生的学术成就。因此,本研究旨在科研社交网
络的平台基础上,从推荐的角度提出一套智能方法来解决这个具体问题.主动
地为有需要的学生推荐符合其特征的潜在导师,起到辅助决策的作用。
在已有的关于导师选择的研究中,主要提出的方法可W归结为兰类:第一
种是基于主题相关的方法,第二种是基于候选人质量的方法,第H种是賴合了
前两种的混合方法。Alarfaj,Kruschwitzetal.(2012)提出了一种基于信息检索技
术的解决方案,利用从导师发表的论文成果中抽取的关键词来表征这个导师的
学术特征。学生可W通过系统检索到感兴趣的导师,方法中主要通过计算学生
所敲入的检索关键词和导师的特征关键词的相似度来进行结果排序。Mosharraf
和Taghiyareh(201巧利用优化的传统方法,将学生导师选择的问题映射成为一
个优化问题,进而,作者基于遗传算法提出了适用于解决学生导师选择这一问
题的方法。后来,作者设计了一个名为ADAM的系统,它可L乂在一个学校范围
内为学生提供潜在导师选择的服务。Ray和Marakas在他们的学术研究中,首
先进行了问卷调査学生在考虑导师选择时比较注重的因素。进而,提出了一种
基于AHP的方法,帮助学生在有限的集合里选择自己感兴巧的毕业论文指导教
师。Momeni,Samimiet沁(2011)为了巧免AHP方法中涉及到的辅助决策的指
标必须互相独立的假设前提,提出了基于ANP的解决方案。通过让学生自己来
比较指标之间的重要性的过程,最终确定在方案中的每一个指柄的权重。Datta,
Berihaetal.(2009)在MCDM方法的基础上提出了一个策略方案,考虑了待选
择的导师所发表的论文、获得的项目W及导师信誉等,为了评估候选人的质
量,作者采用了从灰色关联分析改编而来的COPRAS-G方法。
通过文献综述可W发现,在已有的基于主题相关的方法中,采用的是直接
的关键词字面匹配的方法,这会导致匹配失衡现象,本文采用考虑关键词
的语义相似度的相关度分析方法。在己有的方法中,一些方法只局限于考虑待
选择人选的单方面衡量指标,另一些方法融合考虑了关键词相关度和候选人质
量度。但是现有的方法存在一定的不足,并没有一个体系的方法来全面考虑送
个特定问题,比如忽略了两个个体之间个性匹配的重要性,研究表明性格的匹
配会影响两个人的有效沟通和合作,学生导师关系并不是一段短暂的一次性合
作机会,而是长期的至少H四年的相处关系,所W在本研究所提出的系统性方
法中将会考虑这一点。其次,本文还加入了两个个体之间连接度的考虑,分别
从机构层次连接度和个体层次连接度进行衡量。
本文提出了一种个性化的导师智能推荐方法,用于在科研社交网络上为有
需求的学生推荐适合自己个人特征的导师。总体上,本文提出的方法包當了两
个主要阶段,分别为过滤阶段和排序阶段。首先,在过滤阶段中,利用相关度
分析在初始阶段筛选排除研究领域等学术信息方面不相关的候选人。相关度分
析主要是测量给定的学生和潜在的导师之间在学术信息方面的匹配度,这里的
学术信息包括了研究兴趣、领域专长、W及知识背景等。本文利用基于学科监
督的语义相关度匹配的方法来计算相关度分值。第二,在排序阶段中,由初始
阶段产生的初步候选集合将在这一阶段基于科研分析框架来进行进一步的连接
度分析和质量度分析,W及性格匹配度分析。连接度分析结合了个体层次的社
交连接度分析和机构层次的合作连接度分析。质量度分析是导师候选人为中
必的,从他/她已发表的论文和己受资助的项目方面对导师进行产出度的数量和
质量的衡量。除了传统的质量分析指标外,本文的质量度分析也融入了候选人
在科研社交网络上的社交关注度巧量。此外,己有研究表明性格匹配程度会影
,巧两个个体之间的有效沟通,所W,本文在排序阶段中,通过个性匹配的过程
对候选人进行又一维度的分析。本文借鉴也理学方面已有研究成果中所提出的
浓缩版的个性分析量表,通过问卷来获取学生和导师在各个性格维度的相关数
据,进而根据距离公式(Deza2009)来进行个性匹配度分析。最后,为了产生
最后的候选人排序列表,需要融合分别从四个维度得到的不同分值。本研究采
用基于分值的巧合方法,即Comb^MNZ算法。针对每个给定的学生,通过这个
过淀排序过程都会得到一系列的待推荐候选人。通常,在科研社交网络上,系
统会给每个特定用户推荐排序前几名的科研人员。
在具体算法上,在相关度分析方面,本文主要融合了两方面的信息。一方
面,根据教育部学科分类体系标准,形成学科分类树,采用分类树方法(Li和
Shki,2002)计算学生所在的专业与导师所在的学院的巧配度。另一方面,基于
每个人的科研相关信息,分别对学生和导师进行特征提取和建模,其中,导师
的科研信息包括自填的研究领域、发表的论文信息(主要为题目、关键词和摘
要信息)和教过的课程信息,同时,学生的科研信息包括自填的研究兴趣、发
表或者感兴趣的论文信息W及通过的课程信息。通过特征提取过程,利用
Quattrone,Capra等学者的研究成果,通过自然语言处理技术建立一个关键词-文
本的矩阵,其中每个元素代表的是关键词在这个特定文本的词频,进而,利用
迭代算法构建出关键词矩阵,在这个矩阵中每个元素代表了两两关错词之间的
.相似度。通过这样的过程来进巧有学科监督下的语义相关度分析,从而在巧始
阶段就过滤掉不相关的候选人,产生初始候选集合。
在连接度分析方面,主要考虑的是给定的学生和潜在待推荐的导师之间在
个体层次和机构层次的连接值。首先,基于科研社交网络上的好友关系网络挖
掘学生和导师之间的个体层次的社交连接度。一方面,考虑两个个体之间的共
同好友数量;另一方面,挖掘连接这两个个体的最短路径,通过文中所给的综
合考虑这两方面的算法计算个体层次的化交连接度分值。另外,基于论文成果
的机构间合作网络,挖掘该学生所在的学校和导师所在学校的机构层次的合作
连接度,通过计算两个机构之间合作的成果数量占两机构分别的成果数量总和
的比例,来表示两个个体在机构层次的连接度。最后,线性融合这两方面的标
准化分值来代表连接度维度最后的分值。
在质量度分析方面,测量了待推荐导师的科研产出度。传统上,科研产出
度一般考虑科研人员所发表的文章的数量和质量,W及受资助项目的数量和等
级方面的信息。在论文方面,通过JCR的期刊分区情况,将论文期利分为了四
个区域等级,系统记录科研人员发表的论文所在的不同分区信息,通过AHP方
法对不同区域等级賦予了相应的权重,最后得到候选人在论文方面的得分。在
项目方面,通过W往研究,将项目分为了国家级、教育部、省级W及市级四个
类别,同样通过AHP方法对不同类别巧予了相应的权重,最后得出该候选人在
项目方面的分值。本文,在这两个传统指标的基础上,补充考虑了科研人员在
科研社交网络中的社交关注度,通过挖掘科研社交网络中用户的相关社交活
动,主要涉及了与所发表的论文W及所资助的项目相关的社交行为,比如在科
研社交网络中用户的赞、分享、评论W及将感兴趣科研对象收藏起来的社交行
为数量。
在个性匹配分析方面,本文借鉴了私理学领域学者的研究成果,IPIP量表
(InternationalPersonalityItemPool)是最典型的用于测量个性的量表(Goldberg,
1999)。出于实际应用中的便利性考虑,Donnellan,Oswaldetal.(200巧基于IPIP
提出了一个简化的量表,称为Mini-IPIP,由20个简短的题项组成的。总共分
为五个维度(extraversion,agreeable。的S,conscientiousness,ne肚oticism,和
imagination)。因此,每个用户的个性方面都可W被表征为一个五维的数值向
量。接着,通过距离公式计算两个个体之间的个性匹配程度。
最后,在得到了四个维度的不同分值之后,本文采用一种基于分值的融合
算法,即Comb-MNZ方法,来集成四个维度的分值,得到最终的推荐列表。每
一个特定的学生都将得到排名前几名的个性化导师推荐服务。
为了验证所提出的导师智能推荐方法,本研究进行了一个基于科研之友注
册用户的在线调査实验。首先,根据在现有文献中己有的导师选择方法,定义
了兰种基准