==>> 点击下载文档 |
关键词:供应链金融;数据挖掘;风险控制;信息增益分析;特征属性
中圈分类号:白70文献标i只码:A
1 供应链金融风险分析
供应链金融是近年来金融机构针对供应链
上下游企业提供的一种全新的金融业务。该业务主
要围绕供应链上某1家核心企业,将供应商、制造
商、分销商、零售商、直到最终用户连成一个整体,全
方位地为链条上的N个企业提供融资服务,通过
相关企业的职能分工与合作,实现整个供应链的不
l断增值,因此,它也被称为1+ N模式[1-2J。这种
融资模式站在产品供应链的全局高度,为整个供应
链提供综合的金融服务,既解决了企业特别是中小
企业长期以来存在的融资困扰,又延伸了金融机构
的纵深服务,具有广阔的发展前景[3叫
这项业务对金融机构也存在一定的风险。从业
务服务对象即N个企业来看,风险主要是来自这
1家核心企业上游的供应商还款风险和下游的经
销商还款风险。本文选择经销商还款风险作为供应
链金融的主要风险,是因为从申请融资的对象看,主
要是生产商和大型的批发商。从实际的授信的对象
看,不是生产商而是与其相关的一系列经销商。换
言之,银行与生产商之间的合作是一种战略联盟,而
真正需要融资的是各个经销商[5]。在具体操作过
程中,商业银行先针对生产商推荐的各个经销商进
行逐个的资信调查,以客观、合理地分配授信额度
然后经销商利用银行融资进行批量订货,以便得到
商业折扣,销售回笼资金再存人商业银行,用于偿还
银行的融资本息。如果经销商无法完成销售导致无
法偿还借款,银行将按照法定程序处分抵押物,处分
的款项用于偿还银行的融资本息。如果前者大于后
者,银行将退还多余资金给经销商;如果款项少于本
息,银行将继续追索经销商。由此可见,供应链金融
风险主要是来自经销商的还款风险。因此,识别不
同还款能力经销商,对控制供应链金融风险具有重
要意义
数据挖掘是一种新的商业信息处理技术,其主
要特点是对商业数据库中的大量业务数据进行抽
取、转换、分析和其他模型化处理,从中提取辅助商
业决策的关键性信息[6]O随着信息化的普及和第
三方物流的发展,许多大型物流公司积累了大量经
销商的相关数据信息,分析、利用如此海量的数据,
正是数据挖掘技术的用武之地。在这一方面,国内
学者已经做了许多工作,陈安等[7J陈述了把数据挖
掘技术应用到供应链管理中去的意义;陆锦洪、陈畴
铺[8J把数据挖掘方法用于供应链合作伙伴的选择
上,在选取评价指标和计算权重系数后用聚类分析
和神经网络方法来做资料处理;供应链金融由于是
一项较新的金融业务,相关的理论研究相对较少,本
文利用描述性数据挖掘给出低还款能力(以下称为
高还款风险)经销商的特征属性,为金融机构进行
风险控制提供参考依据
1 具有高还款风险经销商的特征属性
识别
数据挖掘一般可以分为两类:预测性挖掘和描
鉴稿日期:2∞7-10-26
金项目:江西省教育厅科技资助项目(赣教技字[2∞7]118)
作者简介:谢江林(1966-),女,博士生,副教授.*通讯作者:何宜庆(1963-),男,教授,博士生导师.E-mail: hyq991@
163.con
.279. 谢江林等:数据挖掘在供应链金融风险控制中的应用第3期
2.3 属性相关分析
表中收集的属性包括销售地点、销售方式、经销
表2经销商基本倍息表
经销商企银行资销售业注册资还款
业规模信等级绩/万元本/万元风险
中型A 2∞ 70 低
低
高
高
低
高
高
高
低
高
高
高
1∞
70
却
到
ω
80
nununununU OY
A斗
句3
A斗
句,
&
川
旧
∞
∞
'z·
句、d
鸣,
,&
1∞50
150
6010BCB
A
DBCAB
A
A
大型
小型
中型
大型
中型
小型
大型
大型
中型
小型
小型
销售销售
地点方式
福建区域
网络/江西
电话
江西区域
上海售前
湖北售前
网络/福建
电话
网络/江西
电话
售前
售前
区域
区域
售前
京
京
北
北
海
南
南
湖
湖
上
商企业规模等,然而并非所有儒性都和还款风险
相关,即不一定都是造成%学风险较高的原因,
采用信息增益方法能找出弱相关或不相关属性,为
特征属性选择提供可靠依据
2.3.1 信息增益度量为便于讨论,我们先
给出信息增益度量的数学表示[9J
假设S是训练、样本集,其中每个样本的类标号
是已知的。事实土,每个样本是一个元组,一个属性
用于确定训练样本的类。例如还款风险可以用于定
义每个样本的类标号或者是低或者是高。假定
有m乍类,设S包含Si个Ci类样本,i= 1,2,…n
一个任意样本属于类Ci的可能d性是S/S,其中s是集
合S中对象的总数。对于一个给定样本分类所需的
期望信息是:
札52,,sm)=-豆子l咱
具有值iα[,吧,…,av~的属性A可以用来将S
划分为子集jS[ ,S2'…,Sv f ,其中乓包含S中A值为
吨的那些样本。设鸟包含类Ci的Sij根据A的这种划
分的期望信息称作A的情。它是加权平均:
E(A) = 土S[j+句:+S呵札S2,',Sm)
述性挖掘。预测性挖掘在当前数据库上进行推断,
以进行预测。描述性挖掘则刻划数据库中数据的一
般特性,并将挖掘结果以简洁概要的方式进行描述,
提供数据的有趣的一般性质。概念描述是描述性数
据挖掘中最常用的类型,它产生数据的类特征描述
在描述性数据挖掘中,为确定哪些属性应当包含在
类特征分析中,通常采用维相关分析方法[9J。采用
描述性数据挖掘方法挖掘具有高还款风险经销商的
特征属性,主要包括以下几个步骤:
(1)收集日标类数据;
(2)通过属性删除和概化进行预相关分析;
(3)使用选定的相关分析度量,删除弱相关或
不相关属性;
(4)合并元组;
(5)结果映射
2.1 收集目标数据
由于要考查的是具有高度还款风险经销商的特
征属性,因此,目标类数据由经销商的集合组成。以
软件销售公司为例,所收集的软件经销商分处于五
个不同省市,收集、整理所得数据库的主要属性见下
表1:
经销商基本信息数据库字段表
销售方式
销售季节
银行资信等级
销售业绩
还款风险
取值
省份/城市名
50万以下、50万以上,1∞万以
下、100万以上
大型、中型、小型
区域销售、售前销售、网络/电话
销售
春、夏、秋、冬
A、B、C
按合同价格计算,单位万元
高、低
经销商企业规模
字段名
销售地点
表l
注册资本
、‘,
,,
··且,,E飞
、
(2)
则A上该划分获得的信息增益Gain(A),记为:
Gain(A) =/(s[,s2'…,Sm) -E(A) (3)
2.2 预相关分析
在这一阶段可以进行简单的数据清洗工作。2由
于考虑的是一组具有高度还款风险经销商的特征属
性,经销商的名称与特征属性元关,在表l中没有给
出。对于销售季节,并非研究某年的销售'民况,四季
都不可或缺,研究该属性的意义也不大,可以删除该
属性。如果某个属性有大量的不同值,通过考查任
务相关数据中每个属性的不同值的个数,进行概化
操作。经过预相关分析,对于样本集S表2给出了
部分经销商的销售信息:
.280. 南昌大学学报(理科版)2008年
对所求的Gain(A)设定一最小增益阔值,若
Gain(A)小于该设定的阔值,可将属性A视为弱相
关或不相关属性进行属性删除
2.3.2 属性信息增益计算设类CI表示还款风
险=低类C2表示还款风险高根据表2给
出的经销商信息,S分别包含4个CI类样本和8个
C2类的样本,由式(1)可得:
l(sl,s2) = 1(4,8) =土*log2旦+主*log2旦l'~.l/ -, .,~/ 12四4. 12 --0
= 0.918
再由式(2)可计算各不同属性的情:
E(销售地点)=主*队的+主*/(0,3)+
主*/(1,1)+主*川)+主*肌3)= 0.333
E(经销商企业规模=生*1(1 ,3) + 12
土*/(3,1)+土*1(0,4) = O. 12 -,-,-, . 12
E(注册资本)=主*川)+言*队3)=
0.908
E(销售方式)= 0.9045
由式(3)可求得各属性的信息增益:
Gain(销售地点)=0.918 -0.333 =0.585
Gain(经销商企业规模)= O. 918 -O. 541 =
0.377
Gain(注册资本)=0.918 -0.908 =0.01
Gain(销售方式)=0.918一0.905= 0.013
2.3.3 弱相关或不相关属性删除根据信息增益
度量方法,对经销商数据集求出的各属性信息增益
分别为0.585、0.377、0.043、0.013。其中具有高信
息增益的属性是给定数据集中的最优特征属性,如
销售地点。相反低信息增益的属性意味着选择
该属性后,将使得分类信息的情值最大,伴随信息的
不确定性也越大,因而具有弱相关性或不相关性
如销售方式其信息增益度最小,属弱相关性或不
相关属性
设定一个最小信息增益阔值,以此作为依据,对
不相关或弱相关的属性进行删除。如本例中将用于
识别弱相关属性的最小信息增益阔值设为0.05,对
于销售方式和注册资本两个字段,由于其信息
增益分别为0.013和0.01均小于0.05,故可以将