金融数学(Financial Mathematics),又称数理金融学、数学金融学、分析金融学,是利用数学工具 研究金融,进行数学建模、理论分析、数值计算等定量
金融数学(Financial Mathematics),又称数理金融学、数学金融学、分析金融学,是利用数学工具 研究金融,进行数学建模、理论分析、数值计算等定量分析,以求找到金融学内在规律并用以指导实践。金融数学也可以理解为现代数学与计算技术在金融领域的应用,因此,金融数学是一门新兴的交*学科,发展 很快,是目前十分活跃的前言学科之一。 金融数学是一门新兴学科,是“金融高技术 ”的重要 组成部分。研究金融数学有着重要的意义。 金融数学总的研究目标是利用我国数学界某些方面的优势,围绕金融市场的均衡与有价证券定价的数学理论进行深入剖析,建立适合我国国情的数学模型,编写一定的计算机软件,对理论研究结果进行仿真计算,对实际数据进行计量经济分析研究,为实际金融部门提供较深入的技术分析咨询。 金融数学主要的研究内容和拟重点解决的问题包括: (1)有价证券和证券组合的定价理论 发展有价证券(尤其是期货、期权等衍生工具)的定价理论。所用的数学方法主要是提出合适的随机微分方程或随机差分方程模型,形成相应的倒向方程。建立相应的非线性Feynman一Kac公式,由此导出非常一般的推广的Black一Scho1es定价公式。所得到的倒向方程将是高维非线性带约束的奇异方程。 研究具有不同期限和收益率的证券组合的定价问题。需要建立定价与优化相结合的数学模型,在数学工具的研究方面,可能需要随机规划、模糊规划和优化算法研究。 在市场是不完全的条件下,引进与偏好有关的定价理论。 (2)不完全市场经济均衡理论(GEI) 拟在以下几个方面进行研究: 1.无穷维空间、无穷水平空间、及无限状态 2.随机经济、无套利均衡、经济结构参数变异、非线资产结构 3.资产证券的创新(Innovation)与设计(Design) 4.具有摩擦(Friction)的经济 5.企业行为与生产、破产与坏债 6.证券市场博奕。 (3)GEI 平板衡算法、蒙特卡罗法在经济平衡点计算中的应用, GEI的理论在金融财政经济宏观经济调控中的应用,不完全市场条件下,持续发展理论框架下研究自然资源资产定价与自然资源的持续利用。 目前国内开设金融数学本科专业的高等院校中,实力较强的有北京大学、复旦大学、浙江大学、山东大学、南开大学。 后来从事计算机工作很出 {MOD}。金融数学将后来在银行、保险、股票、期货领域从事研究分析,或做这些领域的软件开发,具有很好的专业背景,而这些领域将来都很重要。 国内金融数学人才凤毛麟角 诺贝尔经济学奖已经至少3次授予以数学为工具分析金融问题的经济学家。北京大学金融数学系王铎教授说,但遗憾的是,我国相关人才的培养,才刚刚起步。现在,既懂金融又懂数学的复合型人才相当稀缺。 金融数学这门新兴的交叉学科已经成为国际金融界的一枝奇葩。刚刚公布的2003年诺贝尔经济学奖,就是表彰美国经济学家罗伯特·恩格尔和英国经济学家克莱夫·格兰杰分别用“随着时间变化易变性”和“共同趋势”两种新方法分析经济时间数列给经济学研究和经济发展带来巨大影响。 王铎介绍,金融数学的发展曾两次引发了“华尔街革命”。上个世纪50年代初期,马科威茨提出证券投资组合理论,第一次明确地用数学工具给出了在一定风险水平下按不同比例投资多种证券收益可能最大的投资方法,引发了第一次“华尔街革命”。1973年,布莱克和斯克尔斯用数学方法给出了期权定价公式,推动了期权交易的发展,期权交易很快成为世界金融市场的主要内容,成为第二次“华尔街革命”。 今天,金融数学家已经是华尔街最抢手的人才之一。最简单的例子是,保险公司中地位和收入最高的,可能就是总精算师。美国花旗银行副主席保尔·柯斯林著名的论断是,“一个从事银行业务而不懂数学的人,无非只能做些无关紧要的小事”。 在美国,芝加哥大学、加州伯克利大学、斯坦福大学、卡内基·梅隆大学和纽约大学等著名学府,都已经设立了金融数学相关的学位或专业证书教育。 专家认为,金融数学可能带来的发展应该凸现在亚洲,尤其是在金融市场正在开发和具有巨大潜力的中国。香港中文大学、科技大学、城市理工大学等学校都已推出有关的训练课程和培养计划,并得到银行金融业界的热烈响应。但中国内地对该项人才的培养却有些艰辛。 王铎介绍,国家自然科学基金委员会在一项“九五”重大项目中,列入金融工程研究内容,可以说全面启动了国内的金融数学研究。可这比马科威茨开始金融数学的研究应用已经晚了近半个世纪。 在金融衍生产品已成为国际金融市场重要角 {MOD}的背景下,我国的金融衍生产品才刚刚起步,金融衍生产品市场几乎是空白。“加入 W TO后,国际金融家们肯定将把这一系列业务带入中国。如果没有相应的产品和人才,如何竞争?”王铎忧虑地说。 他认为,近几年,接连发生的墨西哥金融危机、百年老店巴林银行倒闭等事件都在警告我们,如果不掌握金融数学、金融工程和金融管理等现代化金融技术,缺乏人才,就可能在国际金融竞争中蒙受重大损失。我们现在最缺的,就是掌握现代金融衍生工具、能对金融风险做定量分析的既懂金融又懂数学的高级复合型人才。 据悉,目前国内不少高校都陆续开展了与金融数学相关的教学,但毕业的学生远远满足不了整个市场的需求。 王铎认为,培养这类人才还有一些难以逾越的障碍———金融数学最终要运用于实践,可目前国内金融衍生产品市场还没有成气候,学生很难有实践的机会,教和学都还是纸上谈兵。另外,高校培养的人大多都是本科生,只有少量的研究生,这个领域的高端人才在国内还是凤毛麟角。国家应该更多地关注金融和数学相结合的复合型人才的培养。 王铎回忆,1997年,北京大学建立了国内首个金融数学系时,他曾想与一些金融界人士共商办学。但相当一部分人对此显然并不感兴趣:“什么金融衍生产品,什么金融数学,那都是国家应该操心的事。” 尽管当初开设金融数学系时有人认为太超前,但王铎坚持,教育应该走在产业发展的前头,才能为市场储备人才。如果今天还不重视相关领域的人才培养,就可能导致我们在国际竞争中的不利。 记者发现即使今天,在这个问题上,仍然一方面是高校教师对于人才稀缺的担忧,一方面却是一些名气很大的专家对金融数学人才培养的冷漠。 采访中,记者多次试图联系几位国内金融数学界或金融理论界专家,可屡屡遭到拒绝。原因很简单,他们认为,谈人才培养这样的话题太小儿科,有的甚至说,“我不了解,也根本不关注什么人才培养”。还有的说,“我现在有很多课题要做,是我的课题重要,还是讨论人才培养重要”、“我没有时间,也没义务向公众解释什么诺贝尔经济学奖,老百姓要不要晓得金融数学和我没有关系”。 [编辑本段]金融中的数据挖掘 1.什么是关联规则 在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。 2.关联规则挖掘过程、分类及其相关算法 2.1关联规则挖掘的过程 关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。 关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。 关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。 就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。 从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。 2.2关联规则的分类 按照不同情况,关联规则可以进行分类如下: 1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。 2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。 3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。 2.3关联规则挖掘的相关算法 1.Apriori算法:使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。 可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。 2.基于划分的算法 Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次多带带考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。 3.FP-树频集算法 针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。 3.该领域在国内外的应用 3.1关联规则发掘技术在国内外的应用 就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。 同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。 但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。 3.2近年来关联规则发掘技术的一些研究 由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。
最多设置5个标签!
金融数学(Financial Mathematics),又称数理金融学、数学金融学、分析金融学,是利用数学工具 研究金融,进行数学建模、理论分析、数值计算等定量分析,以求找到金融学内在规律并用以指导实践。金融数学也可以理解为现代数学与计算技术在金融领域的应用,因此,金融数学是一门新兴的交*学科,发展 很快,是目前十分活跃的前言学科之一。
金融数学是一门新兴学科,是“金融高技术 ”的重要 组成部分。研究金融数学有着重要的意义。 金融数学总的研究目标是利用我国数学界某些方面的优势,围绕金融市场的均衡与有价证券定价的数学理论进行深入剖析,建立适合我国国情的数学模型,编写一定的计算机软件,对理论研究结果进行仿真计算,对实际数据进行计量经济分析研究,为实际金融部门提供较深入的技术分析咨询。
金融数学主要的研究内容和拟重点解决的问题包括:
(1)有价证券和证券组合的定价理论
发展有价证券(尤其是期货、期权等衍生工具)的定价理论。所用的数学方法主要是提出合适的随机微分方程或随机差分方程模型,形成相应的倒向方程。建立相应的非线性Feynman一Kac公式,由此导出非常一般的推广的Black一Scho1es定价公式。所得到的倒向方程将是高维非线性带约束的奇异方程。
研究具有不同期限和收益率的证券组合的定价问题。需要建立定价与优化相结合的数学模型,在数学工具的研究方面,可能需要随机规划、模糊规划和优化算法研究。
在市场是不完全的条件下,引进与偏好有关的定价理论。
(2)不完全市场经济均衡理论(GEI)
拟在以下几个方面进行研究:
1.无穷维空间、无穷水平空间、及无限状态
2.随机经济、无套利均衡、经济结构参数变异、非线资产结构
3.资产证券的创新(Innovation)与设计(Design)
4.具有摩擦(Friction)的经济
5.企业行为与生产、破产与坏债
6.证券市场博奕。
(3)GEI 平板衡算法、蒙特卡罗法在经济平衡点计算中的应用, GEI的理论在金融财政经济宏观经济调控中的应用,不完全市场条件下,持续发展理论框架下研究自然资源资产定价与自然资源的持续利用。
目前国内开设金融数学本科专业的高等院校中,实力较强的有北京大学、复旦大学、浙江大学、山东大学、南开大学。
后来从事计算机工作很出 {MOD}。金融数学将后来在银行、保险、股票、期货领域从事研究分析,或做这些领域的软件开发,具有很好的专业背景,而这些领域将来都很重要。
国内金融数学人才凤毛麟角
诺贝尔经济学奖已经至少3次授予以数学为工具分析金融问题的经济学家。北京大学金融数学系王铎教授说,但遗憾的是,我国相关人才的培养,才刚刚起步。现在,既懂金融又懂数学的复合型人才相当稀缺。
金融数学这门新兴的交叉学科已经成为国际金融界的一枝奇葩。刚刚公布的2003年诺贝尔经济学奖,就是表彰美国经济学家罗伯特·恩格尔和英国经济学家克莱夫·格兰杰分别用“随着时间变化易变性”和“共同趋势”两种新方法分析经济时间数列给经济学研究和经济发展带来巨大影响。
王铎介绍,金融数学的发展曾两次引发了“华尔街革命”。上个世纪50年代初期,马科威茨提出证券投资组合理论,第一次明确地用数学工具给出了在一定风险水平下按不同比例投资多种证券收益可能最大的投资方法,引发了第一次“华尔街革命”。1973年,布莱克和斯克尔斯用数学方法给出了期权定价公式,推动了期权交易的发展,期权交易很快成为世界金融市场的主要内容,成为第二次“华尔街革命”。
今天,金融数学家已经是华尔街最抢手的人才之一。最简单的例子是,保险公司中地位和收入最高的,可能就是总精算师。美国花旗银行副主席保尔·柯斯林著名的论断是,“一个从事银行业务而不懂数学的人,无非只能做些无关紧要的小事”。
在美国,芝加哥大学、加州伯克利大学、斯坦福大学、卡内基·梅隆大学和纽约大学等著名学府,都已经设立了金融数学相关的学位或专业证书教育。
专家认为,金融数学可能带来的发展应该凸现在亚洲,尤其是在金融市场正在开发和具有巨大潜力的中国。香港中文大学、科技大学、城市理工大学等学校都已推出有关的训练课程和培养计划,并得到银行金融业界的热烈响应。但中国内地对该项人才的培养却有些艰辛。
王铎介绍,国家自然科学基金委员会在一项“九五”重大项目中,列入金融工程研究内容,可以说全面启动了国内的金融数学研究。可这比马科威茨开始金融数学的研究应用已经晚了近半个世纪。
在金融衍生产品已成为国际金融市场重要角 {MOD}的背景下,我国的金融衍生产品才刚刚起步,金融衍生产品市场几乎是空白。“加入 W TO后,国际金融家们肯定将把这一系列业务带入中国。如果没有相应的产品和人才,如何竞争?”王铎忧虑地说。
他认为,近几年,接连发生的墨西哥金融危机、百年老店巴林银行倒闭等事件都在警告我们,如果不掌握金融数学、金融工程和金融管理等现代化金融技术,缺乏人才,就可能在国际金融竞争中蒙受重大损失。我们现在最缺的,就是掌握现代金融衍生工具、能对金融风险做定量分析的既懂金融又懂数学的高级复合型人才。
据悉,目前国内不少高校都陆续开展了与金融数学相关的教学,但毕业的学生远远满足不了整个市场的需求。
王铎认为,培养这类人才还有一些难以逾越的障碍———金融数学最终要运用于实践,可目前国内金融衍生产品市场还没有成气候,学生很难有实践的机会,教和学都还是纸上谈兵。另外,高校培养的人大多都是本科生,只有少量的研究生,这个领域的高端人才在国内还是凤毛麟角。国家应该更多地关注金融和数学相结合的复合型人才的培养。
王铎回忆,1997年,北京大学建立了国内首个金融数学系时,他曾想与一些金融界人士共商办学。但相当一部分人对此显然并不感兴趣:“什么金融衍生产品,什么金融数学,那都是国家应该操心的事。”
尽管当初开设金融数学系时有人认为太超前,但王铎坚持,教育应该走在产业发展的前头,才能为市场储备人才。如果今天还不重视相关领域的人才培养,就可能导致我们在国际竞争中的不利。
记者发现即使今天,在这个问题上,仍然一方面是高校教师对于人才稀缺的担忧,一方面却是一些名气很大的专家对金融数学人才培养的冷漠。
采访中,记者多次试图联系几位国内金融数学界或金融理论界专家,可屡屡遭到拒绝。原因很简单,他们认为,谈人才培养这样的话题太小儿科,有的甚至说,“我不了解,也根本不关注什么人才培养”。还有的说,“我现在有很多课题要做,是我的课题重要,还是讨论人才培养重要”、“我没有时间,也没义务向公众解释什么诺贝尔经济学奖,老百姓要不要晓得金融数学和我没有关系”。
[编辑本段]金融中的数据挖掘
1.什么是关联规则
在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
2.关联规则挖掘过程、分类及其相关算法
2.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
2.2关联规则的分类
按照不同情况,关联规则可以进行分类如下:
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。
2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。
2.3关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。
2.基于划分的算法
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次多带带考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。
3.FP-树频集算法
针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
3.该领域在国内外的应用
3.1关联规则发掘技术在国内外的应用
就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。
3.2近年来关联规则发掘技术的一些研究
由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。