“复旦管理学杰出贡献奖”得主 石勇:为海量数据编织“增值链”

作者:柳成荫摄影: 视频: 来源:新闻文化网发布时间:2009-11-09

 “今天演讲的题目从营销到金融,从供应链到战略管理,都有个特点,什么特点?就是离不开数据。”2007年复旦管理学国际论坛上,石勇教授的这段开场白令人印象深刻。

从1978年在西南石油学院读数学专业开始,中国科学院虚拟经济与数据科学研究中心常务副主任石勇就一直在和数字、数据打交道。“从我1980年发表第一篇数学论文到现在,都快30年了!”回顾自己的学术路程,从模糊数学基础理论到多目标决策,从数据挖掘到知识管理,他认为自己的研究有一点不变,那就是:用数学模型刻画现实生活中的问题,并通过实际数据对模型进行检验、修正和完善。

近日,记者专访今年的“复旦管理学杰出贡献”奖获得者、中国科学院虚拟经济与数据科学研究中心常务副主任石勇教授。

一份报纸:打开模糊数学的天地

现在,模糊数学先驱汪培庄教授是石勇教授主持的中国科学院虚拟经济与数据科学研究中心聘请的顾问。而这段缘分,已经持续了整整30年。

1978年,北京师范大学汪培庄教授在《光明日报》上发表了一篇介绍“模糊数学”的文章。在四川南充,22岁的西南石油学院数学专业大一新生石勇读完,立即提笔给汪教授去信。令石勇喜出望外的是,汪教授热情地回了信,鼓励他自学模糊数学。

其时,石勇用整整19本作业簿,完成了吉米多维奇那本著名的《数学分析习题集》。多年之后他这样感慨:扎实的基本功训练,为自己今后的发展奠定了扎实的基础。

1980年,北京召开了模糊数学的学术会议,经校领导特批,大三学生石勇破例乘火车卧铺,第一次来到北京。大三那年,石勇发表了两篇有关模糊群和模糊积分的论文。与此同时,他还与老师合作,用模糊数学的办法分析河南油田的油层孔隙结构。这一项目后来获得石油工业部科技进步二等奖,还在核心期刊上发表了论文。

1985年,在大连的中国工业科技管理培训中心完成MBA课程后,他负笈远洋,攻读美国堪萨斯大学管理科学博士。著名管理学家游伯龙(P.L. Yu)的严格指导令他记忆犹新:“老师在念书时从来没有表扬过我一句,直到毕业时才说:我是他最好的学生之一。”

在此期间,他把模糊数学和多目标决策结合起来,做出了开拓性的成果。单目标线性规划,答案是一个点;多目标线性规划,答案是一条线;而多目标多资源线性规划,答案则是一个面。“这条线,是我的导师做出来的;这个面,则是我博士期间的成果。”

今年6月,在家乡成都举行的第20届国际多目标决策协会上,石勇教授以其在多目标多资源水平规划、最优化数据挖掘理论与应用研究上的卓越成就荣膺国际多目标决策学会“康托学术奖”,成为首位获得该奖的中国学者。他一定记得,31年前,在成都东北200多公里的小城南充,他第一次看到“模糊数学”四个字。

数据挖掘:在数据海洋里淘金

“嘀”一声,红外线扫过条形码,超市的数据库又增加了一条销售信息……由电子设备自动存储起来的大量信息,以近乎指数级方式日增夜长,正令商业机构日益淹没在“数据坟墓”里。

海量的信息也使普通人不堪重负。早在1970年,前苏联作家索尔仁尼琴就渴望一种“不知情权”,他写道,这将使“高尚的灵魂不必被那些废话和空谈充斥”。

数据挖掘(Data Mining)的任务,就是运用各种数学工具,从海量的数据库中寻找隐含的、潜在的、新颖的、有用的数据关系。

数据挖掘怎么做?以银行个人信用评分系统为例,首先要建立一个数据仓库,包含成千上万用户的个人基本信息以及他们在每个银行的业务信息等各种特征信息;之后,要运用统计分析、机器学习、基于数据仓库的技术等数据挖掘技术,建立信用评分模型;最后,根据该模型自动生成每一用户的信用评分或者等级。

“试想n个银行,m个业务,几千万甚至上亿的人与银行的业务关系,所造成的信用数据的数据将是海量的。”研究团队的田英杰博士说,“运用数据挖掘技术是必然的选择。”

石勇教授涉足数据挖掘领域,始于他1998年夏天在美国第一数据公司(First Data)的应用研究。在对信用卡数据处理上,该公司以往一向是从统计学的方法入手,而石勇教授则力主使用“最优化理论”切入。他介绍说,在不同数据同时分割的标准问题上,最优化的方法是“刀子切豆腐”,块块分明,而其复杂性强、运算量大的缺点,则可以随着计算机技术的进步日渐消失。

国家“973”项目子课题“抗体分子结构与功能进化研究”,澳大利亚必和必拓公司国际合作项目“地质数据挖掘项目”,网易公司“VIP邮箱数据挖掘项目”……石勇教授归国后,不但把先进的数据挖掘技术带回国内,带领研究团队进行各种实际应用研究,还积极在各种场合为其推广鼓与呼。他介绍说,数据挖掘技术作为当代信息服务业的核心技术和新知识经济时代的支撑技术,正日益体现出现实的科学意义和广泛的商业应用价值。“以美国为例,当时第一数据公司只有50、60号人,而现在则多达500、600号人。”

智能知识管理:原始知识“深加工”

“将知识从数据海洋中挖掘出来就够了吗?假设我们从50万条海量数据出提取50条知识,数量是大大精简了,但它们并不都是有用的。”石勇教授通过嫁接数据挖掘和知识管理,把研究向纵深推进。“如果说数据挖掘是‘一阶’的工作,那么智能知识管理则是‘二阶’的问题,而且后者更需要我们管理科学研究者给出回答。”

“数据—数据挖掘—智能知识管理”,这是一个崭新的、交叉性的国际科学领域。从2007年1月起,石勇教授领衔一个包含3名“中科院百人计划”引进人才在内的、近80人组成的专兼职研究团队,以“数据挖掘与智能知识管理:理论及应用研究”为主题,成功申报国家自然科学基金委创新群体。据悉,这是国家人才类资助项目最高层次的项目,且连续资助时间长达9年。

近三年来,石勇教授率领研究群体作出了开拓性的研究:首先给出“智能知识”和“智能知识管理”的定义,并提出“智能知识管理系统”(IKMS)——这个系统是智能知识赖以生存的平台,从“粗糙知识”经孵化转为“智能知识”,这些智能知识具有自我管理的功能,它们也像生命有机体一样,可以经历出生、成长、结婚、生子、衰老、死亡等过程。近三年来,研究群体发表了大量国际期刊论文和会议论文。在维基百科上,他们的研究成果也被引用。

“智能知识有什么逻辑结构?我们正在啃这块‘硬骨头’。”石勇教授说。这两天,他正忙着准备项目的中期答辩。对于这个方向的研究前景,他语气坚定:“我看再做10年都没问题。”

他的信心,来自于这些研究成果带来的日益显现的经济价值和社会价值。一方面,“商业智能”日益受到企业的关注;另一方面,通过实施数据挖掘和知识管理,可以提升企业的创新力和竞争力,而企业竞争力的提升又可以促进国家竞争力的提升,这样才能使中国实现从“劳力国家”向“智力国家”的成功转型。

个人征信系统:让管理科学影响每个国人

2009年10月13日,国务院法制办公室发布《征信管理条例(征求意见稿)》。“征信”话题顿成当周舆情焦点:“水电费没交,我的信用记录会不会被‘黑一笔’?” 

这个话题,石勇教授最有发言权:对于《条例》,他是积极推动者之一;而对于目前世界上最大的个人征信系统——收纳逾6亿自然人信息的“中国人民银行征信评分系统”,石勇教授和他的学生是主要设计者。

作为民建中央委员,石勇教授参与起草了民建中央今年“两会”上提出的《关于加强社会信用体系建设,增强抵御经济风险能力》的提案。提案认为,信用风险防范失控是酿成当前国际金融危机的根源之一,我国只有加快社会信用体系建设,才能安全有效地发挥虚拟经济对经济发展的促进作用。这项提案被列入今年全国政协的100件重点提案,并进一步选定为需实地调研的五件提案之首。

而“中国人民银行个人征信评分系统”,则是石勇教授和他的团队的作品。这个系统的评分模型包括500多个衍生变量,通过基于多目标线性规划的数据挖掘技术,对数据库内的个体进行评分。这个被命名为“China Score”的评分系统,在挖掘方法上国际领先且具有独创性知识产权。相对于现有的数据挖掘方法,该模型建模过程简单明了,模型的参数可灵活选择,且在诸多行业已经有成功的应用。

“征信系统是国家信息化的基础之一,这个系统今后将服务全国13亿人。”石勇教授更看重这个项目的社会意义,“这是管理科学界的方法在中国第一次影响到每一个人,是我们管理学人向国庆60周年最好的献礼。”

制图:实习编辑:责任编辑:

相关文章

文化日历

新闻分类

推荐视频

图说复旦

新闻排行

周排行 月排行

  • 联系我们
    fudan_news@163.com
    021-65642268