在这次大会的众多科学信息和科学成果中,记者捕捉到了“数据挖掘”这一概念,并采访了本次大会的主席、中国科学院虚拟经济与数据科学研究中心常务副主任石勇教授……
2007年5月28日至30日,为期三天的第七届国际计算科学大会首次在中国成功举办。这次会议是世界计算科学研究人员展示其科学成果的盛会,来自43个国家和地区的700余名计算科学技术领域的专家学者、企业代表汇聚一堂,集中展示国内外近年来在计算科学与技术领域内的最新科研成果,同时为来自世界各国的计算科学和技术人员提供了一次交流新方法和新思想并拓展合作的机会。
计算科学是一门包含各种各样与计算和信息处理相关主题的系统学科。这次大会以“通过计算促进科学和社会进步”为主题,围绕“可扩展的科学计算方法”,“高级软件开发工具”,“网格计算”,“高级数值计算方法”,“计算科学技术在生物学、环境科学、金融等领域的应用”等诸多热点问题进行了研讨。
在这次大会的众多科学信息和科学成果中,记者捕捉到了“数据挖掘”这一概念,并采访了本次大会的主席、中国科学院虚拟经济与数据科学研究中心常务副主任石勇教授。
石勇教授1982年毕业于西南石油学院数学系,1983年就读于大连理工大学MBA班,于1985年前往美国堪萨斯大学攻读管理科学博士学位,是我国改革开放后第一批公费出国留学的一分子。在美国学习、研究、工作的十九年中,石勇取得了很多卓越的成就,并先后涉及了信息科学、管理科学、生产计划、财务会计、农业政策、石油工程、科学预测等众多的领域。自1990年开始,以美国为首的西方先进国家凭借高科技的飞速发展,已进入了以数据挖掘为支撑技术、以网络为基础的新的知识管理时代。石勇从1998年开始将多目标决策线性规划的理论与计算机应用结合,在美国First Data公司开展数据挖掘的商业应用,取得很好的效果。2000年起,石勇开始将数据挖掘在银行信用征信评分概念介绍到国内,并且根据自己的科研经验注意到,我国数据挖掘与知识管理无论在理论创新上,还是在应用实践上都与国际水平有相当的距离,更没有一个研究力量集中的科研中心。而数据挖掘又恰恰是国民经济“十五计划” 要实行行业和社会信息化的尖端技术。为了促使这一新兴交叉科学在中国迅速地跨越式发展,他致书中国科学院领导,提倡成立“中国科学院数据挖掘与知识管理研究中心”,并于2004年回到祖国,筹建中国科学院数据技术与知识经济研究中心,从此更是与数据挖掘结下了不解之缘。
强大的应用技术
有关数据挖掘的起源,石勇教授向记者介绍:随着计算机的大量应用,各种数据广泛存在,数字,图形、文字、表格、声音等都是数据的种种表象,可谓是数据的海洋。要从这数据的海洋中寻找有用的资料,就要靠处理数据的手段来挖掘。人类分析数据到现在已经有上千年的历史了,从远古时代人类开始在木头上计数开始就是一个简单的数据分析过程,但是近代数据分析是用统计学的概念去处理数据。统计学在真正的经济生活中的应用最早是从英国和欧洲开始,随着二战的结束,一些非统计的数据分析工具,如人工智能方面的技术开始应用到行业经济中。到了二十世纪九十年代,美国的一些应用者和学者把在数据海洋中寻找知识的过程叫做“数据挖掘”。
“数据挖掘”(Data Mining)是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是由于企业数据库的广泛使用,存在大量的数据,并且迫切需要从这些数据中获取有用的信息的知识。而数据挖掘与传统的数据分析,如查询、报表、OLAP(联机应用分析)、统计分析等数据分析技术的本质区别是数据挖掘是在明确假设的前提下去挖掘信息、发现知识。
作为一门应用技术,数据挖掘可谓涵盖广泛。尤其在发达国家,数据挖掘技术的触角已经伸向了各行各业。但是作为大型技术的应用,在国外最早成功应用的例子要数药物公司。任何一种药都可能是数十种化合物的不同组合,而这些上百种或上千种化合物的组合就要通过筛选来进行制药,最终进行临床实验,这个过程也可以看作是数据挖掘。接下来,国外的数据挖掘技术主要应用在了银行业,典型的例子就是信用卡,用数据挖掘技术来分析银行客户的信用等级和资产发展趋势,用以规避银行风险。从此,数据挖掘就广泛地应用到国外金融行业,比如后来的保险业,借以此技术来防止保险欺诈行为。以及慢慢渗透到税收、零售行业以及国家安全系统的保障等等。
但是,在谈到数据挖掘技术在国内的发展时,石勇教授坦言目前中国多数行业还没有完全建立成熟的数据挖掘技术体系。其实,数据挖掘在九十年代就进入了中国,但是在出现后的一段时间内就逐渐了“冷”了下去,这主要是因为中国企业当时并没有建立完善的数据库。随着中国经济的发展和国内企业的不断壮大,现在许多中国企业都有这种需求,并开始引用数据挖掘技术,不过还处于相对比较初级的阶段。和国外大企业自身就拥有强大的数据挖掘技术团队的情况相比较,因为专业人才难以培养、企业制度和软件开发等原因的欠缺,也使得国内企业自己建立和发展数据挖掘技术团队变得格外困难。由此可见,经济的发展情况和企业的规模也将成为限制数据挖掘技术发展的必然条件。
|