数据挖掘技术特写
“我们把世界看成数学,并且把你也看成数学”——用这句话来说明数据挖掘技术的复合性和应用的广泛性似乎再好不过。如今,虽然一些行业在应用这一技术上仍然缺乏足够的主动,但一个不能阻挡的趋势是:已经有越来越多的人在快乐而有效地使用这一技术并且不由自主地成为它的“挖掘”对象。
禽流感该如何更好地监控?今天你写Blog了吗?
你是否觉得这两个问题连在一起问很无厘头?
事实上,美国一家公司正在试图让这两个事件之间的关系日渐明了。
这家公司目前正在通过从全球的Blog网页中作挖掘出和禽流感相关的信息,从而建立一个预警机制。这一项目考虑到Blog已经成为新闻传播的重要途径,先从网上抓取有关禽流感的网页,存入到公司的数据仓库,再指定“国家”为关键目标词,然后利用关联分析技术,即可得到和禽流感关联最大的国家,由此可以判定该国的禽流感传染可能比较严重。
就在此前,已经有很多人在抱怨,网上多如牛毛的Blog除去浪费了人们数以十万年的阅读时间之外,还有多少用处?如今,商业智能领域中的数据挖掘技术正在力图从这些爆炸式增长的Blog中“挖”出更有价值的东西,同时它也正在更多领域中展示其非凡的力量。
有关数据挖掘技术的定义有很多版本,综其要点,主要在于应用一系列统计与人工智能技术来发现以前并不了解的数据规律,并解决实际业务问题。如今,数据挖掘技术已经从最开始的一个简单的算法包,发展出通用挖掘平台和专业挖掘工具两大种类。其中,像IBM、NCR、SAS、微软、SPSS、StatSoft等厂商的数据挖掘产品(模块)基本都是通用型工具平台;而像美国的 Unica 公司、费尔艾萨克公司(Fair Isaac Corporation)则主要专注于诸如营销自动化、信用卡积分等细分领域,属于后一种工具。
具体来看,目前在数据挖掘领域声势颇大的大多是通用型工具平台,像IBM、NCR、SAS、微软、Oracle 、SPSS、StatSoft等都是如此。
中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩认为,平台化肯定是将来的一个发展方向,而且,中国的市场足够广阔,也可以容得下一批这样的平台厂商。IBM软件部中国区DB2信息管理技术经理刘晶炜也表示,正与SAS进行更多的合作,以便进一步统一数据挖掘领域的技术标准。而Teradata数据仓库专家盛秋戬博士则认为,目前的平台工具虽多,但从根本上讲,都是在用横向的数据挖掘工具解决纵向的行业业务问题。他表示,如果从用户出发,用户应该更欢迎那些专业挖掘工具。
在支持的算法种类和数量上,SAS、SPSS等传统的统计分析厂商要比IBM、NCR、微软、Oracle 等厂商更多一些。比如SAS Enterprise Miner就提供了决策树、神经网络、自动神经网络、基于记忆的推理(MBR)、线性和对数回归、聚类、关联分析等很多算法。
“算法是刀,建模是刀法,而模型就是用刀切出来的东西。”苏立民如此形容算法、建模和模型三者之间的关系。简单来讲,如果算法是“y=a+bx”,那么模型就是“y=5+3x”。区别就在于已经带入了常变量。目前,业界探讨较多的技术内容主要有自动建模和模型转换两点。
其一,自动建模。
自动建模是考查数据挖掘工具是否能够自我优化,从而方便一般用户使用的重要功能指标。在这项功能的帮助下,用户无需深刻了解算法的优缺点,即可利用其灵活的参数设置及其帮助从而增强建模的效率。
目前,诸多主流工具都在自动建模方面有着较好表现。比如NCR就尤其强调其模型的并行性。据Teradata数据仓库专家盛秋戬博士介绍, NCR的并行处理优势就在于:比如用两台服务器(集群)来作挖掘,可能需要1分钟的反应时间;而如果再加两台服务器,则只需要半分钟的反应时间。这一优势当然是基于NCR自身的硬件设备。
SAS Enterprise Miner(EM)的自动建模主要体现在自导向(SEMMA)数据挖掘进程上。SEMMA为执行数据挖掘的核心任务提供了一个灵活的框架,这些任务包括五个主要的步骤,亦即采样(S),探索(E),修改(M),建模(M)和评估(A)。此外,专业工具厂商美国 Unica 公司的 Affinium Model 的最大优点也是体现在最大限度地将数学建模过程自动化 ,使得那些数学基础不好的业务人员可以方便地使用这个工具。
需要注意的是,虽然自动建模被人们寄予厚望,但是还远未达到让用户手到擒来的地步。之所以这样说,一方面是因为工具本身的技术实现不够,苏立民就认为,在这方面,专业型工具做得要比通用型工具相对较好;另一方面,自动化本身并不能取代一切。中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩也解释说,做好自动建模,同样需要对业务有深刻的了解,才能选择更好的变量。比如在知道一批女孩的身高、体重数据之后,要分析出女孩的漂亮程度,那么,选定“身高除以体重”来分析无疑还是要靠脑子想出来的。
“文本挖掘是个太恐怖的事情。”中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩如此形容文本挖掘的威力。文本挖掘(Text mining),顾名思义,就是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,最关键的是分词技术,建立词典。只有让计算机依据词典完成正确断词之后,才可以实现将非结构化信息转化为结构化信息,然后就可以进一步研究文本之间的关系。比如本文开头提到的通过分析Blog网页来建立禽流感预警机制的例子,其实既利用了文本挖掘技术,也是一个网络挖掘案例。
到目前为止,像IBM、微软等主流挖掘工具以及google和SNS网站都已经在使用文本挖掘技术。但遗憾的是,目前这些工具大多只支持英文,还不支持中文挖掘。
但是业内人士也指出,网络挖掘目前尚存在一些瓶颈。
首先,一个关键问题是电子商务的评估指标(e-Metrics)还没有形成一个完整的体系。所谓指标体系就要设定几个维度来衡量电子商务网站生意的好坏。目前,有些电子商务网站已经开始定义像潜在顾客率(reach)、招揽时间(Acquisition)、潜在顾客转化率(Conversion)等一些评估指标,美国的一些技术会议也已经开始做一些整合工作,但是要形成体系还需要一段时间。
其次,缺钱。在采访中,商智通公司咨询总监匡宏波表示,曾经有一家医药类电子商务网站主动找上门,提出要求想知道平台的某类药品(比如盘尼西林)主要销往哪里。但盛秋戬博士也指出,就电子商务领域的总体而言,除了像亚马逊、eBay等一些国外大型电子商务网站开始自己买工具进行挖掘之外,国内少数注意到数据挖掘技术的网站大多是自己开发做此类工作,舍得掏钱的人还不多。
在文本挖掘和网络挖掘之外,可视化挖掘(Visual Data Mining)因为和工具的易用性联系在一起,因而也颇为重要。简单来讲,可视化包括了数据预处理和结果呈现两个方面。比如StatSoft一直强调的完整的图表工具库以及高质量的图表呈现效果就是其优势所在。但是总体情况来看,可视化的内含和标准近几年一直没有更新的内容,而且,即便工具厂商自认为做得再“可视化”,对于用户来说,仍有难以理解和掌握的地方。苏立民介绍说,虽然现在挖掘结果呈现已经相当易用,但是他接触到的一些用户依然会抱怨说,每回总是打印出案例那么多表格到底有什么用?其中的问题就在于:工具的易用性是一回事,有没有既懂业务又懂技术的人来用却是另一回事。
在采访中,笔者发现,无论厂商、集成商还是学术界,基本上都认同一个观点,即:数据挖掘在技术已经趋于成熟,现在更重要的就是如何拓展行业应用。IBM软件部中国区DB2信息管理技术经理刘晶炜表示说,数据挖掘技术已经到了一个普及化的阶段,现在关键是要让数据挖掘从神坛上走下来。商智通公司咨询总监匡宏波也表示,现在数据挖掘领域的问题都不是技术问题,也不是工具问题,而是应用问题。那么,现在,数据挖掘工具在国内的实际应用处于什么阶段呢?
从行业应用来看,目前大多数的用户来自都来自电信、银行、保险、税务等领域,比如南京地税、四川移动两个案例就做得相当成功;应用主题则主要包含:消费者行为分析、信用评分与风险管理、欺诈行为侦测、购物篮分析等方面。综合国内外的发展趋势,可以看到的是,大型连锁商店和高科技制造产业也将成为应用数据挖掘技术的重要领域。前者的记账质量之好为业内公认,一旦开始数据挖掘方面的应用则前景不可限量;而在后一个领域,国外已经开始陆续导入数据挖掘技术,类似做法相信会很快为国内制造业大厂所借鉴。
从应用层次上看,大体可以分为三个层次,第一层次是把挖掘工具当作单独的工具来用,偶尔用一下出具一个报告,不用建设系统;第二层次则是把数据挖掘模块嵌入到系统中,称为部门级应用;第三层次是企业级应用,相当于把挖掘系统作为整个企业运营的CPU。目前,国内的数据挖掘的应用是本来数量就比较少,即便是做了的,也有很多只是处于第一层次,偶尔某些用户能够做到第二层次。
如此一来,问题出现了:既然数据挖掘技术已经趋于成熟,为什么在应用上却迟迟跟不上呢?笔者在采访了几家主流厂商和集成商以及业内专家后发现,问题主要集中在以下几个方面。
其一,工具易用性强则是否用户就会运用呢?答案是否定的。
要成功完成一次数据挖掘过程,用户首先要业务熟悉,其次还要对算法和模型熟悉。两者不可偏废,才能知道拿来的数据代表什么,算出来的结果又代表了什么。然而,从目前电信、金融行业的人才结构来看,如今主导建设数据挖掘系统的大都是工科出身,不但业务不熟悉,即便是对于数学领域中的统计学也都过于生疏。客观的讲,这种复合型人才的缺乏也在很大程度上造成了目前数据挖掘市场还不够成熟。
那么,如何解决这个问题?答案似乎很简单,没有那就只有培养了。比如现在一些电信用户就在日常培训之外,还高薪聘请一些乙方(数据仓库解决方案供应商)的咨询师和顾问,专职负责自己的数据仓库和挖掘项目,试图由此培养一批既懂业务又懂技术的专业人才。当然,一开始说的是培养,最后实在忙不过来,用户挖厂商墙角的事也不是没有。
问题是,同样是培养人才,那到底是让业务人员学技术好呢,还是让技术人员学业务好呢?苏立民和廖钢城都表示,更赞成是业务人员去学习技术。因为业务人员是为了应用而学习,可以实现很好的结合。目前,像中国人民大学已经开始招收有计算机专业背景的统计博士,而中国传媒大学的数据研发中心也是文理兼收,可以想见,未来三四年内,人才缺乏的问题将逐步得到缓解。
其三,转变意识,端正心态。从意识上,主要是用户要转变;而心态上,则厂商和用户都需要端正。
首先,从意识上看,与国外长期的精细化管理相比,国内用户有些时候还不太习惯迅速走向精细化。沈浩就表示,国内零售企业的记账是最好的,也是被认为最值得作数据挖掘的行业,但至今为止还没有哪家开始做,原因就在于没有这方面的意识。
其次,从心态上看,用户和厂商的心态显得都过于着急。从用户来讲,总想找个可以替代决策的工具。不做长线,只想作短线,总以为项目上线就行了。像国内某电信公司,从一开始其实就没想清楚需求是什么,结果火急火燎的把工具买来,现在根本就用不起来。从厂商来讲,问题在于不太想培育市场,只想赚快钱。苏立民认为,数据挖掘是一个需要慢慢雕琢的东西,需要精耕细作才能做成功,但是目前一些厂商却更愿意采取狩猎型,作一个单纯的产品销售型公司,这种做法本身似乎就不太适合这一行业。廖钢城也表示,Sybase正是看到这种情况,所以就更愿意和瑞斯泰得这样的集成商合作实施,而不只是销售产品。
从一锤子的买卖到沿途下蛋
于是,搞售前的着急让用户签单,拿到钱后又着急从用户那里撤退。结果如何呢?还真像那句俏皮话说的:有困难要上,没有困难创造困难也要上。活活把一些简单问题复杂化。有些买完工具的用户其实需求都没想明白,何谈成功运用;而那些能在忽悠中挺过来的用户索性就不再理这茬。
问题出在哪里?其实厂商看得清楚,不外乎市场需要培育、人才也需要培养而已,而他们只是懒得下手去做,甚至不愿去说。
厂商着急,其实用户也着急。厂商着急卖产品,而用户却在着急花大价钱买来的产品早日上线出效益。这种想法虽然也有问题,但是可以理解。你想,谁不担心几十万打了水漂儿,谁又不想让领导说这几十万花得值、花得好呢?!
那么,如何才能做到既能保证项目按周期实施、又不让用户心急火燎得难受呢?上海证券交易所信息网络有限公司董事长赵小平提出了“沿途下蛋”的理论。简单讲,就是不要到最后才给用户下一个大金蛋,很可能这个大金蛋还没下来,用户就已经下了逐客令。正确的办法就是不断出成果,这样用户才会安心等待并且积极配合。
无疑,从“一锤子的买卖”到“沿途下蛋”这条路上还需要厂商和用户慢慢琢磨。
扫一扫
在手机打开当前页