上一篇 | 下一篇

数据质量苦海

发布: 2006-8-23 16:21 | 作者: 网络转载 | 来源: 网络世界 | 查看: 146次

近期的项目是那种偏重分析应用的项目,以前,做过很多偏重数据整合的项目,那是要考虑如何将分散的数据搬到集中的数据仓库中。原以为做分析应用会暂时脱离“数据质量”的苦海,可是实际情况却不然,每当分析出来的结果呈现可疑的趋势,客户脸上露出一些茫然,继而转向不信任、甚至是恼怒的表情。那时我就知道了,原来,我还没有逃离苦海。
H5{'ll.H
!y)i6O@|每当看到一些突兀的分析结果,第一反应再也是自信地跟客户说,“你看,趋势是这样的,要采取某某措施啊!”。DOIT博客r:zF^6kM
DOIT博客.r*Gp&XQltDi
其实对于做分析应用类项目来说,在数据质量的问题上已经很幸运了,毕竟分析只是依赖数据质量,而不是对这个质量负责。苦就苦了那些后台做数据仓库的人了。例如在电信行业,不论是移动或是联通,对于经营分析系统来说,都曾经将数据质量看作是头等大事。是啊,这关系到系统的命运,谁愿意去使用一个不可信的系统呢?而且,经营分析系统还有个重要使命,就是统计报表,那可是不能差一点的。于是项目组大量的时间都花在核对报表,去为那百分之零点零几的误差去定位原因。DOIT博客xr9D's$]K
DOIT博客9m4Hv(]H2HL Uh
“数据质量的问题不完全是技术问题,它更是管理问题。”DOIT博客Uj T(PYO@Hz3jcnc7\
DOIT博客\J'RVE
这虽然是一种套话,但确实如此,而且解决数据质量首先从数据管理上去着手恐怕是更好的途径。然而,要知道,“数据管理”本身也并没有形成一个独立而成熟的领域。所以,这个途径似乎也是蜿蜒曲折。
3ICO?.s2R;d9y
5s"Kn;}a2S'T a说“数据管理”不成熟,是指理念、方法不成熟,企业对它的需求还不是那样地明显、迫切。非常奇怪的是,大多企业在开展第一个数据仓库项目时,特别是所选集成商也是在做第一个项目时,他们对于数据质量的考虑通常是不充分的,认为质量问题“应该”不是大事。这点可以理解,因为都没有看到数据仓库的样子,恐怕也很难去操心质量问题。但第一个数据仓库投入使用后,数据质量总是被重视起来。这个有趣规律只能说明一件事——数据质量是每个数据仓库项目都必须面对的,逃避不了。DOIT博客u3F0M,k'c$Ri9S%\ i
DOIT博客P\`FJ WT+B e D
对于“数据质量”这个词,目前并没有形成统一的定义。例如有的说法是指数据本身的问题,说客户数据如何无意义,常常是地址、证件号码这类信息是否有效。而还有的说法是指数据处理过程的问题。常指从数据到数据源,长途跋涉到最终报表、cube、分析应用的过程中,数据是否一致,转换的规则是否正确,因此需要一套质量体系来监控这个过程。
#C;TrP9Xp.B,y_DOIT博客)HNFR`0cr PLLV!O
在国内,取第二种“数据质量”含义的成分大些,这是客户需求决定的。因为在保证客户资料的有效性方面,技术暂时还起不了多大作用,这种”数据质量”似乎暂时还不属于BI的范畴。而后者那种“过程式”的质量,却是BI系统能够控制的,也是它能够用技术方法解决的。例如在电信经营分析中,从生产系统来的数据,经营分析系统最多只能将它的数据质量问题暴露出来,适当清洗,往往不是去纠正这些错误。要做到纠正,恐怕需要在业务流程上有所改动。
'H.TQqj#@5\ vDOIT博客:|t0f A7M9y x:S y
因此,如何让最后看到的数据可以信赖,如何保证当出现不准的数据时能够很快产生警报,如何快速追溯到错误的源头,也就成为实际工作中的重中之重。

字号: | 推荐给好友

最新评论

删除 引用 Guest  评论时间 2008-9-27 10:44:29
哈哈,楼主的这篇文章写的挺好,介绍的知识也挺详细,我再给大家提供一个关于备份的的更好更安全的方法吧!
用在线备份软件为您的数据备份---轻松易懂,保密安全性特好!
http://www.beifen.com

查看全部评论……(共1条)

 

评分:0

我来说两句

seccode