近期的项目是那种偏重分析应用的项目,以前,做过很多偏重数据整合的项目,那是要考虑如何将分散的数据搬到集中的数据仓库中。原以为做分析应用会暂时脱离“数据质量”的苦海,可是实际情况却不然,每当分析出来的结果呈现可疑的趋势,客户脸上露出一些茫然,继而转向不信任、甚至是恼怒的表情。那时我就知道了,原来,我还没有逃离苦海。
每当看到一些突兀的分析结果,第一反应再也是自信地跟客户说,“你看,趋势是这样的,要采取某某措施啊!”。
其实对于做分析应用类项目来说,在数据质量的问题上已经很幸运了,毕竟分析只是依赖数据质量,而不是对这个质量负责。苦就苦了那些后台做数据仓库的人了。例如在电信行业,不论是移动或是联通,对于经营分析系统来说,都曾经将数据质量看作是头等大事。是啊,这关系到系统的命运,谁愿意去使用一个不可信的系统呢?而且,经营分析系统还有个重要使命,就是统计报表,那可是不能差一点的。于是项目组大量的时间都花在核对报表,去为那百分之零点零几的误差去定位原因。
“数据质量的问题不完全是技术问题,它更是管理问题。”
这虽然是一种套话,但确实如此,而且解决数据质量首先从数据管理上去着手恐怕是更好的途径。然而,要知道,“数据管理”本身也并没有形成一个独立而成熟的领域。所以,这个途径似乎也是蜿蜒曲折。
说“数据管理”不成熟,是指理念、方法不成熟,企业对它的需求还不是那样地明显、迫切。非常奇怪的是,大多企业在开展第一个数据仓库项目时,特别是所选集成商也是在做第一个项目时,他们对于数据质量的考虑通常是不充分的,认为质量问题“应该”不是大事。这点可以理解,因为都没有看到数据仓库的样子,恐怕也很难去操心质量问题。但第一个数据仓库投入使用后,数据质量总是被重视起来。这个有趣规律只能说明一件事——数据质量是每个数据仓库项目都必须面对的,逃避不了。
对于“数据质量”这个词,目前并没有形成统一的定义。例如有的说法是指数据本身的问题,说客户数据如何无意义,常常是地址、证件号码这类信息是否有效。而还有的说法是指数据处理过程的问题。常指从数据到数据源,长途跋涉到最终报表、cube、分析应用的过程中,数据是否一致,转换的规则是否正确,因此需要一套质量体系来监控这个过程。
在国内,取第二种“数据质量”含义的成分大些,这是客户需求决定的。因为在保证客户资料的有效性方面,技术暂时还起不了多大作用,这种”数据质量”似乎暂时还不属于BI的范畴。而后者那种“过程式”的质量,却是BI系统能够控制的,也是它能够用技术方法解决的。例如在电信经营分析中,从生产系统来的数据,经营分析系统最多只能将它的数据质量问题暴露出来,适当清洗,往往不是去纠正这些错误。要做到纠正,恐怕需要在业务流程上有所改动。
因此,如何让最后看到的数据可以信赖,如何保证当出现不准的数据时能够很快产生警报,如何快速追溯到错误的源头,也就成为实际工作中的重中之重。

最新评论
用在线备份软件为您的数据备份---轻松易懂,保密安全性特好!
http://www.beifen.com
查看全部评论……(共1条)