数据治理中的核心元素——元数据( 二 )


常见的技术元数据:
l 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
l 数据存储类型、位置、数据存储文件格式或数据压缩类型等;
l 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;
l 调度依赖关系、进度和数据更新频率等 。
2、业务元数据
业务元数据描述的对象 , 是数据的业务含义、业务规则等 。通过对业务元数据的明确 , 人们对它的理解和使用会变得更加容易 。元数据使得数据的二义性不复存在 , 人们对数据含义能够产生一致的认知 , 避免了“自说自话”的情况 , 进而为数据分析和应用提供支撑 。
常见的业务元数据:
l 业务定义、业务术语解释等;
l 业务指标名称、计算口径、衍生指标等;
l 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;
l 数据的安全或敏感级别等 。
3、操作元数据
操作元数据描述了数据的操作属性 , 比如管理部门、管理责任人等 。数据操作属性的明确 , 有助于将数据管理责任落实到部门和个人 , 是数据安全管理的基础条件 。
常见的操作元数据:
l 数据所有者、使用者等;
l 数据的访问方式、访问时间、访问限制等;
l 数据访问权限、组和角色等;
l 数据处理作业的结果、系统执行日志等;
l 数据备份、归档人、归档时间等 。
4、管理元数据
管理元数据包含了数据管理的信息在其中 , 例如:表的业务属主、表的技术负责人 。
常见的管理元数据:
l 数据的来源;
l 数据的功用;
l 数据的负责人;
l 数据的价值体现等 。
三、元数据管理方法
元数据管理是对元数据的创建、存储、整合、控制的一整套流程 , 它能够帮助开发和业务人员快速了解数据上下游关系、数据本身含义;它可以精准定位需要查找的数据 , 减少数据研究的时间成本 , 提高工作效率 。
元数据管理也是数据治理工作的重中之重 , 在数据治理项目中 , 我们通常从以下几个方面推进元数据管理工作:
1、元数据范围
首先 , 要确定需要进行管理操作的元数据范围 。实际情况中 , 不一定所有数据都要做元数据管理 。更多情况下 , 业务数据会被选择进行元数据管理 , 非业务数据(例如:备份数据、系统日志等)一般不会被纳入管理范围内 , 主要原因是 , 元数据管理能够帮助业务和开发人员快速掌握业务数据 。
确定规则后 , 就要根据公司实际情况 , 整理出需要进行元数据管理的业务系统、数据库、数据库用户、表等 。非结构化数据的元数据抽取也可支持 , 比如:word、pdf等 。
2、元数据接入
元数据一般是从源系统接入 , 如果企业已经拥有数仓 , 或对实时性要求不高 , 为了节约开发工作量、提升工作效率 , 会将已有的元数据从数仓接入 , 还未接入的从源系统接入 。
这种方案的风险在于:如果数仓的数据和源系统出现不一致的情况 , 元数据就会出现错误 。现如今 , 大部分的元数据抽取都采用配置自动化的方式进行 。
3、元数据标准
为了保证元数据的完整性和一致性 , 当出现数据库或数据定义不规范的情况时 , 要建立元数据管理的规范和标准 , 反推前端源数据整改 。同时 , 要对元数据进行权限管理 , 规范权限的管理流程(元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等) 。
4、元数据维护
指对已发布的元数据进行管理和维护 , 如果需要对已上线的元数据进行调整优化 , 就必须重新通过元数据发布流程 , 不允许直接修改元数据 。同时 , 成立元数据操作日志 , 记录所有元数据操作行为 。