数据治理
为什么需要数据治理
企业数字化程度越高,数据问题越突出:
常见数据问题
├── 数据孤岛:各部门数据无法互通
├── 数据质量差:报表数据不准,业务不信任
├── 数据找不到:不知道有哪些数据,在哪里
├── 数据不安全:敏感数据随意访问,合规风险
└── 数据成本高:重复建设,存储浪费数据治理的目标:让数据可信、可用、可管、可控
数据资产目录
功能说明
数据资产目录是企业数据的「地图」,帮助用户快速找到所需数据:
数据目录功能
├── 数据搜索(按名称、描述、标签搜索)
├── 数据详情(字段说明、数据样例、统计信息)
├── 数据分类(按业务域、数据层次分类)
├── 数据标签(自定义标签,如「核心指标」「敏感数据」)
└── 数据订阅(关注数据变更通知)元数据采集
元数据来源
├── 技术元数据(自动采集)
│ ├── 表结构(字段名、类型、注释)
│ ├── 存储信息(大小、行数、分区)
│ └── 任务信息(创建人、更新时间)
└── 业务元数据(人工维护)
├── 业务含义(字段的业务解释)
├── 数据负责人
└── 数据使用说明数据血缘
血缘图谱
数帆自动解析 SQL 任务,生成字段级血缘:
字段级血缘示例
MySQL.orders.amount
↓(ETL 原样同步)
Hive.ods_orders.amount
↓(SUM 聚合)
Hive.dws_user_summary.total_amount
↓(API 查询)
BI 报表「用户消费总额」指标血缘的实际价值:
- 影响分析:修改
orders.amount字段前,系统自动提示会影响 12 个下游任务和 3 个报表 - 问题排查:报表数据异常 → 查血缘 → 发现 DWD 层某任务昨天失败 → 定位根因
- 合规审计:监管要求说明某指标的数据来源,血缘图一键导出
数据质量
质量规则体系
质量规则分类
├── 完整性规则
│ ├── 字段非空率(如 user_id 非空率 = 100%)
│ └── 记录数检查(今日数据量不低于昨日 80%)
├── 唯一性规则
│ └── 主键无重复(如 order_id 唯一)
├── 一致性规则
│ ├── 跨表一致(订单表金额 = 支付表金额)
│ └── 枚举值合法(status 只能是 pending/paid/cancelled)
├── 及时性规则
│ └── 数据更新时间(每天 06:00 前完成更新)
└── 准确性规则
└── 数值范围(金额 > 0,年龄 0-150)质量监控流程
任务执行完成
↓
触发质量检测(自动)
↓
规则逐一检测
↓
质量评分(0-100 分)
↓
异常判断
├── 正常(评分 > 阈值)→ 下游任务继续执行
└── 异常(评分 < 阈值)→ 告警 + 阻断下游(可配置)质量报告
质量报告维度
├── 整体质量趋势(近 30 天质量评分)
├── 问题表 Top 10(质量最差的表)
├── 规则通过率统计
└── 质量问题明细(哪条规则、哪张表、什么时间)数据标准
指标管理
企业中同一指标往往有多种口径,导致「各说各话」:
问题示例
销售部说:上月 GMV 是 1 亿
财务部说:上月 GMV 是 9500 万
(原因:销售含退款,财务不含退款)
解决方案:统一指标定义
指标名称:GMV(含退款)
计算口径:订单金额之和,包含已退款订单
数据来源:dws_order_summary.gmv_with_refund
负责人:数据团队数帆指标管理功能:
- 统一指标定义(名称、口径、计算逻辑)
- 指标与数据表字段关联
- 指标变更审批流程
- 指标使用追踪
数据安全治理
与易盾数据安全联动:
数据安全治理
├── 数据分类分级(自动扫描 + 人工确认)
├── 敏感数据访问控制(基于角色的权限)
├── 数据脱敏(查询时动态脱敏)
├── 数据访问审计(谁查了什么数据)
└── 数据水印(防泄露溯源)