Skip to content

数据治理

为什么需要数据治理

企业数字化程度越高,数据问题越突出:

常见数据问题
├── 数据孤岛:各部门数据无法互通
├── 数据质量差:报表数据不准,业务不信任
├── 数据找不到:不知道有哪些数据,在哪里
├── 数据不安全:敏感数据随意访问,合规风险
└── 数据成本高:重复建设,存储浪费

数据治理的目标:让数据可信、可用、可管、可控

数据资产目录

功能说明

数据资产目录是企业数据的「地图」,帮助用户快速找到所需数据:

数据目录功能
├── 数据搜索(按名称、描述、标签搜索)
├── 数据详情(字段说明、数据样例、统计信息)
├── 数据分类(按业务域、数据层次分类)
├── 数据标签(自定义标签,如「核心指标」「敏感数据」)
└── 数据订阅(关注数据变更通知)

元数据采集

元数据来源
├── 技术元数据(自动采集)
│   ├── 表结构(字段名、类型、注释)
│   ├── 存储信息(大小、行数、分区)
│   └── 任务信息(创建人、更新时间)
└── 业务元数据(人工维护)
    ├── 业务含义(字段的业务解释)
    ├── 数据负责人
    └── 数据使用说明

数据血缘

血缘图谱

数帆自动解析 SQL 任务,生成字段级血缘:

字段级血缘示例
MySQL.orders.amount
    ↓(ETL 原样同步)
Hive.ods_orders.amount
    ↓(SUM 聚合)
Hive.dws_user_summary.total_amount
    ↓(API 查询)
BI 报表「用户消费总额」指标

血缘的实际价值

  • 影响分析:修改 orders.amount 字段前,系统自动提示会影响 12 个下游任务和 3 个报表
  • 问题排查:报表数据异常 → 查血缘 → 发现 DWD 层某任务昨天失败 → 定位根因
  • 合规审计:监管要求说明某指标的数据来源,血缘图一键导出

数据质量

质量规则体系

质量规则分类
├── 完整性规则
│   ├── 字段非空率(如 user_id 非空率 = 100%)
│   └── 记录数检查(今日数据量不低于昨日 80%)
├── 唯一性规则
│   └── 主键无重复(如 order_id 唯一)
├── 一致性规则
│   ├── 跨表一致(订单表金额 = 支付表金额)
│   └── 枚举值合法(status 只能是 pending/paid/cancelled)
├── 及时性规则
│   └── 数据更新时间(每天 06:00 前完成更新)
└── 准确性规则
    └── 数值范围(金额 > 0,年龄 0-150)

质量监控流程

任务执行完成

触发质量检测(自动)

规则逐一检测

质量评分(0-100 分)

异常判断
├── 正常(评分 > 阈值)→ 下游任务继续执行
└── 异常(评分 < 阈值)→ 告警 + 阻断下游(可配置)

质量报告

质量报告维度
├── 整体质量趋势(近 30 天质量评分)
├── 问题表 Top 10(质量最差的表)
├── 规则通过率统计
└── 质量问题明细(哪条规则、哪张表、什么时间)

数据标准

指标管理

企业中同一指标往往有多种口径,导致「各说各话」:

问题示例
销售部说:上月 GMV 是 1 亿
财务部说:上月 GMV 是 9500 万
(原因:销售含退款,财务不含退款)

解决方案:统一指标定义
指标名称:GMV(含退款)
计算口径:订单金额之和,包含已退款订单
数据来源:dws_order_summary.gmv_with_refund
负责人:数据团队

数帆指标管理功能:

  • 统一指标定义(名称、口径、计算逻辑)
  • 指标与数据表字段关联
  • 指标变更审批流程
  • 指标使用追踪

数据安全治理

与易盾数据安全联动:

数据安全治理
├── 数据分类分级(自动扫描 + 人工确认)
├── 敏感数据访问控制(基于角色的权限)
├── 数据脱敏(查询时动态脱敏)
├── 数据访问审计(谁查了什么数据)
└── 数据水印(防泄露溯源)

网易智企产品解决方案知识库