数据治理

为什么需要数据治理

企业数字化程度越高，数据问题越突出：

常见数据问题
├── 数据孤岛：各部门数据无法互通
├── 数据质量差：报表数据不准，业务不信任
├── 数据找不到：不知道有哪些数据，在哪里
├── 数据不安全：敏感数据随意访问，合规风险
└── 数据成本高：重复建设，存储浪费

数据治理的目标：让数据可信、可用、可管、可控

数据资产目录

功能说明

数据资产目录是企业数据的「地图」，帮助用户快速找到所需数据：

数据目录功能
├── 数据搜索（按名称、描述、标签搜索）
├── 数据详情（字段说明、数据样例、统计信息）
├── 数据分类（按业务域、数据层次分类）
├── 数据标签（自定义标签，如「核心指标」「敏感数据」）
└── 数据订阅（关注数据变更通知）

元数据采集

元数据来源
├── 技术元数据（自动采集）
│   ├── 表结构（字段名、类型、注释）
│   ├── 存储信息（大小、行数、分区）
│   └── 任务信息（创建人、更新时间）
└── 业务元数据（人工维护）
    ├── 业务含义（字段的业务解释）
    ├── 数据负责人
    └── 数据使用说明

数据血缘

血缘图谱

数帆自动解析 SQL 任务，生成字段级血缘：

字段级血缘示例
MySQL.orders.amount
    ↓（ETL 原样同步）
Hive.ods_orders.amount
    ↓（SUM 聚合）
Hive.dws_user_summary.total_amount
    ↓（API 查询）
BI 报表「用户消费总额」指标

血缘的实际价值：

影响分析：修改 orders.amount 字段前，系统自动提示会影响 12 个下游任务和 3 个报表
问题排查：报表数据异常 → 查血缘 → 发现 DWD 层某任务昨天失败 → 定位根因
合规审计：监管要求说明某指标的数据来源，血缘图一键导出

数据质量

质量规则体系

质量规则分类
├── 完整性规则
│   ├── 字段非空率（如 user_id 非空率 = 100%）
│   └── 记录数检查（今日数据量不低于昨日 80%）
├── 唯一性规则
│   └── 主键无重复（如 order_id 唯一）
├── 一致性规则
│   ├── 跨表一致（订单表金额 = 支付表金额）
│   └── 枚举值合法（status 只能是 pending/paid/cancelled）
├── 及时性规则
│   └── 数据更新时间（每天 06:00 前完成更新）
└── 准确性规则
    └── 数值范围（金额 > 0，年龄 0-150）

质量监控流程

任务执行完成
    ↓
触发质量检测（自动）
    ↓
规则逐一检测
    ↓
质量评分（0-100 分）
    ↓
异常判断
├── 正常（评分 > 阈值）→ 下游任务继续执行
└── 异常（评分 < 阈值）→ 告警 + 阻断下游（可配置）

质量报告

质量报告维度
├── 整体质量趋势（近 30 天质量评分）
├── 问题表 Top 10（质量最差的表）
├── 规则通过率统计
└── 质量问题明细（哪条规则、哪张表、什么时间）

数据标准

指标管理

企业中同一指标往往有多种口径，导致「各说各话」：

问题示例
销售部说：上月 GMV 是 1 亿
财务部说：上月 GMV 是 9500 万
（原因：销售含退款，财务不含退款）

解决方案：统一指标定义
指标名称：GMV（含退款）
计算口径：订单金额之和，包含已退款订单
数据来源：dws_order_summary.gmv_with_refund
负责人：数据团队

数帆指标管理功能：

统一指标定义（名称、口径、计算逻辑）
指标与数据表字段关联
指标变更审批流程
指标使用追踪

数据安全治理

与易盾数据安全联动：

数据安全治理
├── 数据分类分级（自动扫描 + 人工确认）
├── 敏感数据访问控制（基于角色的权限）
├── 数据脱敏（查询时动态脱敏）
├── 数据访问审计（谁查了什么数据）
└── 数据水印（防泄露溯源）

数据治理 ​

为什么需要数据治理 ​

数据资产目录 ​

功能说明 ​

元数据采集 ​

数据血缘 ​

血缘图谱 ​

数据质量 ​

质量规则体系 ​

质量监控流程 ​

质量报告 ​

数据标准 ​

指标管理 ​

数据安全治理 ​

数据治理

为什么需要数据治理

数据资产目录

功能说明

元数据采集

数据血缘

血缘图谱

数据质量

质量规则体系

质量监控流程

质量报告

数据标准

指标管理

数据安全治理