Files
data-ge/todo.md
2025-10-29 00:38:57 +08:00

1.6 KiB
Raw Blame History

##基础选型: Python + Great Expectations ##设计理念:

  1. 服务化 (Service-Oriented): 将 GE 的能力封装成一个独立的微服务,通过 RESTful API 对外提供数据分析质量的定义、校验、报告。
  2. 配置驱动 (Configuration-Driven): 所有的期望(Expectations)、数据源连接、校验点(Checkpoints)都是可配置的,期望有默认版本和自定义版本。
  3. 聚焦验证 (Validation):通过GE发现验证问题解决问题留给后续的数据清洗和修改
  4. 异步(Asynchronous): 应对多任务同时分析,不阻塞流程
  5. 增量分析(Incremental- Analysis ):数据会多次分析和修改才能使用

##架构设计: 使用 FastAPI 构建 RESTful API 服务,具备高性能和自带 OpenAPI (Swagger UI) 文档,异步支持度高。

  1. 分析流程管理 解析 API 请求,管理分析任务的生命周期,支持异步,接受请求-调度服务-存储报告-触发通知。
  2. GE封装 以编程配置方式管理数据源Datasources、期望套件Expectation Suites和校验点Checkpoints执行数据分析Profiling和数据校验Validation
  3. 期望仓库和结果存储 使用 Git 仓库mysql期望是json来存储期望仓库对数据质量规则进行版本控制、审计和协作将每次的校验结果结构化后存入数据库便于后续进行数据质量趋势分析、历史追溯和仪表盘展示。
  4. 提供llm api gateway服务 llm api 调用,多供应商统一网关OpenAI / Anthropic / Openrouter / Gemini / Qwen / DeepSeek 一键切换)