1.6 KiB
1.6 KiB
##基础选型: Python + Great Expectations ##设计理念:
- 服务化 (Service-Oriented): 将 GE 的能力封装成一个独立的微服务,通过 RESTful API 对外提供数据分析质量的定义、校验、报告。
- 配置驱动 (Configuration-Driven): 所有的期望(Expectations)、数据源连接、校验点(Checkpoints)都是可配置的,期望有默认版本和自定义版本。
- 聚焦验证 (Validation):通过GE发现验证问题,解决问题留给后续的数据清洗和修改
- 异步(Asynchronous): 应对多任务同时分析,不阻塞流程
- 增量分析(Incremental- Analysis ):数据会多次分析和修改才能使用
##架构设计: 使用 FastAPI 构建 RESTful API 服务,具备高性能和自带 OpenAPI (Swagger UI) 文档,异步支持度高。
- 分析流程管理 解析 API 请求,管理分析任务的生命周期,支持异步,接受请求-调度服务-存储报告-触发通知。
- GE封装 以编程配置方式管理数据源(Datasources)、期望套件(Expectation Suites)和校验点(Checkpoints),执行数据分析(Profiling)和数据校验(Validation)。
- 期望仓库和结果存储 使用 Git 仓库(mysql?,期望是json)来存储期望仓库,对数据质量规则进行版本控制、审计和协作,将每次的校验结果结构化后存入数据库,便于后续进行数据质量趋势分析、历史追溯和仪表盘展示。
- 提供llm api gateway服务 llm api 调用,多供应商统一网关(OpenAI / Anthropic / Openrouter / Gemini / Qwen / DeepSeek 一键切换)