完成本培训后,学员将能够:
1. 理解 AI 工程化的核心概念、挑战与最佳实践。
2. 独立或协作完成一个端到端的 AI 项目,从数据准备到模型部署与监控。
3. 掌握 MLops 的关键工具链(如 Docker, Git, CI/CD, Kubernetes, 云平台服务等)。
4. 具备构建高可用、可扩展且安全的 AI 系统的能力。
· 有一定基础的软件工程师/后端工程师
· 希望转型 AI 工程化的数据科学家
· DevOps/SRE 工程师
· 技术项目经理/产品经理
· 基本的 Python 编程能力
· 对机器学习基本概念(如训练、测试、模型评估)有初步了解
· 了解 Linux 基础命令和 Git 的基本使用
详细大纲
1.1 引言:从模型到系统
什么是 AI 工程化?为什么它不同于学术研究或实验性建模?
AI 项目的生命周期 vs 传统软件开发生命周期。
面临的独特挑战:数据漂移、概念漂移、技术债、可复现性等。
1.2 MLOps 基础
MLOps 的定义、原则与成熟度模型(手动 -> 自动化 -> 自主)。
MLOps 与 DevOps 的关联与区别。
AI 工程化的关键支柱:数据、模型、代码、基础设施。
模块二:数据工程与特征平台
2.1 生产环境的数据管理
数据版本控制概念与工具介绍(如 DVC)。
数据质量验证与监控(如 Great Expectations)。
数据血缘与元数据管理。
2.2 特征工程与特征存储
生产环境中的特征工程:训练/服务偏斜问题。
特征存储的概念与价值(如 Feast, Tecton)。
实战:使用一个开源特征存储库(如 Feast)实现特征的注册、共享和复用。
模块三:模型开发与可复现性
3.1 模型训练的环境与编排
容器化基础:使用 Docker 封装训练环境。
使用 MLflow 或 Weights & Biases 进行实验跟踪、参数记录和模型注册。
分布式训练简介(可选,视项目需求)。
3.2 模型评估与验证
超越准确率:生产环境的模型评估指标(业务指标、公平性、可解释性)。
模型验证策略:在批准部署前确保新模型优于旧模型。
模块四:模型部署与服务化
4.1 部署模式
离线(批量)预测 vs. 在线(实时)推理。
嵌入式部署:将模型打包到移动端或边缘设备。
4.2 模型服务化
构建RESTful API:使用 FastAPI 或 Flask 包装模型。
容器化模型服务:创建模型的Docker 镜像。
使用专业的模型服务工具:KServe, Seldon Core, Triton Inference Server。
4.3 在云平台上部署
云服务概览:AWS SageMaker, GCP Vertex AI, Azure ML
实战:将容器化的模型部署到 Kubernetes 集群或无服务器平台(如 AWS EKS/Fargate)
模块五:自动化流水线与持续集成/持续交付
5.1 CI/CD for ML
为 ML 项目定制 CI/CD 流水线(使用 GitHub Actions, GitLab CI, Jenkins)。
自动化流程:代码检查 -> 运行测试 -> 训练模型 -> 评估 -> 部署。
5.2 构建自动化 ML 流水线
使用 Kubeflow Pipelines 或 Airflow 编排端到端的 ML 工作流。
实战:构建一个从数据预处理到模型部署的完整自动化流水线。
模块六:生产环境的监控与治理
6.1 模型与系统监控
系统监控:延迟、吞吐量、错误率、资源利用率。
模型性能监控:预测质量下降、数据漂移、概念漂移的检测与告警。
实战:使用 Prometheus/Grafana 或 Evidently AI 设置监控看板。
6.2 AI 系统的治理与伦理
模型的可解释性与公平性(SHAP, LIME)。
模型安全与对抗性攻击简介。
成本管理与优化。
模块七:综合项目实战