完成本培训后,学员将能够:
·深化理论基础:深入理解深度学习、生成式AI等领域的数学原理和模型架构,不再停留在调包层面。
·掌握前沿架构:精通Transformer、扩散模型等核心架构的细节、变体及其应用场景。
·具备科研与工程化思维:能够复现、调试、优化甚至改进先进算法,并将其有效地应用于解决复杂、大规模问题。
·追踪技术趋势:建立系统的知识框架,以便持续自主地学习和跟踪AI领域的最新进展。
二、目标学员
·拥有扎实机器学习基础的数据科学家、算法工程师。
·希望深入AI研发领域的软件工程师、研究型工程师。
·相关专业的硕士、博士研究生及高校研究人员。
三、预备知识
·熟练掌握机器学习基础(线性模型、树模型、神经网络、梯度下降)。
·熟练掌握Python和至少一个深度学习框架(PyTorch首选/TensorFlow)。
·具备良好的数学基础(线性代数、概率论、微积分)。
四、详细大纲
模块一:深度学习理论基础深化
1.1 深度网络的优化难题与高级技巧
·优化目标 landscape 分析:为何深度学习难以优化?
·优化器进阶:从Adam到新锐优化器(如Lion, Sophia)的原理与比较。
·初始化策略深度解析:Kaiming, Xavier 背后的数学原理。
·损失面分析与扁平最小值:通向泛化能力更好的解。
1.2 生成式模型的核心范式与数学基础
·生成式模型的统一视角:隐变量模型与似然函数。
·变分自编码器:重参数化技巧、ELBO的深入推导与控制生成。
·生成对抗网络:博弈论视角、训练动力学与模式崩溃的理论分析。
·标准化流:可逆变换与精确似然计算。
模块二:Transformer架构深度解析与前沿进展
2.1 Transformer 核心机制剖析
·自注意力机制:数学表达、计算复杂度、多种注意力变体(线性注意力、池化注意力)。
·位置编码:绝对位置编码、相对位置编码(如RoPE, ALiBi)的原理与比较。
·深度模型训练技术:预归一化、后归一化、深层网络的稳定性分析。
2.2 Transformer 前沿变体与应用
·高效Transformer:Longformer, BigBird, Linformer 等用于处理长文本的机制。
·视觉Transformer:ViT, Swin Transformer 如何将Transformer成功应用于CV领域。
·大语言模型架构演进:Mixture-of-Experts, 状态空间模型(如Mamba)的挑战与机遇。
模块三:生成式AI前沿:扩散模型与自回归模型
3.1 扩散模型深度解析
·基础原理:前向过程与反向去噪过程的数学推导。
·核心设计:噪声调度、条件控制(Classifier-Free Guidance, T5 - 条件控制)。
·加速采样技术:DDIM, DPM - Solver 等, 理论加速界限。
·前沿应用:视频生成、3D生成、大语言模型扩散化。
3.2 大语言模型的高级话题
·推理与规划:Chain-of-Thought, Tree-of-Thoughts, Graph-of-Thoughts。
·对齐技术:从RLHF到更稳定的DPO, 及其理论背景。
·智能体:基于LLM的智能体架构、工具使用、记忆与反思。
模块四:超越监督学习:强化学习与自监督学习
4.1 现代强化学习算法
·策略梯度方法进阶:Actor - Critic框架, 近端策略优化(PPO)的细节与实现。
·价值函数方法:DQN及其变体(Rainbow), 分布式RL。
·模仿学习与逆强化学习:从专家示范中学习目标函数。
4.2 自监督与表示学习
·对比学习:SimCLR, MoCo 等算法的核心思想与实现。
·掩码学习:BERT, MAE 如何通过重建学习强大表示。
·表示学习的评估:线性探测、非线性探测等评估协议。
模块五:专项领域算法进阶(选修专题)
5.1 计算机视觉进阶
·目标检测:DETR 系列及其端到端检测思想。
·图像分割:SAM 模型架构与提示式分割。
·多模态模型:CLIP 的对比学习与 LLaVA 等模型的架构。
5.2 图神经网络进阶
·图Transformer与消息传递机制的演进。
·大规模图学习的挑战与解决方案。
模块六:综合研讨与项目实战