🎓

AI PhD 毕业考核清单

全面检验你的 AI 博士知识体系

Overall Progress 0 / 59 COMPLETED

📐

一、数学基础

13 ITEMS

1.1 线性代数

矩阵分解（SVD、QR、特征分解）及应用场景
线性变换的几何理解（旋转、缩放、投影）
张量运算与广播机制

1.2 概率统计

贝叶斯推断：先验、似然、后验
常见分布及其性质（高斯、指数族、混合分布）
假设检验与置信区间
MLE vs MAP 的区别与联系

1.3 优化理论

梯度下降收敛性分析
凸优化基础：凸集、凸函数、对偶
常用优化器原理（Adam、AdamW、SGD+Momentum）

1.4 信息论

熵、交叉熵、KL 散度的含义与联系
互信息及其在 ML 中的应用
信息论与机器学习的联系（信息瓶颈等）

Z

二、机器学习核心

11 ITEMS

2.1 统计学习理论

VC 维与泛化界的直观理解
Bias-Variance Trade-off 及其分解
过拟合与正则化（L1/L2、Dropout、Early Stopping）

2.2 经典模型

树模型原理（决策树、随机森林、GBDT/XGBoost）
SVM 与核方法
概率图模型（HMM、CRF）

2.3 深度学习原理

反向传播完整推导
梯度消失/爆炸的成因与解决方案
BatchNorm vs LayerNorm 的本质区别
注意力机制的数学本质与计算复杂度
残差连接为何有效（梯度流角度）

🧠

三、大语言模型

15 ITEMS

3.1 架构

Transformer 完整前向传播推导
注意力计算复杂度 O(n²) 及优化方法（Flash Attention）
位置编码原理（Sinusoidal、RoPE、ALiBi）
解码策略对比（Greedy、Beam、Top-k、Top-p、Temperature）

3.2 训练

Scaling Laws 的核心结论
预训练数据配比、清洗、去重策略
分布式训练基础（DP、TP、PP、ZeRO）
涌现能力的现象与争议

3.3 对齐

RLHF 完整流程（SFT → RM → PPO）
PPO 算法核心思想与实现要点
DPO 及其变体（IPO、KTO、ORPO）
安全与对齐的开放问题（越狱、奖励黑客）

3.4 推理与系统

KV Cache 原理与优化
推理加速（投机解码、量化、投机采样）
长上下文扩展技术（RoPE 外推、YaRN、Ring Attention）

🚀

四、前沿方向

11 ITEMS

4.1 多模态

视觉-语言对齐（CLIP、BLIP）
统一架构设计（Flamingo、GPT-4V 思路）
多模态推理与 Chain-of-Thought
视频理解与生成（Sora、VideoLLM）

4.2 强化学习

MDP 与 Bellman 方程
Policy Gradient 及其变体（REINFORCE、Actor-Critic）
Model-based RL 与世界模型
LLM + RL 结合（RLAIF、Process Reward Model）

4.3 具身智能

机器人学习基础（模仿学习、强化学习）
Sim-to-Real 迁移
VLA（Vision-Language-Action）模型

🔬

五、研究方法论

9 ITEMS

5.1 问题发现

如何判断问题的价值（增量 vs 本质创新）
识别领域瓶颈与盲点
从失败实验中提炼问题
从实际应用场景反推研究问题
区分"有趣"和"有用"的问题

5.2 文献驾驭

快速阅读：先抓贡献和局限，再读细节
批判性阅读：假设是否合理？实验是否充分？
建立领域图谱：谁在做什么、流派分歧
追踪前沿：arXiv、会议、关键作者

Progression automatically cached to local manifold