Andrew Ng - Deep Learning
论文与资源 (References)
精选 AI/ML 领域的里程碑论文、权威课程和经典书籍。按主题分类,附带简要解读。
📄 里程碑论文 (Landmark Papers)
Section titled “📄 里程碑论文 (Landmark Papers)”🏛️ 基石论文 (Foundational)
Section titled “🏛️ 基石论文 (Foundational)”| 论文 | 作者 | 年份 | 核心贡献 | 链接 |
|---|---|---|---|---|
| Attention Is All You Need | Vaswani et al. | 2017 | 提出 Transformer,开启 LLM 时代 | arXiv:1706.03762 |
| ImageNet Classification with Deep CNNs (AlexNet) | Krizhevsky et al. | 2012 | CNN 复兴,深度学习崛起 | NeurIPS 2012 |
| Deep Residual Learning (ResNet) | He et al. | 2015 | 残差连接,训练超深网络 | arXiv:1512.03385 |
| Dropout | Srivastava et al. | 2014 | 正则化技术,防止过拟合 | JMLR 2014 |
| Batch Normalization | Ioffe & Szegedy | 2015 | 加速训练、稳定梯度 | arXiv:1502.03167 |
🤖 大语言模型 (LLM)
Section titled “🤖 大语言模型 (LLM)”| 论文 | 模型 | 年份 | 核心贡献 | 链接 |
|---|---|---|---|---|
| BERT | 2018 | 双向 Transformer,预训练革命 | arXiv:1810.04805 | |
| GPT-2 | OpenAI | 2019 | 语言模型即多任务学习器 | OpenAI Blog |
| GPT-3 | OpenAI | 2020 | 规模即能力 (Scaling Laws) | arXiv:2005.14165 |
| LLaMA | Meta | 2023 | 开源高效 LLM | arXiv:2302.13971 |
| LLaMA 2 | Meta | 2023 | 开源 + RLHF 对齐 | arXiv:2307.09288 |
⚡ 优化与训练
Section titled “⚡ 优化与训练”| 论文 | 主题 | 年份 | 链接 |
|---|---|---|---|
| Adam Optimizer | 自适应学习率优化 | 2015 | arXiv:1412.6980 |
| AdamW | 解耦权重衰减 | 2019 | arXiv:1711.05101 |
| GELU Activation | Transformer 激活函数 | 2016 | arXiv:1606.08415 |
| Layer Normalization | 序列模型归一化 | 2016 | arXiv:1607.06450 |
🔧 高效训练与微调
Section titled “🔧 高效训练与微调”| 论文 | 主题 | 年份 | 链接 |
|---|---|---|---|
| LoRA | 低秩适配微调 | 2021 | arXiv:2106.09685 |
| QLoRA | 量化 + LoRA | 2023 | arXiv:2305.14314 |
| Flash Attention | 高效注意力计算 | 2022 | arXiv:2205.14135 |
| Mixed Precision Training | FP16 训练 | 2018 | arXiv:1710.03740 |
🎯 对齐与安全 (Alignment)
Section titled “🎯 对齐与安全 (Alignment)”| 论文 | 主题 | 年份 | 链接 |
|---|---|---|---|
| RLHF (InstructGPT) | 人类反馈强化学习 | 2022 | arXiv:2203.02155 |
| Constitutional AI | 自我改进对齐 | 2022 | arXiv:2212.08073 |
| DPO | 直接偏好优化 | 2023 | arXiv:2305.18290 |
🆕 2024 前沿架构
Section titled “🆕 2024 前沿架构”| 论文 | 主题 | 年份 | 链接 |
|---|---|---|---|
| Mamba (State Space Models) | 线性复杂度序列模型 | 2023 | arXiv:2312.00752 |
| Mixtral (MoE) | 混合专家模型 | 2024 | arXiv:2401.04088 |
| Jamba | Transformer + Mamba 混合 | 2024 | arXiv:2403.19887 |
🎓 推荐课程 (Courses)
Section titled “🎓 推荐课程 (Courses)”李宏毅 - 机器学习
Stanford CS224N - NLP
3Blue1Brown - 神经网络
Fast.ai - Practical Deep Learning
HuggingFace NLP Course
📚 经典书籍 (Books)
Section titled “📚 经典书籍 (Books)”| 书名 | 作者 | 特点 |
|---|---|---|
| 《动手学深度学习》(D2L) | 李沐等 | 代码 + 理论,可交互 Jupyter |
| 《Python 深度学习》 | François Chollet | Keras 作者,实战导向 |
| 《机器学习》西瓜书 | 周志华 | 中文经典,理论全面 |
| 书名 | 作者 | 特点 |
|---|---|---|
| 《Deep Learning》花书 | Goodfellow et al. | 深度学习圣经,理论深度 |
| 《Pattern Recognition and ML》 | Bishop | 贝叶斯视角,数学严谨 |
| 《统计学习方法》 | 李航 | 传统 ML 算法详解 |
| 资源 | 链接 | 特点 |
|---|---|---|
| D2L 在线版 | d2l.ai | 可执行代码 |
| Deep Learning Book | deeplearningbook.org | 免费在线 |
| CS231n Notes | cs231n.github.io | Stanford CV 课程笔记 |
| Stanford CS229 Cheatsheet | stanford.edu/~shervine | ML 精美速查表 (Shervine Amidi) |
| AI/ML Cheatsheets 合集 | github.com/afshinea | CS229/230/221 全套 |
🔧 工具与框架
Section titled “🔧 工具与框架”深度学习框架
Section titled “深度学习框架”| 框架 | 特点 | 官网 |
|---|---|---|
| PyTorch | 动态图、研究首选 | pytorch.org |
| TensorFlow | 生产部署、TPU 支持 | tensorflow.org |
| JAX | 函数式、自动微分 | jax.readthedocs.io |
LLM 工具链
Section titled “LLM 工具链”| 工具 | 用途 | 链接 |
|---|---|---|
| HuggingFace Transformers | 预训练模型库 | huggingface.co |
| LangChain | LLM 应用开发 | langchain.com |
| LlamaIndex | RAG 框架 | llamaindex.ai |
| vLLM | 高效推理 | vllm.ai |
| Ollama | 本地运行 LLM | ollama.ai |
🎓 Karpathy 教育项目 (必学)
Section titled “🎓 Karpathy 教育项目 (必学)”| 项目 | 特点 | 链接 |
|---|---|---|
| nanoGPT | 最简 GPT 训练代码 (~300行) | github.com/karpathy/nanoGPT |
| micrograd | 最小自动微分引擎 (教育用) | github.com/karpathy/micrograd |
| minGPT | 最小 GPT PyTorch 实现 | github.com/karpathy/minGPT |
| build-nanogpt | 从零构建 GPT 视频配套代码 | github.com/karpathy/build-nanogpt |
| 工具 | 用途 | 链接 |
|---|---|---|
| TensorBoard | 训练监控 | PyTorch/TensorFlow 内置 |
| Weights & Biases | 实验追踪 | wandb.ai |
| Netron | 模型可视化 | netron.app |
🎨 可视化学习资源 (Interactive & Visual)
Section titled “🎨 可视化学习资源 (Interactive & Visual)”直觉为先:这些网站通过动画和交互帮助你建立直觉,理解抽象概念。
🔥 神经网络 & 深度学习可视化
Section titled “🔥 神经网络 & 深度学习可视化”| 网站 | 特点 | 链接 |
|---|---|---|
| CNN Explainer | 交互式 CNN 可视化,看懂卷积 | poloclub.github.io/cnn-explainer |
| Transformer Explainer | Transformer 架构交互可视化 | poloclub.github.io/transformer-explainer |
| TensorFlow Playground | 神经网络训练过程可视化 | playground.tensorflow.org |
| NN-SVG | 神经网络架构图生成器 | alexlenail.me/NN-SVG |
| Distill.pub | 顶级 ML 可视化论文期刊 | distill.pub |
| Seeing Theory | 概率统计可视化教程 | seeing-theory.brown.edu |
| LLM Visualization | LLM 推理过程可视化 | bbycroft.net/llm |
📐 数学可视化
Section titled “📐 数学可视化”| 网站 | 特点 | 链接 |
|---|---|---|
| 3Blue1Brown | 数学动画神作 (线代、微积分、神经网络) | 3blue1brown.com |
| Desmos | 强大的函数绘图计算器 | desmos.com/calculator |
| GeoGebra | 几何 & 代数可视化 | geogebra.org |
| Manim | 3Blue1Brown 开源动画引擎 | manim.community |
| Immersive Math | 交互式线性代数教程 | immersivemath.com/ila |
| Better Explained | 直觉优先的数学解释 | betterexplained.com |
🧮 算法可视化
Section titled “🧮 算法可视化”| 网站 | 特点 | 链接 |
|---|---|---|
| VisuAlgo | 算法和数据结构动画 | visualgo.net |
| Algorithm Visualizer | 开源算法可视化平台 | algorithm-visualizer.org |
| Sorting Algorithms | 排序算法动画对比 | toptal.com/sorting-algorithms |
| Big-O Cheat Sheet | 时间复杂度速查 | bigocheatsheet.com |
🔬 Attention & Transformer 专项
Section titled “🔬 Attention & Transformer 专项”| 网站 | 特点 | 链接 |
|---|---|---|
| BertViz | Jupyter 交互式注意力可视化 | github.com/jessevig/bertviz |
| Annotated Transformer | Harvard NLP 逐行代码注释 | nlp.seas.harvard.edu |
| AttentionViz | 注意力模式全局可视化 | catherinesyeh.github.io/attn-docs |
| 3D CNN Visualization | 卷积网络 3D 交互 | adamharley.com/nn_vis |
✍️ 优秀博客 & 技术写作
Section titled “✍️ 优秀博客 & 技术写作”质量为先:这些博客/作者以深度、清晰著称,值得反复阅读。
🌟 必读博客
Section titled “🌟 必读博客”| 博客 | 作者/来源 | 特点 | 链接 |
|---|---|---|---|
| Lil’Log | Lilian Weng (OpenAI) | LLM、强化学习深度解读 | lilianweng.github.io |
| Jay Alammar | Jay Alammar | Transformer/BERT 可视化讲解 | jalammar.github.io |
| Colah’s Blog | Christopher Olah | LSTM、注意力机制经典图解 | colah.github.io |
| Karpathy’s Blog | Andrej Karpathy | RNN、GPT 实战心得 | karpathy.ai |
| Sebastian Ruder | Sebastian Ruder | NLP、迁移学习综述 | ruder.io |
| The Gradient | 社区 | 高质量 ML 访谈 & 综述 | thegradient.pub |
📝 中文博客 & 社区
Section titled “📝 中文博客 & 社区”| 博客 | 特点 | 链接 |
|---|---|---|
| 机器之心 | AI 新闻 + 技术解读 | jiqizhixin.com |
| PaperWeekly | 论文解读社区 | 知乎专栏 |
| 知乎 ML/DL 专栏 | 多位大神分享 | zhihu.com |
| 苏剑林科学空间 | 数学 + NLP 深度文章 | kexue.fm |
🎬 YouTube 频道推荐
Section titled “🎬 YouTube 频道推荐”系统为先:这些频道提供系统性的课程或主题讲解。
| 频道 | 内容 | 链接 |
|---|---|---|
| 3Blue1Brown | 数学可视化神作 | youtube.com/@3blue1brown |
| Andrej Karpathy | GPT 从零手写、实战教程 | youtube.com/@AndrejKarpathy |
| Yannic Kilcher | 论文解读、AI 新闻 | youtube.com/@YannicKilcher |
| StatQuest | 统计 & ML 基础 (图解风格) | youtube.com/@statquest |
| Two Minute Papers | 前沿论文 2 分钟速览 | youtube.com/@TwoMinutePapers |
| Computerphile | CS 基础概念讲解 | youtube.com/@Computerphile |
📚 系统课程
Section titled “📚 系统课程”| 频道/课程 | 内容 | 链接 |
|---|---|---|
| Stanford Online | CS229, CS231n, CS224n | youtube.com/@stanfordonline |
| MIT OpenCourseWare | 线性代数、微积分 | youtube.com/@mitocw |
| DeepMind x UCL | 强化学习系列 | youtube.com/deepmind |
| Sentdex | Python ML 实战 | youtube.com/@sentdex |
🇨🇳 中文频道 (B站)
Section titled “🇨🇳 中文频道 (B站)”| UP主 | 内容 | 链接 |
|---|---|---|
| 3Blue1Brown | 官方中文账号 | space.bilibili.com/88461692 |
| 跟李沐学AI | 论文精读、D2L 课程 | space.bilibili.com/1567748478 |
| 李宏毅 | 机器学习完整课程 | 搜索”李宏毅机器学习” |
| 同济子豪兄 | CV 实战、代码讲解 | space.bilibili.com/94779326 |
| Hongyi Li (李弘毅) | 生成模型、LLM | 搜索”李宏毅生成式AI” |
📖 如何读论文?
Section titled “📖 如何读论文?”推荐论文解读资源
Section titled “推荐论文解读资源”| 资源 | 特点 | 链接 |
|---|---|---|
| 李沐论文精读 | 中文、深入浅出 | B站 |
| Yannic Kilcher | 英文、覆盖广 | YouTube |
| Papers With Code | 论文 + 代码 + 排行榜 | paperswithcode.com |