Skip to content

论文与资源 (References)

精选 AI/ML 领域的里程碑论文权威课程经典书籍。按主题分类,附带简要解读。


论文作者年份核心贡献链接
Attention Is All You NeedVaswani et al.2017提出 Transformer,开启 LLM 时代arXiv:1706.03762
ImageNet Classification with Deep CNNs (AlexNet)Krizhevsky et al.2012CNN 复兴,深度学习崛起NeurIPS 2012
Deep Residual Learning (ResNet)He et al.2015残差连接,训练超深网络arXiv:1512.03385
DropoutSrivastava et al.2014正则化技术,防止过拟合JMLR 2014
Batch NormalizationIoffe & Szegedy2015加速训练、稳定梯度arXiv:1502.03167
论文模型年份核心贡献链接
BERTGoogle2018双向 Transformer,预训练革命arXiv:1810.04805
GPT-2OpenAI2019语言模型即多任务学习器OpenAI Blog
GPT-3OpenAI2020规模即能力 (Scaling Laws)arXiv:2005.14165
LLaMAMeta2023开源高效 LLMarXiv:2302.13971
LLaMA 2Meta2023开源 + RLHF 对齐arXiv:2307.09288
论文主题年份链接
Adam Optimizer自适应学习率优化2015arXiv:1412.6980
AdamW解耦权重衰减2019arXiv:1711.05101
GELU ActivationTransformer 激活函数2016arXiv:1606.08415
Layer Normalization序列模型归一化2016arXiv:1607.06450
论文主题年份链接
LoRA低秩适配微调2021arXiv:2106.09685
QLoRA量化 + LoRA2023arXiv:2305.14314
Flash Attention高效注意力计算2022arXiv:2205.14135
Mixed Precision TrainingFP16 训练2018arXiv:1710.03740
论文主题年份链接
RLHF (InstructGPT)人类反馈强化学习2022arXiv:2203.02155
Constitutional AI自我改进对齐2022arXiv:2212.08073
DPO直接偏好优化2023arXiv:2305.18290
论文主题年份链接
Mamba (State Space Models)线性复杂度序列模型2023arXiv:2312.00752
Mixtral (MoE)混合专家模型2024arXiv:2401.04088
JambaTransformer + Mamba 混合2024arXiv:2403.19887

Andrew Ng - Deep Learning

平台: Coursera / DeepLearning.AI

难度: ⭐⭐ 入门

内容: 神经网络、CNN、RNN、优化器

访问课程

李宏毅 - 机器学习

平台: YouTube / Bilibili

难度: ⭐⭐⭐ 进阶

内容: ML 全栈、Transformer、生成模型

B站链接

Stanford CS224N - NLP

平台: YouTube

难度: ⭐⭐⭐⭐ 高级

内容: NLP、Transformer、预训练模型

访问课程

3Blue1Brown - 神经网络

平台: YouTube / Bilibili

难度: ⭐ 零基础

内容: 可视化理解神经网络原理

B站链接

Fast.ai - Practical Deep Learning

平台: fast.ai 官网

难度: ⭐⭐ 入门 (实战导向)

内容: 从应用入手,反推理论

访问课程

HuggingFace NLP Course

平台: HuggingFace 官方

难度: ⭐⭐⭐ 中级

内容: Transformers 库、NLP 实战

访问课程


书名作者特点
《动手学深度学习》(D2L)李沐等代码 + 理论,可交互 Jupyter
《Python 深度学习》François CholletKeras 作者,实战导向
《机器学习》西瓜书周志华中文经典,理论全面
书名作者特点
《Deep Learning》花书Goodfellow et al.深度学习圣经,理论深度
《Pattern Recognition and ML》Bishop贝叶斯视角,数学严谨
《统计学习方法》李航传统 ML 算法详解
资源链接特点
D2L 在线版d2l.ai可执行代码
Deep Learning Bookdeeplearningbook.org免费在线
CS231n Notescs231n.github.ioStanford CV 课程笔记
Stanford CS229 Cheatsheetstanford.edu/~shervineML 精美速查表 (Shervine Amidi)
AI/ML Cheatsheets 合集github.com/afshineaCS229/230/221 全套

框架特点官网
PyTorch动态图、研究首选pytorch.org
TensorFlow生产部署、TPU 支持tensorflow.org
JAX函数式、自动微分jax.readthedocs.io
工具用途链接
HuggingFace Transformers预训练模型库huggingface.co
LangChainLLM 应用开发langchain.com
LlamaIndexRAG 框架llamaindex.ai
vLLM高效推理vllm.ai
Ollama本地运行 LLMollama.ai
项目特点链接
nanoGPT最简 GPT 训练代码 (~300行)github.com/karpathy/nanoGPT
micrograd最小自动微分引擎 (教育用)github.com/karpathy/micrograd
minGPT最小 GPT PyTorch 实现github.com/karpathy/minGPT
build-nanogpt从零构建 GPT 视频配套代码github.com/karpathy/build-nanogpt
工具用途链接
TensorBoard训练监控PyTorch/TensorFlow 内置
Weights & Biases实验追踪wandb.ai
Netron模型可视化netron.app

🎨 可视化学习资源 (Interactive & Visual)

Section titled “🎨 可视化学习资源 (Interactive & Visual)”

直觉为先:这些网站通过动画和交互帮助你建立直觉,理解抽象概念。

网站特点链接
CNN Explainer交互式 CNN 可视化,看懂卷积poloclub.github.io/cnn-explainer
Transformer ExplainerTransformer 架构交互可视化poloclub.github.io/transformer-explainer
TensorFlow Playground神经网络训练过程可视化playground.tensorflow.org
NN-SVG神经网络架构图生成器alexlenail.me/NN-SVG
Distill.pub顶级 ML 可视化论文期刊distill.pub
Seeing Theory概率统计可视化教程seeing-theory.brown.edu
LLM VisualizationLLM 推理过程可视化bbycroft.net/llm
网站特点链接
3Blue1Brown数学动画神作 (线代、微积分、神经网络)3blue1brown.com
Desmos强大的函数绘图计算器desmos.com/calculator
GeoGebra几何 & 代数可视化geogebra.org
Manim3Blue1Brown 开源动画引擎manim.community
Immersive Math交互式线性代数教程immersivemath.com/ila
Better Explained直觉优先的数学解释betterexplained.com
网站特点链接
VisuAlgo算法和数据结构动画visualgo.net
Algorithm Visualizer开源算法可视化平台algorithm-visualizer.org
Sorting Algorithms排序算法动画对比toptal.com/sorting-algorithms
Big-O Cheat Sheet时间复杂度速查bigocheatsheet.com
网站特点链接
BertVizJupyter 交互式注意力可视化github.com/jessevig/bertviz
Annotated TransformerHarvard NLP 逐行代码注释nlp.seas.harvard.edu
AttentionViz注意力模式全局可视化catherinesyeh.github.io/attn-docs
3D CNN Visualization卷积网络 3D 交互adamharley.com/nn_vis

质量为先:这些博客/作者以深度、清晰著称,值得反复阅读。

博客作者/来源特点链接
Lil’LogLilian Weng (OpenAI)LLM、强化学习深度解读lilianweng.github.io
Jay AlammarJay AlammarTransformer/BERT 可视化讲解jalammar.github.io
Colah’s BlogChristopher OlahLSTM、注意力机制经典图解colah.github.io
Karpathy’s BlogAndrej KarpathyRNN、GPT 实战心得karpathy.ai
Sebastian RuderSebastian RuderNLP、迁移学习综述ruder.io
The Gradient社区高质量 ML 访谈 & 综述thegradient.pub
博客特点链接
机器之心AI 新闻 + 技术解读jiqizhixin.com
PaperWeekly论文解读社区知乎专栏
知乎 ML/DL 专栏多位大神分享zhihu.com
苏剑林科学空间数学 + NLP 深度文章kexue.fm

系统为先:这些频道提供系统性的课程或主题讲解。

频道内容链接
3Blue1Brown数学可视化神作youtube.com/@3blue1brown
Andrej KarpathyGPT 从零手写、实战教程youtube.com/@AndrejKarpathy
Yannic Kilcher论文解读、AI 新闻youtube.com/@YannicKilcher
StatQuest统计 & ML 基础 (图解风格)youtube.com/@statquest
Two Minute Papers前沿论文 2 分钟速览youtube.com/@TwoMinutePapers
ComputerphileCS 基础概念讲解youtube.com/@Computerphile
频道/课程内容链接
Stanford OnlineCS229, CS231n, CS224nyoutube.com/@stanfordonline
MIT OpenCourseWare线性代数、微积分youtube.com/@mitocw
DeepMind x UCL强化学习系列youtube.com/deepmind
SentdexPython ML 实战youtube.com/@sentdex
UP主内容链接
3Blue1Brown官方中文账号space.bilibili.com/88461692
跟李沐学AI论文精读、D2L 课程space.bilibili.com/1567748478
李宏毅机器学习完整课程搜索”李宏毅机器学习”
同济子豪兄CV 实战、代码讲解space.bilibili.com/94779326
Hongyi Li (李弘毅)生成模型、LLM搜索”李宏毅生成式AI”

资源特点链接
李沐论文精读中文、深入浅出B站
Yannic Kilcher英文、覆盖广YouTube
Papers With Code论文 + 代码 + 排行榜paperswithcode.com