论文与资源 (References)

精选 AI/ML 领域的里程碑论文、权威课程和经典书籍。按主题分类，附带简要解读。

📄 里程碑论文 (Landmark Papers)

🏛️ 基石论文 (Foundational)

论文	作者	年份	核心贡献	链接
Attention Is All You Need	Vaswani et al.	2017	提出 Transformer，开启 LLM 时代	arXiv:1706.03762
ImageNet Classification with Deep CNNs (AlexNet)	Krizhevsky et al.	2012	CNN 复兴，深度学习崛起	NeurIPS 2012
Deep Residual Learning (ResNet)	He et al.	2015	残差连接，训练超深网络	arXiv:1512.03385
Dropout	Srivastava et al.	2014	正则化技术，防止过拟合	JMLR 2014
Batch Normalization	Ioffe & Szegedy	2015	加速训练、稳定梯度	arXiv:1502.03167

🤖 大语言模型 (LLM)

论文	模型	年份	核心贡献	链接
BERT	Google	2018	双向 Transformer，预训练革命	arXiv:1810.04805
GPT-2	OpenAI	2019	语言模型即多任务学习器	OpenAI Blog
GPT-3	OpenAI	2020	规模即能力 (Scaling Laws)	arXiv:2005.14165
LLaMA	Meta	2023	开源高效 LLM	arXiv:2302.13971
LLaMA 2	Meta	2023	开源 + RLHF 对齐	arXiv:2307.09288

⚡ 优化与训练

论文	主题	年份	链接
Adam Optimizer	自适应学习率优化	2015	arXiv:1412.6980
AdamW	解耦权重衰减	2019	arXiv:1711.05101
GELU Activation	Transformer 激活函数	2016	arXiv:1606.08415
Layer Normalization	序列模型归一化	2016	arXiv:1607.06450

🔧 高效训练与微调

论文	主题	年份	链接
LoRA	低秩适配微调	2021	arXiv:2106.09685
QLoRA	量化 + LoRA	2023	arXiv:2305.14314
Flash Attention	高效注意力计算	2022	arXiv:2205.14135
Mixed Precision Training	FP16 训练	2018	arXiv:1710.03740

🎯 对齐与安全 (Alignment)

论文	主题	年份	链接
RLHF (InstructGPT)	人类反馈强化学习	2022	arXiv:2203.02155
Constitutional AI	自我改进对齐	2022	arXiv:2212.08073
DPO	直接偏好优化	2023	arXiv:2305.18290

🆕 2024 前沿架构

论文	主题	年份	链接
Mamba (State Space Models)	线性复杂度序列模型	2023	arXiv:2312.00752
Mixtral (MoE)	混合专家模型	2024	arXiv:2401.04088
Jamba	Transformer + Mamba 混合	2024	arXiv:2403.19887

🎓 推荐课程 (Courses)

Andrew Ng - Deep Learning

平台: Coursera / DeepLearning.AI

难度: ⭐⭐ 入门

内容: 神经网络、CNN、RNN、优化器

访问课程

李宏毅 - 机器学习

平台: YouTube / Bilibili

难度: ⭐⭐⭐ 进阶

内容: ML 全栈、Transformer、生成模型

B站链接

Stanford CS224N - NLP

平台: YouTube

难度: ⭐⭐⭐⭐ 高级

内容: NLP、Transformer、预训练模型

访问课程

3Blue1Brown - 神经网络

平台: YouTube / Bilibili

难度: ⭐ 零基础

内容: 可视化理解神经网络原理

B站链接

Fast.ai - Practical Deep Learning

平台: fast.ai 官网

难度: ⭐⭐ 入门 (实战导向)

内容: 从应用入手，反推理论

访问课程

HuggingFace NLP Course

平台: HuggingFace 官方

难度: ⭐⭐⭐ 中级

内容: Transformers 库、NLP 实战

访问课程

📚 经典书籍 (Books)

入门级

书名	作者	特点
《动手学深度学习》(D2L)	李沐等	代码 + 理论，可交互 Jupyter
《Python 深度学习》	François Chollet	Keras 作者，实战导向
《机器学习》西瓜书	周志华	中文经典，理论全面

进阶级

书名	作者	特点
《Deep Learning》花书	Goodfellow et al.	深度学习圣经，理论深度
《Pattern Recognition and ML》	Bishop	贝叶斯视角，数学严谨
《统计学习方法》	李航	传统 ML 算法详解

在线资源

资源	链接	特点
D2L 在线版	d2l.ai	可执行代码
Deep Learning Book	deeplearningbook.org	免费在线
CS231n Notes	cs231n.github.io	Stanford CV 课程笔记
Stanford CS229 Cheatsheet	stanford.edu/~shervine	ML 精美速查表 (Shervine Amidi)
AI/ML Cheatsheets 合集	github.com/afshinea	CS229/230/221 全套

🔧 工具与框架

深度学习框架

框架	特点	官网
PyTorch	动态图、研究首选	pytorch.org
TensorFlow	生产部署、TPU 支持	tensorflow.org
JAX	函数式、自动微分	jax.readthedocs.io

LLM 工具链

工具	用途	链接
HuggingFace Transformers	预训练模型库	huggingface.co
LangChain	LLM 应用开发	langchain.com
LlamaIndex	RAG 框架	llamaindex.ai
vLLM	高效推理	vllm.ai
Ollama	本地运行 LLM	ollama.ai

🎓 Karpathy 教育项目 (必学)

项目	特点	链接
nanoGPT	最简 GPT 训练代码 (~300行)	github.com/karpathy/nanoGPT
micrograd	最小自动微分引擎 (教育用)	github.com/karpathy/micrograd
minGPT	最小 GPT PyTorch 实现	github.com/karpathy/minGPT
build-nanogpt	从零构建 GPT 视频配套代码	github.com/karpathy/build-nanogpt

可视化工具

工具	用途	链接
TensorBoard	训练监控	PyTorch/TensorFlow 内置
Weights & Biases	实验追踪	wandb.ai
Netron	模型可视化	netron.app

🎨 可视化学习资源 (Interactive & Visual)

直觉为先：这些网站通过动画和交互帮助你建立直觉，理解抽象概念。

🔥 神经网络 & 深度学习可视化

网站	特点	链接
CNN Explainer	交互式 CNN 可视化，看懂卷积	poloclub.github.io/cnn-explainer
Transformer Explainer	Transformer 架构交互可视化	poloclub.github.io/transformer-explainer
TensorFlow Playground	神经网络训练过程可视化	playground.tensorflow.org
NN-SVG	神经网络架构图生成器	alexlenail.me/NN-SVG
Distill.pub	顶级 ML 可视化论文期刊	distill.pub
Seeing Theory	概率统计可视化教程	seeing-theory.brown.edu
LLM Visualization	LLM 推理过程可视化	bbycroft.net/llm

📐 数学可视化

网站	特点	链接
3Blue1Brown	数学动画神作 (线代、微积分、神经网络)	3blue1brown.com
Desmos	强大的函数绘图计算器	desmos.com/calculator
GeoGebra	几何 & 代数可视化	geogebra.org
Manim	3Blue1Brown 开源动画引擎	manim.community
Immersive Math	交互式线性代数教程	immersivemath.com/ila
Better Explained	直觉优先的数学解释	betterexplained.com

🧮 算法可视化

网站	特点	链接
VisuAlgo	算法和数据结构动画	visualgo.net
Algorithm Visualizer	开源算法可视化平台	algorithm-visualizer.org
Sorting Algorithms	排序算法动画对比	toptal.com/sorting-algorithms
Big-O Cheat Sheet	时间复杂度速查	bigocheatsheet.com

🔬 Attention & Transformer 专项

网站	特点	链接
BertViz	Jupyter 交互式注意力可视化	github.com/jessevig/bertviz
Annotated Transformer	Harvard NLP 逐行代码注释	nlp.seas.harvard.edu
AttentionViz	注意力模式全局可视化	catherinesyeh.github.io/attn-docs
3D CNN Visualization	卷积网络 3D 交互	adamharley.com/nn_vis

✍️ 优秀博客 & 技术写作

质量为先：这些博客/作者以深度、清晰著称，值得反复阅读。

🌟 必读博客

博客	作者/来源	特点	链接
Lil’Log	Lilian Weng (OpenAI)	LLM、强化学习深度解读	lilianweng.github.io
Jay Alammar	Jay Alammar	Transformer/BERT 可视化讲解	jalammar.github.io
Colah’s Blog	Christopher Olah	LSTM、注意力机制经典图解	colah.github.io
Karpathy’s Blog	Andrej Karpathy	RNN、GPT 实战心得	karpathy.ai
Sebastian Ruder	Sebastian Ruder	NLP、迁移学习综述	ruder.io
The Gradient	社区	高质量 ML 访谈 & 综述	thegradient.pub

📝 中文博客 & 社区

博客	特点	链接
机器之心	AI 新闻 + 技术解读	jiqizhixin.com
PaperWeekly	论文解读社区	知乎专栏
知乎 ML/DL 专栏	多位大神分享	zhihu.com
苏剑林科学空间	数学 + NLP 深度文章	kexue.fm

🎬 YouTube 频道推荐

系统为先：这些频道提供系统性的课程或主题讲解。

🔥 必订阅

频道	内容	链接
3Blue1Brown	数学可视化神作	youtube.com/@3blue1brown
Andrej Karpathy	GPT 从零手写、实战教程	youtube.com/@AndrejKarpathy
Yannic Kilcher	论文解读、AI 新闻	youtube.com/@YannicKilcher
StatQuest	统计 & ML 基础 (图解风格)	youtube.com/@statquest
Two Minute Papers	前沿论文 2 分钟速览	youtube.com/@TwoMinutePapers
Computerphile	CS 基础概念讲解	youtube.com/@Computerphile

📚 系统课程

频道/课程	内容	链接
Stanford Online	CS229, CS231n, CS224n	youtube.com/@stanfordonline
MIT OpenCourseWare	线性代数、微积分	youtube.com/@mitocw
DeepMind x UCL	强化学习系列	youtube.com/deepmind
Sentdex	Python ML 实战	youtube.com/@sentdex

🇨🇳 中文频道 (B站)

UP主	内容	链接
3Blue1Brown	官方中文账号	space.bilibili.com/88461692
跟李沐学AI	论文精读、D2L 课程	space.bilibili.com/1567748478
李宏毅	机器学习完整课程	搜索”李宏毅机器学习”
同济子豪兄	CV 实战、代码讲解	space.bilibili.com/94779326
Hongyi Li (李弘毅)	生成模型、LLM	搜索”李宏毅生成式AI”

📖 如何读论文？

资源	特点	链接
李沐论文精读	中文、深入浅出	B站
Yannic Kilcher	英文、覆盖广	YouTube
Papers With Code	论文 + 代码 + 排行榜	paperswithcode.com

🔗 相关页面

术语表 - 术语速查
学习路径 - 系统学习指南

论文与资源 (References)

📄 里程碑论文 (Landmark Papers)

🏛️ 基石论文 (Foundational)

🤖 大语言模型 (LLM)

⚡ 优化与训练

🔧 高效训练与微调

🎯 对齐与安全 (Alignment)

🆕 2024 前沿架构

🎓 推荐课程 (Courses)

📚 经典书籍 (Books)

入门级

进阶级

在线资源

🔧 工具与框架

深度学习框架

LLM 工具链

🎓 Karpathy 教育项目 (必学)

可视化工具

🎨 可视化学习资源 (Interactive & Visual)

🔥 神经网络 & 深度学习可视化

📐 数学可视化

🧮 算法可视化

🔬 Attention & Transformer 专项

✍️ 优秀博客 & 技术写作

🌟 必读博客

📝 中文博客 & 社区

🎬 YouTube 频道推荐

🔥 必订阅

📚 系统课程

🇨🇳 中文频道 (B站)

📖 如何读论文？

推荐论文解读资源

🔗 相关页面