文章
学习资源
AI Infra 学习过程中的课程、书籍、论文、工具和博客资源。
课程
- Stanford CS329S: Machine Learning Systems Design
- CMU 15-744: Computer Networks / Distributed Systems 相关课程
- 操作系统、计算机网络、分布式系统基础课程
书籍
- 《Designing Machine Learning Systems》
- 《Machine Learning Systems》
- 分布式系统、Linux 性能分析、系统设计相关书籍
论文方向
- 分布式训练系统
- 推理服务与模型部署
- 集群调度与资源管理
- MLOps 与机器学习工程化
工具
- Hugo、Markdown、Git
- Linux、Docker、Kubernetes
- PyTorch、Ray、Triton
- Python profiling 与性能分析工具
维护说明
这个页面会随着学习过程持续更新。每个资源条目后续可以补充阅读状态、推荐理由和对应学习笔记链接。
评论区