文章

学习资源

1 分钟阅读

AI Infra 学习过程中的课程、书籍、论文、工具和博客资源。

课程

  • Stanford CS329S: Machine Learning Systems Design
  • CMU 15-744: Computer Networks / Distributed Systems 相关课程
  • 操作系统、计算机网络、分布式系统基础课程

书籍

  • 《Designing Machine Learning Systems》
  • 《Machine Learning Systems》
  • 分布式系统、Linux 性能分析、系统设计相关书籍

论文方向

  • 分布式训练系统
  • 推理服务与模型部署
  • 集群调度与资源管理
  • MLOps 与机器学习工程化

工具

  • Hugo、Markdown、Git
  • Linux、Docker、Kubernetes
  • PyTorch、Ray、Triton
  • Python profiling 与性能分析工具

维护说明

这个页面会随着学习过程持续更新。每个资源条目后续可以补充阅读状态、推荐理由和对应学习笔记链接。

评论区