OSDI '20 - AntMan_ Dynamic Scaling on GP


00:49

01:27

02:55

03:14

04:47

05:04

05:30

07:59

09:40

09:55

11:04

12:32

14:45

15:44

17:16
粗读:
主要内容:深度学习基础设施,它与深度学习框架共同设计集群调度器,在深度学习框架中引入记忆和计算的动态缩放机制
贡献:AntMan 在不损害公平性的情况下,将 GPU 内存的整体利用率提高了 42%,计算利用率提高了 34%,为大规模高效利用 GPU 提供了新的方法。
结论:
不足:
精读:
1.创新点在哪里
2.为什么这样创新?好在哪里
3.具体模型结构如何设置?参数怎么调节?