欢迎光临散文网 会员登陆 & 注册

参数服务器(Parameter Server)逐段精读【论文精读】

2022-04-22 22:02 作者:小清舍  | 我要投稿

论文:Scaling Distributed Machine Learning with the Parameter Sever

论文地址:https://www.usenix.org/system/files/conference/osdi14/osdi14-paper-li_mu.pdf



系统方向

操作系统

OSDI:两年一开

比较小的地方开,一个会场

会议手册


用了很大的集群


摘要

提出一个参数服务器框架来解决机器学习问题。

简短有利


导言

分布式的优化和推理现在已经成为了解决大规模机器学习问题的一个前置条件

当规模很大的时候,没有一台机器能够解决这个问题,而且是足够快的情况下

模型涨,复杂度也在不断的涨,而且复杂的模型通常会导致参数的一个变动,但实现一个非常有效的分布式算法是非常难的,因为计算的复杂度高所带来的数据通讯量也是会比较大

三个痛点

网络带宽的应用,

机器学习算法要不断地去做全局的通讯

容灾


机器一多,跑的任务越长,一两台机器出现问题的概率很大

机器容易过热,因为显卡一直在跑,电量要求比较大的时候,风扇没有跟上导致过热,会导致降频

Nvidia的一些驱动上偶尔会出现问题,在分布式的时候可能在通讯的时候会出现问题

这里写的主要是为什么要在机器学习里做容灾


贡献


设计根据系统来的

强一致性模型就是不同机器在不同时间节点拿到的值是一样的

弱一致性允许一定程度上的延后

弹性可扩展性,允许新的节点加进来但不会让整个任务停掉

容灾:当一台或几台机器出现问题的时候,能够花多少时间从里面恢复过来

向量钟

用起来简单:全局的参数可以抽象成一个或一个稀疏的向量或矩阵


新颖性

找到了合适的系统技术,适配到机器学习算法里面,改变机器学习的算法使得更加的系统友好

放弃了分布式系统要求比较高的一致性如,也对机器学习的算法做了一些修改使得它能够容忍这些丢失的一致性

工程上的挑战


相关工作


机器学习·

风险最小化


算法



参数服务器(Parameter Server)逐段精读【论文精读】的评论 (共 条)

分享到微博请遵守国家法律