当我阅读延迟公平调度时,我对 Hadoop 中的术语“作业调度”和“任务调度”有点困惑在这张幻灯片中 https://people.csail.mit.edu/matei/talks/2010/eurosys_delaysched.pdf.
如果我的以下假设有误,请纠正我:
默认调度程序、容量调度程序和公平调度程序仅在用户调度多个作业时在作业级别有效。如果系统中只有一项作业,它们就不会发挥任何作用。这些调度算法构成了“作业调度”的基础
每个作业可以有多个map和reduce任务,它们是如何分配到每台机器上的?单个作业的任务是如何安排的? “任务调度”的依据是什么?
的情况下公平调度器,当有一个作业正在运行时,该作业将使用整个集群。当提交其他作业时,释放的任务槽将分配给新作业,以便每个作业获得大致相同的 CPU 时间。
不像默认 Hadoop调度程序,它形成一个作业队列,这可以让短作业在合理的时间内完成,同时又不会让长作业挨饿。这也是在多个用户之间共享集群的简单方法。公平共享还可以与作业优先级一起使用 - 优先级用作权重来确定每个作业获得的总计算时间的比例。
The 容量调度器旨在允许共享大型集群,同时为每个组织提供最低容量保证。其中心思想是,Hadoop Map-Reduce 集群中的可用资源分配给多个组织,这些组织根据计算需求共同为集群提供资金。还有一个额外的好处是组织可以访问其他组织未使用的任何过剩容量。这以具有成本效益的方式为组织提供了弹性。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)