Identifikační kód |
RIV/63839172:_____/19:10133227 |
Název v anglickém jazyce |
Improving Fairness in a Large Scale HTC System Through Workload Analysis and Simulation |
Druh |
D - Stať ve sborníku |
Jazyk |
eng - angličtina |
Vědní obor |
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8) |
Rok uplatnění |
2019 |
Kód důvěrnosti údajů |
S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku |
1 |
Počet tvůrců celkem |
3 |
Počet domácích tvůrců |
1 |
Výčet všech uvedených jednotlivých tvůrců |
Dalibor KLUSÁČEK (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 9970819) Fréderic Azevedo (státní příslušnost: FR - Francouzská republika) Fréderic Suter (státní příslušnost: FR - Francouzská republika) |
Popis výsledku v anglickém jazyce |
Monitoring and analyzing the execution of a workload is at the core of the operation of data centers. It allows operators to verify that the operational objectives are satisfied or detect and react to any unexpected and unwanted behavior. However, the scale and complexity of large workloads composed of millions of jobs executed each month on several thousands of cores, often limit the depth of such an analysis. This may lead to overlook some phenomena that, while not harmful at a global scale, can be detrimental to a specific class of users. In this paper, we illustrate such a situation by analyzing a large High Throughput Computing (HTC) workload trace coming from one of the largest academic computing centers in France. The Fair-Share algorithm at the core of the batch scheduler ensures that all user groups are fairly provided with an amount of computing resources commensurate to their expressed needs. However, a deeper analysis of the produced schedule, especially of the job waiting times, shows a certain degree of unfairness between user groups. We identify the configuration of the quotas and scheduling queues as the main root causes of this unfairness. We thus propose a drastic reconfiguration of the system that aims at being more suited to the characteristics of the workload and at better balancing the waiting time among user groups. We evaluate the impact of this reconfiguration through detailed simulations. The obtained results show that it still satisfies the main operational objectives while significantly improving the quality of service experienced by formerly unfavored users |
Klíčová slova oddělená středníkem |
Simulation;Workload;Scheduling;HTC;Fairness |
Stránka www, na které se nachází výsledek |
https://link.springer.com/chapter/10.1007/978-3-030-29400-7_10 |
DOI výsledku |
10.1007/978-3-030-29400-7_10 |
Odkaz na údaje z výzkumu |
- |