Network Federation for Inter-Cloud Operations
Proc. of the 21th IFIP International Conference on Distributed A pplications and Interoperable Systems (DAIS 2021) ,
2021
Prof. Hans P. Reiser
Johannes Köstler
Das Ziel der zweiten Förderphase des OptSCORE-Projekts ist einerseits die Vollendung des bisherigen Ziels, einer selbständigen Optimierung der mit Hilfe von State Machine Replication (SMR) replizierten Systeme durch intelligente Anpassung der Systemparameter für beliebige Anwendungen und Systemumgebungen. Darüber hinaus erweitern wir unser System durch präventive und reaktive Mechanismen zur Behandlung von Fehlern und fügen weitere Optimierungsdimensionen hinzu. Durch ausführliche Evaluationen anhand von künstlichen wie auch realen Anwendungsszenarien bewerten wir die einzelnen Aspekte im Detail mithilfe eigens entwickelter Teststrategien. Das Forschungsvorhaben dient dazu, SMR-basierte Replikation praktikabel zu machen und auszuloten, wie effizient sich solche Systeme schließlich gestalten lassen.
SMR ist ein vielversprechender Ansatz zur Sicherstellung der Resilienz von IT-Systemen. Replizierte Zustandsautomaten können byzantinische Fehler maskieren und garantieren außerdem eine streng konsistente Sicht auf die replizierten Daten. Der Übergang von einem einfachen Dienst zu einer mit Zustandsautomaten replizierten Variante impliziert typischerweise einen höheren Ressourcenverbrauch sowie weitere Leistungseinbußen, z. B. einen verringerten Durchsatz. In der ersten Förderphase wurden Methoden untersucht, diese Leistungseinbußen durch Optimierungsmaßnahmen wie deterministisches Multithreading (DMT) oder verschieden gewichtete Replikate zu minimieren. Außered konnten eine Reihe von zur Laufzeit konfigurierbarer Parameter eines SMR-Systems ermittelt und analysiert wurden.
Ein erstes Ziel der zweiten Förderphase ist es nun eine selbständige und automatische Adaption der Parameter zu realisieren, so dass Durchsatz und/oder Antwortzeit für eine gegebene Anwendung, eine gegebene Anwendungslast sowie gegebene Systembedingungen, wie Netzwerklatenzen, Fehlerhäufigkeiten usw., optimiert werden. Da die Komplexität der einstellbaren Parameter immens ist und eine ganzheitliche Optimierung der Systemleistung nur nach einer sehr guten Abstimmung aller Komponenten aufeinander möglich ist, sollen Ansätze für maschinelles Lernen zum Einsatz kommen. Die Herausforderungen bestehen hierbei in der Wahl eines geeigneten maschinellen Lernansatzes, der Erzeugung geeigneter Trainingsdaten sowie der Anpassung aller Systemkomponenten, so dass dynamische Parameteränderungen zur Laufzeit möglich und die Konsistenz- und Verfügbarkeitseigenschaften des Systems nicht beeinträchtigt werden.
Weitere Ziele umfassen zum einen die Entwicklung eines Sicherheitskonzepts, das in aktuellen Systemen ungelöste Probleme adressiert. Bisher existierende Systeme beschränken sich weitestgehend auf den Nachweis, dass, sofern nicht zu viele Replikate fehlerhaft sind, kein inkonsistenter Systemzustand erreicht werden kann. Das OptSCORE-Projekt zielt darüber hinaus darauf ab, die Maskierung von Fehlern mit Mechanismen zur effizienten Erkennung und Behandlung von Fehlern zu verbinden. Der Einfluss von Fehlern auf die Performance soll damit minimiert werden und die Resilienz im Vergleich zu aktuellen BFT-SMR-Systemen erhöht werden. Zum anderen sollen die Optimierungsansätze aus der ersten Förderphase durch weitere Ansätze ergänzt und in unser Prototypsystem integriert werden. Dabei soll zunächst untersucht werden, ob beim Austausch der totalen Ordnung von auszuführenden Anfragen in den Replikaten gegen eine partielle Ordnung Effizienzvorteile sowohl in der Gruppenkommunikation als auch beim deterministischen Scheduling erzielt werden können. Darüber hinaus behindert die in der Praxis notwendige periodische Sicherung des Systemzustands die eigentlich gewollte Nebenläufigkeit bei der Ausführung von Anfragen. Hierbei soll erforscht werden, wie diese Behinderungen auf ein Minimum reduziert werden können.
Deutsche Forschungsgemeinschaft
Beim Anzeigen des Videos wird Ihre IP-Adresse an einen externen Server (Vimeo.com) gesendet.