Logo der Universität Passau

OptSCORE 2

Projektleitung Universität Passau

Prof. Hans P. Reiser

Projektmitarbeiter

Johannes Köstler

Projektpartner

Zusammenfassung

Das Ziel der zweiten Förderphase des OptSCORE-Projekts ist einerseits die Vollendung des bisherigen Ziels, einer selbständigen Optimierung der mit Hilfe von State Machine Replication (SMR) replizierten Systeme durch intelligente Anpassung der Systemparameter für beliebige Anwendungen und Systemumgebungen. Darüber hinaus erweitern wir unser System durch präventive und reaktive Mechanismen zur Behandlung von Fehlern und fügen weitere Optimierungsdimensionen hinzu. Durch ausführliche Evaluationen anhand von künstlichen wie auch realen Anwendungsszenarien bewerten wir die einzelnen Aspekte im Detail mithilfe eigens entwickelter Teststrategien. Das Forschungsvorhaben dient dazu, SMR-basierte Replikation praktikabel zu machen und auszuloten, wie effizient sich solche Systeme schließlich gestalten lassen.

SMR ist ein vielversprechender Ansatz zur Sicherstellung der Resilienz von IT-Systemen. Replizierte Zustandsautomaten können byzantinische Fehler maskieren und garantieren außerdem eine streng konsistente Sicht auf die replizierten Daten. Der Übergang von einem einfachen Dienst zu einer mit Zustandsautomaten replizierten Variante impliziert typischerweise einen höheren Ressourcenverbrauch sowie weitere Leistungseinbußen, z. B. einen verringerten Durchsatz. In der ersten Förderphase wurden Methoden untersucht, diese Leistungseinbußen durch Optimierungsmaßnahmen wie deterministisches Multithreading (DMT) oder verschieden gewichtete Replikate zu minimieren. Außered konnten eine Reihe von zur Laufzeit konfigurierbarer Parameter eines SMR-Systems ermittelt und analysiert wurden.

Ein erstes Ziel der zweiten Förderphase ist es nun eine selbständige und automatische Adaption der Parameter zu realisieren, so dass Durchsatz und/oder Antwortzeit für eine gegebene Anwendung, eine gegebene Anwendungslast sowie gegebene Systembedingungen, wie Netzwerklatenzen, Fehlerhäufigkeiten usw., optimiert werden. Da die Komplexität der einstellbaren Parameter immens ist und eine ganzheitliche Optimierung der Systemleistung nur nach einer sehr guten Abstimmung aller Komponenten aufeinander möglich ist, sollen Ansätze für maschinelles Lernen zum Einsatz kommen. Die Herausforderungen bestehen hierbei in der Wahl eines geeigneten maschinellen Lernansatzes, der Erzeugung geeigneter Trainingsdaten sowie der Anpassung aller Systemkomponenten, so dass dynamische Parameteränderungen zur Laufzeit möglich und die Konsistenz- und Verfügbarkeitseigenschaften des Systems nicht beeinträchtigt werden.

Weitere Ziele umfassen zum einen die Entwicklung eines Sicherheitskonzepts, das in aktuellen Systemen ungelöste Probleme adressiert. Bisher existierende Systeme beschränken sich weitestgehend auf den Nachweis, dass, sofern nicht zu viele Replikate fehlerhaft sind, kein inkonsistenter Systemzustand erreicht werden kann. Das OptSCORE-Projekt zielt darüber hinaus darauf ab, die Maskierung von Fehlern mit Mechanismen zur effizienten Erkennung und Behandlung von Fehlern zu verbinden. Der Einfluss von Fehlern auf die Performance soll damit minimiert werden und die Resilienz im Vergleich zu aktuellen BFT-SMR-Systemen erhöht werden. Zum anderen sollen die Optimierungsansätze aus der ersten Förderphase durch weitere Ansätze ergänzt und in unser Prototypsystem integriert werden. Dabei soll zunächst untersucht werden, ob beim Austausch der totalen Ordnung von auszuführenden Anfragen in den Replikaten gegen eine partielle Ordnung Effizienzvorteile sowohl in der Gruppenkommunikation als auch beim deterministischen Scheduling erzielt werden können. Darüber hinaus behindert die in der Praxis notwendige periodische Sicherung des Systemzustands die eigentlich gewollte Nebenläufigkeit bei der Ausführung von Anfragen. Hierbei soll erforscht werden, wie diese Behinderungen auf ein Minimum reduziert werden können.

Projektträger

Deutsche Forschungsgemeinschaft

Projektbezogene Publikationen

2021

Network Federation for Inter-Cloud Operations

J. Köstler, S. Gebauer and H. P. Reiser, "Network Federation for Inter-Cloud Operations" in Proc. of the 21th IFIP International Conference on Distributed A pplications and Interoperable Systems (DAIS 2021) , 2021.

SmartStream: Towards Byzantine Resilient Data Streaming

H. P. Reiser, G. Habiger and F. J. Hauck, "SmartStream: Towards Byzantine Resilient Data Streaming" in Proc. of the 36th ACM/SIGAPP Symposium on Applied Computing (SAC '21) , 2021.

SmartStream: Towards Efficient Byzantine Resilient Data Streaming through Speculation and Sharding

J. Köstler, H. P. Reiser, G. Habiger and F. J. Hauck, "SmartStream: Towards Efficient Byzantine Resilient Data Streaming through Speculation and Sharding" , SIGAPP Appl. Comput. Rev. , vol. 21, no. 3, pp. 19-32, 2021. Association for Computing Machinery.

DOI: 10.1145/3493499.3493501

Datei: https://doi.org/10.1145/3493499.3493501

2020

AWARE: Adaptive Wide-Area Replication for Fast and Resilient Byzantine Consensus

C. Berger, H. P. Reiser, J. Sousa and A. Bessani, "AWARE: Adaptive Wide-Area Replication for Fast and Resilient Byzantine Consensus" , IEEE Transactions on Dependable and Secure Computing , 2020.

DOI: 10.1109/TDSC.2020.3030605

Self-optimising Application-agnostic Multithreading for Replicated State Machines

G. Habiger, F. J. Hauck, H. P. Reiser and J. Köstler, "Self-optimising Application-agnostic Multithreading for Replicated State Machines" in Proc. of the 39st IEEE Symposium on Reliable Distributed Systems (SRDS 2020) , 2020.

2019

Resilient Wide-Area Byzantine Consensus Using Adaptive Weighted Replication

C. Berger, H. P. Reiser, J. Sousa and A. Bessani, "Resilient Wide-Area Byzantine Consensus Using Adaptive Weighted Replication" in Proc. of the 38th IEEE Symposium on Reliable Distributed Systems (SRDS'19) , 2019.

2018

Resource-Efficient State-Machine Replication with Multithreading and Vertical Scaling

G. Habiger, F. J. Hauck, J. Köstler and H. P. Reiser, "Resource-Efficient State-Machine Replication with Multithreading and Vertical Scaling" in Proc. of the 14th European Dependable Computing Conference (EDCC) , 2018.

Visualizing BFT SMR distributed systems -- example of BFT-SMaRt

N. Rakotondravony and H. P. Reiser, "Visualizing BFT SMR distributed systems -- example of BFT-SMaRt" in DSN Workshop on Byzantine Consensus and Resilient Blockchains , 2018.

WebBFT: Byzantine fault tolerance for resilient interactive web applications

C. Berger and H. P. Reiser, "WebBFT: Byzantine fault tolerance for resilient interactive web applications" in Proc. of the 18th IFIP International Conference on Distributed Applications and Interoperable Systems (DAIS 2018) , 2018.

2016

Emusphere: Evaluating Planetary-Scale Distributed Systems in Automated Emulation Environments

J. Köstler, J. Seidemann and H. P. Reiser, "Emusphere: Evaluating Planetary-Scale Distributed Systems in Automated Emulation Environments" in The 35th International Symposium on Reliable Distributed Systems Workshops (SRDSW 2016) , 2016.

Ich bin damit einverstanden, dass beim Abspielen des Videos eine Verbindung zum Server von Vimeo hergestellt wird und dabei personenbezogenen Daten (z.B. Ihre IP-Adresse) übermittelt werden.
Ich bin damit einverstanden, dass beim Abspielen des Videos eine Verbindung zum Server von YouTube hergestellt wird und dabei personenbezogenen Daten (z.B. Ihre IP-Adresse) übermittelt werden.
Video anzeigen