Coming soon ... IT Summit by heise

Mean Time Between Failures

Als Kennzahl der Zuverlässigkeit

Mean Time Between Failures (MTBF) heißt die „durchschnittliche Betriebszeit zwischen zwei Ausfällen“ – klingt einfach, ist in der Praxis aber ziemlich verzwickt.

Der Wert ist wichtig für Anlagen und Geräte speziell im Bereich Elektronik, ganz besonders aber bei IT-Infrastrukturen in Unternehmen, denn dort gefährden Systemausfälle oft den gesamten Geschäftsablauf. Mithilfe der MTBF soll sich die Ausfallwahrscheinlichkeit zuverlässiger bestimmen lassen. Dabei gilt es allerdings einiges zu beachten.

Zunächst muss klar sein, dass die MTBF ein Indikator der Zuverlässigkeit ist: Sie gibt an, wie lange ich voraussichtlich ein Gerät wie vorgesehen nutzen kann, bevor es repariert werden muss. Im Prinzip gilt daher: Je höher die MTBF-Angabe, desto zuverlässiger.

Der Wert trifft jedoch keine Aussage über die Lebensdauer (die ohnedies oft genug vom Innovationszyklus überrundet wird), und er ist nur indirekt ein Maß der Verfügbarkeit, die sich aus MTBF und der Zeit zusammensetzt, die für die Wiederherstellung im Fehlerfall nötig ist.

Am Beispiel: Ein Pkw, der alle Jahre liegen bleibt, kann trotzdem 18 Jahre halten (ob er dann noch sinnvoll ist, bleibt eine andere Frage). Wenn die Reparatur jeweils am selben Tag erledigt ist, sieht die Verfügbarkeit dennoch nicht schlecht aus; falls der Wagen jedoch alljährlich zwei Wochen auf das Ersatzteil wartet, bis er wieder einsatzbereit ist, sinkt die Verfügbarkeit beträchtlich. Die MTBF als Messgröße von Ausfallwahrscheinlichkeit bzw. Zuverlässigkeit beträgt aber in beiden Varianten genau ein Jahr (von Reparatur zu Reparatur).

Reparieren oder austauschen
Bei Produkten, die nicht repariert, sondern ersetzt werden (wie eine Glühbirne), spricht man statt von MTBF von einer Mean Time to Failure (MTTF), der „durchschnittlichen Betriebszeit bis zum Ausfall“. Damit ist dann die mittlere Lebensdauer gemeint. In Marketing-Aussagen gehen beide Begriffe allerdings oft wild durcheinander.

Was heißt Ausfall?

In der Praxis zeigt sich, dass MTBF-Angaben oft alles andere als sauber sind. Absolut entscheidend ist, dass klar gemacht wird, was überhaupt als „Ausfall“ gerechnet wird. Andernfalls sind die schönsten MTBF-Werte bedeutungslos. Um beim Beispiel zu bleiben: Ein Pkw, dem der Sprit ausgeht, fährt nicht mehr, aber die „Reparatur“ ist durchaus trivial und der Stillstand wäre routinemäßig zu verhindern gewesen. Eine Reifenpanne ist dagegen kaum vorhersehbar, und ein Pkw mit Kolbenfresser ist vermutlich komplett am Ende. Ein Wagen, dessen rechter Blinker vorne ausfällt, fährt dagegen tadellos weiter und muss nur bei nächster Gelegenheit zum Komponentenaustausch.

Es ist also wichtig zu wissen, welche Ausfälle berücksichtigt werden. Dummerweise ist es so, dass Sie bei eng definierten Szenarien zwar genau wissen, was der Wert meint, dass dieser Wert für die Praxis aber weniger hilft, weil er andere Fälle gar nicht einbezieht, obwohl sie durchaus vorkommen. Basiert die MTBF jedoch auf einem möglichst weit gefassten Fehlerfeld, steht man wiederum vor dem Problem, dass unklar ist, „ob zum geweissagten Zeitpunkt nur die Space-Taste klemmt oder gleich der Bildschirm explodiert“, wie es Das ungeschönte Lexikon der Computertechnik von Georg Eggers formuliert.

Hier wäre gerade bei Einzelkomponenten außerdem zu bedenken, dass eine Kette nur so stark ist wie das schwächste Glied und dementsprechend das Gesamtsystem nur so zuverlässig wie der niedrigste MTBF-Komponentenwert. Obendrein sind Komponenten oft mehrfach verbaut, so dass die einzelnen MTBF kumulieren. Mit anderen Worten: Ein Auto steht, wenn auch nur einer der vier Reifen platzt.

Wer berechnet wie?

Hinzu kommt, dass in vielen Fällen nicht deutlich ist, unter welchen Annahmen die angegebenen MTBF-Werte zustandegekommen sind. Namentlich die Einsatzbedingungen können hier nämlich eine entscheidende Rolle spielen: Temperatur, Luftfeuchtigkeit und Staub beeinflussen z.B. die Ausfallwahrscheinlichkeit von IT-Komponenten enorm.

Schließlich ist gut zu wissen, dass es für die unterschiedlichen Gegenstände unterschiedliche Methoden gibt, die MTBF zu bestimmen. Entsprechende Herstellerangaben wären also nicht nur daraufhin zu prüfen, ob sie realistische Annahmen machen und Ausfälle sinnvoll definieren, sondern auch, in welcher Weise sie ihre Zahlen extrapolieren. Es ist nämlich so, dass MTBF-Angaben in der Regel in die Zukunft verlängerte Testwerte sind. Hart gesagt: Der Hersteller rechnet die Erfahrungen mit einer neuwertigen Komponente auf 100 Jahre hoch – und nimmt dabei implizit an, dass sie verschleißlos auch in 99 Jahren noch neuwertig ist.

Fazit: Bedeutung nur im Portfolio

Dieses Vorgehen ist tatsächlich prinzipiell vernünftig. Wollte man abwarten, bis Praxiswerte über die Gesamtlebensdauer hinweg vorliegen, gäbe es MTBF-Angaben meist erst dann, wenn die Komponente längst überholt und obsolet ist. Hersteller setzen daher sinnvollerweise Verfahren zur Vorhersage oder Schätzung ein. Man sollte sich jedoch vor Augen halten, dass verschiedene Hersteller verschiedene Verfahren mit unterschiedlichen Hintergrundannahmen verwenden. Unterm Strich bedeutet das: MTBF-Angaben sind nicht marktübergreifend, sondern allenfalls innerhalb einer Herstellerproduktpalette vergleichbar.

Nützliche Links

Bei APC/Schneider Electric gibt es das sehr gute deutschsprachige Whitepaper von Wendy Torell, Victor Avelar: Mittlerer Ausfallzeitraum: Erläuterung und Normen (als PDF) mit anschaulichen Beispielen.