Aufbau einer SRE-Community Ein Team nach dem anderen

Die Bereitstellung von Site Reliability Engineering (SRE) in einer gesamten Organisation ist mit kulturellen und technischen Herausforderungen verbunden. Wir haben zuvor besprochen, wie Einbringen einer SRE-Praxis innerhalb von Dell Digital, die IT-Organisation von Dell, hat die Zuverlässigkeit und Skalierbarkeit unserer E-Commerce-Plattformen verbessert. Heute teilen wir mehr darüber mit, wie wir ein zentralisiertes SRE-Aktivierungsprogramm erstellt und uns auf eine umfassendere Mission festgelegt haben, um Organisationen in der gesamten IT dabei zu helfen, einen SRE-Ansatz bereitzustellen, um ihren Standortbetrieb zu verbessern.

Nach achtzehn Monaten unserer Befähigungsbemühungen arbeiten wir derzeit daran, fünf IT-Organisationen beim Aufbau von SRE-Teams und der Implementierung von SRE-Lösungen und Automatisierungsfunktionen zu unterstützen. Und wir haben mehrere weitere Organisationen, die SRE-Fähigkeiten starten oder ausbauen möchten.

Skalierung von SRE von der Mitte nach außen

Nach unserem erfolgreichen E-Commerce-Pilotprojekt hat unser SRE-Enablement-Team ein Center of Excellence (COE) geschaffen, um die Grundlage für eine IT-weite Öffentlichkeitsarbeit über eine Reihe von Roadshows zu schaffen.

Die COE-Organisation beschreibt SRE-Tools und Best Practices, die Teams dabei helfen, die Standortzuverlässigkeit zu verbessern, indem sie ein Echtzeit-End-to-End-Überwachungsökosystem auf Desktop- und Mobilgeräten einrichten, intelligente proaktive Benachrichtigungen bereitstellen, Lösungen für wiederkehrende Probleme automatisieren und den Betrieb reduzieren Bemühungen und Reduzierung der durchschnittlichen Zeit zum Finden und der durchschnittlichen Zeit zum Beheben von Leistungsvorfällen.

Wenn Ihre Organisation plant, SRE zu ermöglichen, empfehle ich, einen zentralen Ort zu schaffen, an dem Sie Produkte entwickeln und eine Praxis formalisieren, die konsistent skaliert werden kann. Dies senkt die Kosten sowie den Zeit- und Arbeitsaufwand, um Zuverlässigkeit in die Realität umzusetzen.

Als wir IT-Organisationen zu unseren SRE-Befähigungsbemühungen hinzufügten, haben wir unser Kernteam von SRE-Ingenieuren im COE erweitert und haben jetzt 35 Teammitglieder, die unsere SRE-Produkte und -Prozesse beaufsichtigen.

Dimensionierung der SRE-Reife

In jedem Fall besteht der erste Schritt, um einer teilnehmenden Organisation bei der Einführung einer SRE-Strategie zu helfen, darin, ihre SRE-Reife zu bewerten. Wir bitten die Teams zunächst, sich selbst im Hinblick auf die SRE-Arbeit, die sie möglicherweise leisten, einzuschätzen. Wir bewerten sie dann auf der Grundlage eines Reifegradbewertungsmodells, das die SRE-Grundlagen misst, einschließlich der aktuellen Betriebsüberwachungsfähigkeiten, ihrer Erfolgsbilanz bei der Behebung von Problemen, Service-Level-Zielen und aktuellen Rollen und Verantwortlichkeiten.

Die Reifegradbewertung generiert eine Punktzahl, die den Teams hilft, Prioritäten zu setzen und den kulturellen Wandel zu definieren, den sie benötigen, um sich vom traditionellen Ticketing-Ansatz zur Standortzuverlässigkeit und zu einer technischen Denkweise zu bewegen.

Sobald wir einen Reifegrad haben, helfen wir den teilnehmenden Organisationen, ihr eigenes SRE-Team aufzubauen und die erforderlichen Fähigkeiten zu entwickeln. In einigen Fällen arbeiten wir mit den eigenen Ingenieuren der Organisation zusammen, möglicherweise mit unterschiedlichem Hintergrund, einschließlich Software, Architektur und Netzwerken. Eine Organisation, mit der wir zusammengearbeitet haben, hatte zum Beispiel fünf Ingenieure mit unterschiedlichen Hintergründen, um ihr SRE-Team zu gründen. Ein anderes Team hatte nur eins und wir halfen dem Leiter, ein brandneues Team aufzubauen.

Wir bieten Schulungen für Teammitglieder an und helfen bei der Einstellung von SRE-Ingenieuren. Die Teamgröße variiert mit den Anforderungen der Organisation. In den meisten Fällen sind es bei uns acht bis zwölf Teammitglieder pro größerem Ökosystem.

Unterstützung von Organisationen beim Aufbau von Fähigkeiten

Nachdem das SRE-Team und die Prioritäten einer Organisation festgelegt wurden, arbeiten wir mit jedem Team zusammen, um die erste Komponente der SRE-Fähigkeiten aufzubauen – Beobachtbarkeit. Hier erstellt die Organisation eine End-to-End-Vogelperspektive ihrer IT-Ökosysteme.

Es beginnt mit der Definition und Erfassung der benötigten Daten. Erkenntnisse von Fachexperten sind hier entscheidend, um zu bestimmen, wie die Daten aussehen sollen, sowie um signifikante Leistungsänderungen zu definieren, um den Betrieb zu überwachen und welche Key Performance Indicators (KPIs) sein sollten.

Im Netzwerkbereich beispielsweise waren KMU von unschätzbarem Wert, um Leistungsprobleme über den komplexen Netzwerk-Fußabdruck von 26 Rechenzentren hinweg zu definieren. Während dieses Team noch dabei ist, Beobachtbarkeit für alle seine Rechenzentren zu schaffen, bietet die anfängliche Arbeit eine Vorlage, um diesen Prozess zu vereinfachen.

Wir fügen die zusammengestellten Daten in ein Datenplattform-Tool eines Drittanbieters ein, um ein Dashboard zu erstellen, das es jeder Organisation ermöglicht, ihre Fähigkeiten kontinuierlich zu überwachen und Leistungsprobleme über eine einzige Konsole zu melden.

Das Erreichen von Beobachtbarkeit ist ein wichtiger erster Schritt für den Fortschritt des SRE-Teams unserer Organisationen. Vorteile liegen auf der Hand. Im Bereich Networking beispielsweise musste das Support-Team zuvor stundenlang eine Reihe von Spines, Routern und Firewalls durchsuchen, um die Ursache eines Problems zu finden. Mit SRE kann das Team das Problem jetzt in wenigen Minuten über eine einzige Glasscheibe lokalisieren.

Nach der Arbeit mit SRE-Enablement im vergangenen Jahr haben die Service- und Konnektivitätsteams ihre Beobachtbarkeitsprozesse verfeinert und stehen kurz vor dem nächsten SRE-Schritt, der Orchestrierungsphase. Dort werden Systeme eingerichtet, um die richtigen Personen, einschließlich Produkt- und Betriebsteams, zu benachrichtigen, wenn ein Vorfall auftritt.

Von dort aus werden SRE-Teams nach Möglichkeit Automatisierungs- und Selbstheilungsfunktionen hinzufügen – die letzte Phase der SRE-Grundlagen.

Mit jedem Schritt des SRE-Aktivierungsprozesses gewinnen unsere Organisationen an Effizienz und sind besser gerüstet, um ihre Anwendungen für ihre Kunden am Laufen zu halten. Da sich die Kundenanforderungen ständig ändern, werden die von ihnen eingesetzten SRE-Teams ihre Prozesse weiterentwickeln und Support leisten.

Die Zukunft von SRE

Unsere Bemühungen, SRE in der gesamten Dell IT zu skalieren, gehen weiter, und SRE Enablement entwickelt unseren Ansatz zur Erweiterung unserer Praxis weiter. Beispielsweise sind wir gerade dabei, eine SRE-Praxisgemeinschaft zu gründen, in der aktuelle und potenzielle SRE-Benutzer sich mit SRE-Prozessen und -Tools vertiefen und Gespräche und Zusammenarbeit fördern können. Die Website wird Einblicke von teilnehmenden Teams über ihre Erfahrungen, die Vorteile der Bildung eines SRE-Teams und den aktuellen Stand auf ihrer SRE-Reise bieten.

Bleiben Sie über unsere Dell Digital-Strategien und mehr auf dem Laufenden unter Dell Technologies: Unsere digitale Transformation.

Author: admin

Leave a Reply

Your email address will not be published.