KI in Support & Operations: Von reaktiver IT zur proaktiven Business Engine
Support und Betrieb stehen vor einem Wandel: Künstliche Intelligenz macht aus operativen Pflichtaufgaben zunehmend strategische Hebel. Wie KI den Bereich Support & Operations (S&O) als echten Business Enabler positioniert und die Effizienz signifikant steigert, erklärt Martin Weber, director service management bei diconum. Im Interview erfahren Sie, wo KI bereits heute ihren Wert in der Praxis beweist – von der intelligenten Suche und Analyse-Assistenten bis zur vollautomatisierten Incident Response. Außerdem geht es um Datenschutzhürden bei der Cloud-KI, die Sicherheit durch SIEM-Toolkits und SRE-Prinzipien (Site Reliability Engineering), die den Übergang von reaktiven zu proaktiven, KI-gestützten Abläufen ermöglichen.
Hallo Martin. Wie verändert KI den Bereich Support & Operations – insbesondere in Strategien, Teamstrukturen, Prozessen und der unternehmensweiten Zusammenarbeit?
Martin Weber: KI ist der Motor für einen grundlegenden Wandel im Bereich Support & Operations. Sie versetzt uns in die Lage, Vorfälle zu antizipieren und Ausfallzeiten zu reduzieren – durch den Wechsel von reaktiver Ticketbearbeitung zu proaktivem Systemmanagement. Kontinuierliche Optimierung wird automatisiert, der manuelle Aufwand massiv reduziert. So lässt sich S&O skalieren, ohne Personal proportional aufzustocken – und als echter Business Enabler positionieren.
Neue Rollen wie AI-Operations-Analysten und Automatisierungsstrategen entstehen. KI übernimmt einfache und mittlere Tickets, Teams konzentrieren sich auf Optimierung und komplexe Fälle. Dafür braucht es Weiterbildungen auf SRE-Level. Das klassische Stufenmodell wird durch KI-gestützte SRE-Teams ersetzt. Prozessual ersetzt KI die manuelle Triage durch Ursachenanalyse und Klassifizierung. Sie wird zum Kern der Wertschöpfung – mit industriellen, KI-basierten Prozessketten. Wissensmanagement verbessert sich deutlich, relevante Informationen sind leichter abrufbar. Das senkt Lösungszeiten und steigert die Qualität. Aber auch die Zusammenarbeit profitiert: KI liefert Einblicke in operative Schwachstellen, verbessert die Abstimmung mit Entwicklungsteams und Stakeholdern. Echtzeit-Kennzahlen helfen ungemein, Serviceauswirkungen zu quantifizieren und Innovationszyklen zu verkürzen.
Wo hat KI bereits ihren Wert in Support & Operations unter Beweis gestellt – und welche konkreten Vorteile sehen Unternehmen in der Praxis?
KI zeigt ihren Wert tatsächlich in mehreren Schlüsselbereichen, hier einmal 6 Beispiele:
- Einfache Suche nach verwandten Problemen: KI-Erweiterungen in Ticket-Tools oder lokale RAG-Lösungen (Retrieval-Augmented Generation) verbessern die Qualität der Suchergebnisse drastisch. Das verborgene Wissen in unseren Systemen wird nutzbar gemacht und verschiedene Datenquellen lassen sich integrieren, was die Relevanz für Ingenieure und andere Stakeholder massiv steigert.
- Ein KI-Assistent für die Problemanalyse: Ein solcher Assistent strukturiert nicht nur relevante Daten, sondern macht auch Vorschläge zur Problemanalyse. Er ist eine enorme Hilfe für Techniker und Ingenieure, die nicht über spezifisches Fachwissen verfügen. Zudem ermöglicht sie eine iterative Verfeinerung der Analyse.
- KI-Assistent zur Problemlösung: Aufbauend auf der Analysefunktion agiert er als Sparringspartner, der Lösungsschritte vorschlägt. Die Qualität der Vorschläge muss absolut zuverlässig sein. Der Einsatz von agentenbasierten RAG-Systemen ist hier entscheidend, um die Qualität der KI-Antworten zu überprüfen und zu verbessern.
- Echtzeitüberwachung und vorausschauende Alarmierung: KI ermöglicht eine bessere Anomalieerkennung und Prognose als je zuvor. Die Integration dieser Lösungen mit LLM-basierten Assistenten bietet tiefere Einblicke in Systemvorgänge und warnt S&O-Teams frühzeitig.
- Automatisierte Reaktion auf Vorfälle: Ein KI-basiertes System kann standardisierte Probleme ohne menschliche Interaktion verhindern und lösen. Obwohl es noch Leitplanken für komplexe Fälle gibt, ist dies ein sich schnell entwickelnder Bereich, der die Anzahl der automatisch bearbeitbaren Fälle kontinuierlich erhöht.
- Vollautonomes KI-Servicemanagement: Die Vision ist ein vollautonomer Agent, der den gesamten Lebenszyklus des Servicemanagements übernimmt. Er bearbeitet Serviceanfragen, löst Incidents und führt sogar Standardänderungen durch. Der Agent aktualisiert ITSM-Datensätze und lernt dabei kontinuierlich. Dies entlastet operative Teams enorm und führt zu einem proaktiven, sich selbst verbessernden Servicemanagement-Modell.
Welche Datenschutzhürden müssen Unternehmen bei KI in der Cloud überwinden und wann ist eine lokale Installation sinnvoller?
Insbesondere im Support erfordert der Betrieb von KI-Systemen Zugriff auf hochsensible Daten – von Infrastrukturdetails bis zu personenbezogenen Kundendaten. Bei Cloud-basierten KI-Lösungen gibt es signifikante Datenschutzhürden. US-Anbieter unterliegen dem Cloud Act, wodurch ein Datentransfer außerhalb der EU nicht ausgeschlossen werden kann. Sicherheitsverletzungen und intransparente Datennutzung für Trainingszwecke sind reale Risiken – selbst bei strengsten Einstellungen.
Meine Empfehlung: Lokale Installationen bieten hier klare Vorteile, denn Sicherheit und Datenschutz sind vollständig kontrollierbar. Zudem lassen sich verschiedene KI-Modelle flexibel kombinieren, statt an einen Anbieter gebunden zu sein. Wir bei diconium sind Vorreiter in diesem Bereich und bieten Dienste auf Basis lokaler LLMs in hochsicheren Umgebungen oder deren Implementierung und Betrieb in der privaten Cloud unserer Kunden an.
Mit welchen Arten von Bedrohungen müssen Unternehmen beim Betrieb KI-gestützter Supportsysteme rechnen und wie lassen sich diese Risiken minimieren?
Beim Betrieb KI-gestützter Supportsysteme müssen wir mit typischen Bedrohungen aus Software-Schwachstellen, unvollkommenen Betriebsprozessen und menschlicher Nachlässigkeit oder sogar Vorsatz rechnen. Hinzu kommen bisher unbekannte Bedrohungen. Selbst die besten Risikomanagementmaßnahmen können nicht garantieren, dass ein IT-System nicht erfolgreich angegriffen wird. Der Schlüssel zum Management der Risiken ist ein vollständiger SIEM (Security Information and Event Management)-Tool-Stack. Statische Code-Analyse-Tools decken nur einen kleinen Teil der Produktionsumgebung ab; ein SIEM-Stack hingegen überwacht die gesamte Produktionsumgebung lückenlos. Er hilft, böswillige Aktivitäten aktiv zu erkennen, sobald sie auftreten, selbst wenn Angreifer unerkannte Schwachstellen ausnutzen.
Konkret setzen wir auf Tools wie:
- Dependancy-Track liefert zeitnahe Berichte über Software-Schwachstellen im gesamten betriebenen System und nicht nur auf Applikationsebene, sodass sofort auf neue Herausforderungen reagiert werden kann.
- Wazuh kombiniert SIEM- und XDR-Funktionen (Extended Detection and Response), um Sicherheitsbedrohungen in Echtzeit über alle Endpunkte, Cloud-Workloads und Infrastrukturen hinweg zu überwachen und darauf zu reagieren. Es alarmiert uns sofort bei böswilligen Aktivitäten.
- Suricata ergänzt Wazuh durch Echtzeit-Erkennung und -Abwehr von Eindringlingen auf Netzwerkebene (NIDS/NIPS). Es führt Deep Packet Inspection durch, blockiert bösartigen Datenverkehr (IPS) und erkennt Anomalien bereits an der Systemgrenze.
Diese Komponenten in Kombination mit strengen Zugriffskontrollen und Datentrennung sind unerlässlich, um die Auswirkungen eines Angriffs zu erkennen und zu minimieren. Sie bilden die Grundlage für ein hohes Maß an Vertrauen und bieten rund um die Uhr weltweite Sicherheit.
Warum ist es im Servicebetrieb wichtig, wie ein Owner zu denken – und wie arbeiten ITIL und DevOps Hand in Hand für einen proaktiven, KI-gestützten Support?
Die Mentalität, das System zu betreiben, als wäre es das eigene, ist absolut wichtig. Wenn Verfügbarkeit, Zuverlässigkeit und Sicherheit zur persönlichen Priorität werden, lassen sich Probleme an der Wurzel beheben bevor sie eskalieren. Das stärkt die Eigenverantwortung, die kontinuierliche Risikobewertung und den Abbau technischer Schulden in Sinne der Stabilität und des Vertrauens.
Für proaktiven, KI-gestützten Support kombinieren wir ITIL und DevOps: ITIL bringt Struktur und Governance, DevOps liefert Tempo durch Automatisierung. So entsteht Stabilität ohne Geschwindigkeitseinbußen – und IT wird zum echten Business-Partner.
Darüber hinaus setzen wir auf umfassende Überwachung, maschinelles Lernen und prädiktive Analysen, um Risiken früh zu erkennen und automatisiert gegenzusteuern. Wartung und Schwachstellenscans laufen automatisch und menschliche Fehler werden minimiert. SRE-Prinzipien sichern die Qualität der KI-Automatisierung: Und zwar mit spezifischen SLOs, Konfidenzschwellen, voller Transparenz und Feedback-Loops. Fehlerbudgets, Überprüfbarkeit und Bias-Tests stellen so sicher, dass Kontrolle und Vertrauen jederzeit gesichert sind.
Wie sieht ein ausgereiftes Support- und Operations-Team aus? Und wie hilft KI dabei, von reaktiven zu proaktiven Abläufen überzugehen?
Ein ausgereiftes S&O-Team, wie wir es im SRE-Reifegradmodell (Site Reliability Engineering) von diconium beschreiben, bewegt sich von einer reaktiven Haltung hin zu einem optimierten, strategischen Partner.
- In Stufe 1 (Reaktiv) agieren Teams oft in Silos, reagieren ad-hoc auf Probleme und lernen eher zufällig.
- In Stufe 2 (Verwaltet) etablieren wir erste Strukturen, erfassen Fähigkeiten, beginnen mit Debriefings und führen SLAs ein.
- Stufe 3 (Proaktiv) ist unser Ziel, wo funktionsübergreifende S&O-Teams zusammenarbeiten. Hier sind Mitarbeiter SRE-geschult, es herrscht eine starke Lernkultur. Zudem nutzen wir SLOs und Fehlerbudgets, wobei Prävention im Vordergrund steht. Probleme werden frühzeitig erkannt und Ursachen behoben.
- In Stufe 4 (Optimiert) sind Betrieb und Entwicklung bereits in der Entwurfsphase aufeinander abgestimmt. Wir haben vorausschauende/selbstheilende Systeme und KI-Beobachtbarkeit. Vorfälle sind selten oder werden verhindert.
KI spielt die entscheidende Rolle beim Übergang von reaktiven zu proaktiven Abläufen: Von Stufe 2 zu 3 setzen wir umfassende Observability-Tools ein, um Probleme vorab zu erkennen. Für den Sprung von Stufe 3 zu 4 ist die Integration von KI/ML essenziell: Sie ermöglicht Anomalieerkennung, automatische Ticket-Triage und die Reduzierung korrelierter Warnmeldungen. Wir entwickeln unser Team und unsere Maßnahmen, indem wir Scorecards kontinuierlich aktualisieren, konkrete Ziele festlegen und die Automatisierung und den Einsatz von höherwertiger, prädiktiver KI konsequent ausbauen, sobald Vertrauen und Datenqualität gegeben sind. Wir priorisieren systemische Veränderungen und richten uns stets an den Erfordernissen der Geschäftsprozesse aus, um in die richtigen Verbesserungen zu investieren und Kompromisse zwischen Zuverlässigkeit und Feature-Geschwindigkeit zu managen.
Wie entwickeln sich Modelle wie Follow-the-Sun mit KI und was bedeutet dies für die Verteilung der operativen Kompetenz?
KI verändert die Verteilung operativer Kompetenz grundlegend! Zentralisierte KI-Agenten reduzieren den Bedarf an Fachwissen in regionalen Teams – diese werden kleiner, aber spezialisierter und lösen komplexe Probleme gemeinsam mit der KI.
Das klassische Tier-1-Modell wird künftig vollständig durch KI abgelöst. Übergaben zwischen Schicht- und Global-Teams werden effizienter – dank KI-kuratierter Zusammenfassungen, Diagnosen und Lösungsvorschläge. Echtzeitübersetzungen und Kontextgedächtnis der KI verbessern die Zusammenarbeit weiter.
Wir sehen eine klare Verlagerung von reaktiven Operationen hin zu KI-Überwachung und System-Governance. Operative Exzellenz definiert sich zunehmend über Datenqualität, Modellleistung und Zusammenarbeit – nicht über Standort. Selbstheilende Skripte reduzieren den Bedarf an reaktiven Ops-Teams weiter. Wir von diconium setzen auf ein hybrides Support-Modell mit einem zentralisierten 24/7-Helpdesk und spezialisierten Experten on- und offshore, um die Effizienzgewinne durch den Einsatz lokaler KI-Assistenzsysteme optimal zu nutzen.