Was sind LLMOps?

URL kopieren

Große Sprachmodelle (Large Language Models, LLMs) sind ML-Modelle (Maschinelles Lernen), die sprachbezogene Aufgaben wie Übersetzen, das Beantworten von Fragen, das Zusammenfassen von Chats und Inhalten sowie das Generieren von Inhalten und Code übernehmen. LLMs wie GPT-3, LLaMA und Falcon sind innovative Tools, die anhand von Datensätzen trainiert werden und Fragen beantworten können. Da sich diese Tools ständig weiterentwickeln, benötigen Unternehmen Best Practices für die Operationalisierung dieser Modelle. Hier kommen LLMOps ins Spiel.

LLMOps (Large Language Model Operations) bezieht sich auf die Praktiken, Techniken und Tools, die für das operative Management von großen Sprachmodellen in Produktivumgebungen eingesetzt werden. LLMOps ist speziell für die Verwaltung und Automatisierung des LLM-Lifecycles vom Fine Tuning bis hin zur Wartung mithilfe von Tools und Methoden gedacht. Mit modellspezifischen Operationen können Data Scientists, Engineers und IT-Teams große Sprachmodelle effizient einsetzen, überwachen und warten.

Wenn LLMs ein Teilbereich von ML-Modellen sind, dann ist LLMOps ein großes Sprachmodell, das Machine Learning Operations (MLOps) entspricht. MLOps besteht aus mehreren Workflow-Praktiken mit dem Ziel, Bereitstellung und Wartung von ML-Modellen zu optimieren. Mit MLOps soll die Integration von ML-Modellen in die Softwareentwicklung kontinuierlich weiterentwickelt werden. In ähnlicher Weise zielt LLMOps darauf ab, den Lifecycle der LLM-Entwicklung und -Bereitstellung kontinuierlich zu erproben, zu iterieren, einzusetzen und zu verbessern.

Auch wenn LLMOps und MLOps Ähnlichkeiten aufweisen, gibt es dennoch Unterschiede. Dazu gehören:

Lernen: Viele herkömmliche ML-Modelle werden von Grund auf neu erstellt oder trainiert, während LLMs auf einem Basismodell aufbauen und mit neuen Daten feinabgestimmt werden, um die Performance in einer bestimmten Domain zu verbessern.

Tuning: Bei LLMs wird durch Fine Tuning die Performance für bestimmte Anwendungen verbessert und die Genauigkeit erhöht, indem mehr Wissen über ein bestimmtes Thema eingebracht wird. Prompt Tuning ist ein effizienter und optimierter Prozess, dank dem LLMs eine bessere Performance bei bestimmten Aufgaben erzielen können. Ein weiterer Unterschied ist das Hyperparameter Tuning. Bei traditionellem ML konzentriert sich das Tuning auf die Verbesserung der Genauigkeit oder anderer Metriken. Bei LLMs hingegen ist das Tuning auch wichtig, um die Kosten und den Rechenleistungsbedarf für Training und Inferenz zu reduzieren. Sowohl klassische ML-Modelle als auch LLMs profitieren vom Tracking und Optimieren des Tuning-Prozesses, allerdings mit unterschiedlichen Schwerpunkten. Ein weiterer wichtiger Prozess ist die Retrieval-Augmented Generation (RAG), die neben dem Tuning eingesetzt werden kann, um die Genauigkeit der Antworten zu verbessern. Bei RAG wird eine externe Knowledgebase verwendet, um dem LLM bei Abfragen aktuelle und korrekte Fakten zur Verfügung zu stellen, sodass das LLM eine bessere Antwort generieren kann.

Feedback: Bestärkendes Lernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) ist eine Verbesserung beim Training von LLMs. Da die Aufgaben oft sehr offen und unbestimmt sind, ist das Feedback der Endbenutzenden Ihrer Anwendung wichtig für die Bewertung der LLM-Performance. LLMs verwenden menschliches Feedback, um Prompt-Antworten nach Genauigkeit und Kohärenz zu bewerten. Dagegen setzen traditionelle ML-Modelle spezifische und automatisierte Metriken für die Genauigkeit ein.

Performance-Metriken: ML-Modelle haben klar definierte Performance-Metriken, wie Genauigkeit, AUC, F1-Score usw. LLMs haben jedoch eine andere Auswahl an Standardmetriken und Bewertungsmethoden – wie beispielsweise BLEU (Bilingual Evaluation Understudy) und ROUGE (Recall-Oriented Understudy for Gisting Evaluation).

LLMOps bietet als optimale Methode zur Überwachung und Verbesserung der LLM-Performance im Zeitverlauf 3 wichtige Vorteile:

Effizienz: LLMOps ermöglicht den Teams eine schnellere Modell- und Pipeline-Entwicklung, eine höhere Qualität der Modelle und ein schnelleres Deployment in der Produktion. Eine Optimierung kann die Zusammenarbeit von Teams auf einer einheitlichen Plattform für die Kommunikation und den Austausch von Erkenntnissen verbessern.

Skalierbarkeit: LLMOps ermöglicht besseres Skalieren und Verwalten, wobei mehrere Modelle für CI/CD (Continuous Integration und Continuous Delivery/Deployment) betreut, kontrolliert, gemanagt und überwacht werden können. LLM-Pipelines können die Zusammenarbeit fördern, Konflikte reduzieren und Release-Zyklen beschleunigen. Durch die Verbesserung der Modelllatenz bietet LLMOps ein reaktionsschnelleres Benutzererlebnis.

Risikominderung: LLMOps ermöglicht eine größere Transparenz und eine schnellere Reaktion auf Anfragen sowie eine bessere Compliance mit den Richtlinien eines Unternehmens oder einer Branche. Erweiterte LLMOps können die Sicherheit und den Datenschutz verbessern, indem sie dem Schutz sensibler Daten Vorrang einräumen und so Schwachstellen vermeiden und unbefugten Zugriff verhindern.

Es gibt mehrere Use Cases für LLMOps.

CI/CD (Continuous Integration/Continuous Delivery): Mit CI/CD soll der Lifecycle der Modellentwicklung optimiert, beschleunigt und automatisiert werden. Tools wie Jenkins können zum kontinuierlichen Aufbau und Testen von Projekten verwendet werden, sodass Entwicklerinnen und Entwickler Änderungen leichter in das Projekt integrieren können und die Nutzenden so leichter einen neuen Build erhalten. Dies ermöglicht nahtlose Modellaktualisierungen und Rollbacks und minimiert die Unterbrechungen für die Nutzenden.

Erfassung, Kennzeichnung und Storage von Daten: Die Datenerfassung kann aus einer ausreichenden Vielfalt von Quellen, Domains und Sprachen erfolgen. Die Kennzeichnung von Daten mit menschlichem Input kann komplexe, domainspezifische Entscheidungen ermöglichen. Der Daten-Storage mit geeigneten Datenbank- und Storage-Lösungen kann digitale Informationen über den gesamten LLM-Lifecycle erfassen und aufbewahren.

Fine Tuning, Inferenz und Überwachung von Modellen: Das Fine Tuning optimiert die Modelle, um domainspezifische Aufgaben zu erfüllen. Die Modellinferenz kann die Produktion auf der Basis des vorhandenen Wissens steuern und die Maßnahmen auf der Grundlage der abgeleiteten Informationen durchführen. Die Modellüberwachung, einschließlich des menschlichen Feedbacks, erfasst und speichert Daten über das Modellverhalten, um mehr über das Modellverhalten bei realen Produktionsdaten zu erfahren.

Es gibt mehrere Phasen oder Komponenten von LLMOps und für die einzelnen Phasen und Komponenten jeweils Best Practices:

Explorative Datenanalyse (EDA): Der Prüfungsprozess von Daten zur Ermittlung, Freigabe und Vorbereitung des ML-Lifecycles durch das Erstellen von Datensätzen, Tabellen und Visualisierungen.

  • Datenerfassung: Der erste Schritt, der für das Training des LLM verwendet wird, besteht in der Erfassung von Daten aus einer Vielzahl von Quellen, wie zum Beispiel Code-Repositories und sozialen Medien.
  • Datenbereinigung: Nach der Datenerfassung müssen die Daten bereinigt und für das Training vorbereitet werden. Dazu gehören das Entfernen von Fehlern, das Korrigieren von Inkonsistenzen und das Entfernen von Datenduplikaten.
  • Datenexploration: Der nächste Schritt besteht darin, die Daten zu explorieren, um ihre Eigenschaften besser zu verstehen, einschließlich der Identifizierung von Ausreißern und der Erkennung von Mustern.

Datenvorbereitung und Prompt Engineering: Der Prozess der Sichtbarmachung und gemeinsamen Nutzung von Daten durch Teams und die Entwicklung von Prompts für strukturierte, zuverlässige Abfragen an LLMs.

  • Datenvorbereitung: Die Daten, die zum Trainieren eines LLM verwendet werden, werden auf spezifische Weise vorbereitet, einschließlich dem Entfernen von Stoppwörtern und der Textnormalisierung.
  • Prompt Engineering: Die Erstellung von Prompts, die zur Texterstellung verwendet werden, damit LLMs den gewünschten Output generieren können.

Modell-Fine Tuning: Die Verwendung beliebter Open Source Libraries wie PyTorch zum Fine Tuning und zur Verbesserung der Modell-Performance.

  • Modelltraining: Nach der Aufbereitung der Daten wird das LLM mit Hilfe eines Machine Learning-Algorithmus trainiert oder feinabgestimmt, um die Datenmuster zu erkennen.
  • Modellbewertung: Nach dem Training muss das LLM evaluiert werden, um seine Performance zu überprüfen. Dazu wird ein Testdatensatz verwendet, der nicht zum Training des LLM verwendet wurde.
  • Fine Tuning des Modells: Wenn das LLM nicht gut funktioniert, kann ein Fine Tuning vorgenommen werden. Dabei werden die Parameter des LLM verändert, um seine Performance zu verbessern.

Modellüberprüfung und -Governance: Der Prozess des Ermittelns, Teilens und der Zusammenarbeit bei ML-Modellen mit Hilfe einer Open Source-MLOps-Plattform wie MLflow und Kubeflow.

  • Modellüberprüfung: Nach dem Fine Tuning muss die Sicherheit und Zuverlässigkeit des LLM überprüft werden, d. h. es muss auf Verzerrungen, Sicherheit und Sicherheitsrisiken geprüft werden.
  • Modell-Governance: Modell-Governance ist der Verwaltungsprozess des LLM während seines gesamten Lifecycles. Dazu gehören das Verfolgen seiner Performance, das Vornehmen von Änderungen bei Bedarf und das Stilllegen des Modells, wenn es nicht mehr benötigt wird.

Modellinferenz und -bereitstellung: Der Mechanismus zum Verwalten der Häufigkeit der Modellaktualisierung, der Inferenzanforderungszeiten und ähnlicher Produktionsspezifikationen beim Testen.

  • Modellbereitstellung: Sobald das LLM geprüft und genehmigt wurde, kann es in der Produktion eingesetzt werden, indem es über eine API (Application Programming Interface) zur Verfügung gestellt wird.
  • Modellinferenz: Die API kann von einer Anwendung abgefragt werden, um Text zu generieren oder Fragen zu beantworten. Dies kann auf verschiedene Weise geschehen, etwa über eine REST-API oder eine Webanwendung.

Modellüberwachung mit menschlichem Feedback: Die Erstellung von Modell- und Datenüberwachungs-Pipelines mit Warnungen sowohl für Modellabweichungen als auch für böswilliges Nutzungsverhalten.

  • Modellüberwachung: Nach dem Deployment muss das LLM überwacht werden, damit die erwartete Performance gewährleistet ist. Dazu gehören das Überwachen der Performance, das Erkennen von Problemen und das Vornehmen von Änderungen bei Bedarf.
  • Menschliches Feedback: Dies dient zur Verbesserung der LLM-Perfomance und kann durch Feedback zu dem vom LLM generierten Text oder durch die Erkennung von Problemen mit der LLM-Performance erfolgen.

Eine LLMOps-Plattform bietet Data Scientists und Software Engineers eine Umgebung für die Zusammenarbeit, die die Datenexploration, Coworking-Funktionen für Experimentverfolgung, Prompt Engineering sowie Modell- und Pipeline-Management erleichtert. Außerdem bietet sie kontrollierte Modellübergänge, -bereitstellung und -überwachung für LLMs.

Die Plattform ermöglicht ein effizienteres Library Management, wodurch die Betriebskosten gesenkt werden und weniger technisches Personal mit der Erledigung von Aufgaben betraut wird. Dazu gehören das Vorverarbeiten von Daten, das Trainieren von Sprachmodellen, Überwachung, Fine Tuning und Deployment. Mit LLMOps werden die Betriebs-, Synchronisations- und Überwachungsaspekte des ML-Lifecycles automatisiert.

Als branchenführende Hybrid Cloud-Anwendungsplattform auf Basis von Kubernetes beschleunigt Red Hat® OpenShift® das Rollout von KI-gestützten Anwendungen in Hybrid Cloud-Umgebungen, vom Rechenzentrum über den Netzwerkrand bis hin zu mehreren Clouds.

Mit Red Hat OpenShift können Unternehmen den iterativen Prozess der Integration von Modellen in Softwareentwicklungsprozesse, Produktions-Rollout, Überwachung, erneutes Training und erneute Bereitstellung für kontinuierliche Vorhersagegenauigkeit automatisieren und vereinfachen.

Red Hat OpenShift AI ist eine flexible, skalierbare MLOps-Plattform mit Tools zum Entwickeln, Bereitstellen und Verwalten von KI-gestützten Anwendungen. Sie ermöglicht Data Scientists und Anwendungsentwicklungsteams, die Integration von künstlicher Intelligenz (KI) in Anwendungen sicher, konsistent und in großem Umfang zu vereinfachen. OpenShift AI bietet Tools, die den gesamten Lifecycle von KI/ML-Experimenten und -Modellen unterstützen, sowohl On-Premise als auch in der Public Cloud.

Durch die Kombination der Funktionen von Red Hat OpenShift AI und Red Hat OpenShift in einer einzigen unternehmensfähigen KI-Anwendungsplattform können Teams in einer zentralen kollaborativen Umgebung zusammenarbeiten, die Konsistenz, Sicherheit und Skalierbarkeit fördert.

Mehr zu KI/ML

Produkte

Ein auf KI fokussiertes Portfolio, das Tools zum Trainieren, Tuning, Bereitstellen, Überwachen und Managen von KI/ML-Experimenten und -Modellen auf Red Hat OpenShift bietet.

Eine Plattform, die es Ihnen ermöglicht, Unternehmensanwendungen schnell und effizient über die von Ihnen gewünschte Infrastruktur bereitzustellen. 

Red Hat Ansible Lightspeed mit IBM watsonx Code Assistant ist ein generativer KI-Service, der von und für Teams aus dem Bereich Automatisierung, Operations und Entwicklung für Ansible konzipiert wurde. 

Ressourcen

E-Book

Wichtige Überlegungen beim Aufbau einer produktionsbereiten KI/ML-Umgebung

Analystenreport

Total Economic Impact™ der Red Hat Hybrid Cloud-Plattform für MLOps

Webcast

Mit Open Source und Kubernetes den größtmöglichen Nutzen aus KI ziehen