Leistungsschein – STACKIT Model Serving
Service Name
STACKIT Model Serving
Kurzbeschreibung
Der STACKIT Model Serving Service („Model Serving„) stellt open-source Large-Language-Models (LLMs) und andere GenAI-Modelle als geteilte Instanzen bereit. Kunden können geteilte Instanzen über eine OpenAI-kompatible REST-API nutzen. Es werden u.a. Chat- und Embeddings-Modelle bereitgestellt. Zur Authentifizierung wird ein API-Schlüssel genutzt. Bei der Nutzung des Model Serving Services werden seitens STACKIT außer abrechnungsrelevanten Daten keinerlei Daten des Kunden erhoben oder ausgewertet.
Wesentliche Merkmale
- State-of-the-art open-source LLMs
- Chat- & Embeddings-Modelle
- DSGVO-konformer Service
- Nutzungsbasierte Abrechnung nach verbrauchten Tokens
- OpenAI-kompatible Schnittstelle
- Einfache Nutzung via API-Key
Servicepläne
Jedes bereitgestellte Modell wird einem Serviceplan zugeordnet. Die Servicepläne werden nach aufsteigender Modelgröße in die Kategorien Base, Plus oder Premium eingeordnet. Die Zuordnung wird im STACKIT Portal sowie in der STACKIT Dokumentation beschrieben.
Metrik
Die Abrechnung des Model Serving erfolgt Token-basiert anhand des Typs des Modells:
- Bei Chat-Modellen nach Anzahl der genutzten Tokens (sowohl der Input-Tokens [Summe der Tokens in der Anfrage] sowie der Output-Tokens [Summe der vom LLM generierten Tokens]) eines Serviceplans, wobei jedes Modell einem Serviceplan zugeordnet ist. Informationen zur Schätzung der Token-Anzahl einer Anfrage können über die jeweiligen Modell-Beschreibungen (Model Cards) innerhalb der STACKIT Dokumentation gefunden werden. Der über die allgemeine STACKIT Preisliste angegebene Preis gilt pro jeweils bis zu 1 Millionen genutzten Token.
- Bei Embedding-Modellen werden ausschließlich Input-token berechnet. Der über die allgemeine STACKIT Preisliste angegebene Preis gilt pro jeweils bis zu 1 Millionen genutzten Token.
- Der jeweilige Modell-Typ wird in der STACKIT Dokumentation ausgewiesen. Der Kunde legt im Rahmen des API-Aufrufs seiner Anwendung fest, welcher Modell-Typ zum Einsatz kommt.
SLA Spezifika
Abweichend von den Verfügbarkeitsangeben der allgemeinen STACKIT Servicebeschreibung wird für das Model Serving eine Verfügbarkeit von 99,5% im Kalendermonat (gemessen anhand der externen Erreichbarkeit der LLM-API) vereinbart.
Backup
Ein Backup der Anfragen des Kunden erfolgt nicht.
Zusätzliche Bedingungen
- Der Kunde verpflichtet sich bei Nutzung des jeweils von ihm ausgewählten Modells, die jeweils für das Modell geltenden Lizenzbedingungen einzuhalten, welche über die STACKIT Dokumentation einsehbar sind.
- Modell Deprecation Prozess
In Ergänzung der allgemeinen Bestimmungen der Nutzungsbedingungen und der allgemeinen STACKIT Servicebeschreibung können Modelle mit einer Ankündigungsfrist von 6 Monaten durch STACKIT abgekündigt werden. Erfolgt auf eine veraltete Modellversionen der Release eines direkten Nachfolgermodells, können veraltete Modellversionen durch STACKIT mit einer Vorlaufzeit von 3 Monaten abgekündigt und durch das Nachfolgermodell ersetzt werden. - STACKIT weist zusätzlich darauf hin, dass der Kunde etwaig einschlägige gesetzliche Bestimmungen für vom Kunden erstellte KI-Anwendungen einzuhalten hat.
Version und Geltungsbeginn
Version 1.0, gültig ab 04.02.2025