Custom GPTs in Unternehmen: Eigene Wissensmodelle bauen

KI soll Antworten liefern, wie Ihre besten Experten – aber in Sekunden und rund um die Uhr. Mit einem Custom GPT, das auf Ihr Firmenwissen zugreift, wird genau das möglich.

Die meisten Teams scheitern jedoch an Datensilos, Sicherheitsbedenken und „halluzinierenden“ Modellen. Ergebnis: Pilotprojekte bleiben im Sand stecken und die Fachbereiche verlieren Vertrauen.

In diesem Leitfaden erfahren Sie, wie Sie ein unternehmensweites Wissensmodell aufbauen, das sicher, skalierbar und messbar Mehrwert liefert – von Architekturentscheidungen (RAG vs. Fine-Tuning) bis zur Go-Live-Checkliste.

TL;DR

Starten Sie mit RAG statt Fine-Tuning: schnelle Ergebnisse, bessere Kontrolle über Firmenwissen.
Architektur-Prio: Datenqualität, Rechte & Governance vor „Modellauswahl“.
Piloten eng am Use Case: Support, Vertrieb, Compliance oder Onboarding.
Guardrails, Evaluationssets und Monitoring verhindern Halluzinationen im Unternehmens-GPT.
Iterieren Sie in 6–8 Wochen von MVP zu „Production Ready“ mit klaren KPIs.

Was bedeutet „Custom GPT“ im Unternehmen? (Definition)

Ein Custom GPT im Unternehmen ist ein KI-Assistent, der auf Standard-LLMs aufsetzt, aber mit Ihrem internen Wissen, Tools und Richtlinien arbeitet. Er kombiniert:

Retrieval-Augmented Generation (RAG) für den Zugriff auf aktuelle, freigegebene Inhalte
Unternehmensfunktionen wie SSO, Rollen-/Rechte-Management, Protokollierung und Compliance
Optionale Werkzeuge (z. B. Ticketanlage, CRM-Lookups) und Workflows

Ziel: Antworten, Entwürfe und Automationen, die Ihrem Firmenkontext entsprechen – sicher und nachvollziehbar.

Wann lohnt sich ein Unternehmens-GPT?

Typische, schnell wirksame Anwendungsfälle:

Wissensservice/Support: Antworten aus Handbüchern, Richtlinien, Tickets.
Vertrieb & Presales: Angebotsentwürfe, Produktvergleiche, RFI/RFP-Hilfen.
Compliance & Recht: Policy-Checks, Zusammenfassungen, Dokument-Review.
HR & Onboarding: Rollenleitfäden, FAQs, Trainingspfade.
IT & Betrieb: How-tos, Runbooks, Change- und Incident-Unterstützung.

Praxis-Tipp: Wählen Sie 1–2 eng umrissene Use Cases mit klaren Dokumentquellen und messbarer Outcome-Metrik (z. B. Ticket-Deflection, Erstellungszeit von Angeboten).

Architekturvarianten: RAG, Fine-Tuning oder Tools?

Die folgende Tabelle hilft bei der Entscheidung.

Option	Datenfluss/Prinzip	Stärken	Grenzen	Time-to-Value	Datenschutzanspruch
RAG (Vektor-Suche + LLM)	Abfrage -> semantische Suche -> kontextbezogenes Prompting	Aktuell, nachvollziehbar, kontrollierbar	Benötigt gute Datenaufbereitung	Kurz	Mittel
Fine-Tuning (LLM-Anpassung)	Modellgewichte werden mit Beispielen verfeinert	Stil/Format konsistent, spezielle Tasks	Wissen „backt“ ein, Aktualisierung teuer	Mittel bis Lang	Mittel
Tool-Use/Function Calling	LLM ruft interne APIs/Tools auf	Aktionen statt nur Text, Prozessintegration	Orchestrierung & Sicherheit komplex	Mittel	Hoch
Eigene Modelle (Self-Hosted)	On-Prem/Private Cloud LLM	Hohe Kontrolle, Datensouveränität	Betrieb & Tuning aufwendig	Lang	Sehr hoch

Empfehlung für den Start: RAG als Kern, ergänzt um ausgewählte Tools (z. B. Jira, Salesforce). Fine-Tuning nur für spezifische Format- oder Stilthemen – nicht als Wissensspeicher.

Daten zuerst: Quellen, Rechte, Governance

Ohne saubere Datenquelle(n) wird jedes interne KI-Modell schwach. Fokus:

Quellen: Confluence/SharePoint, DMS, Git/Wikis, Tickets, Policies, Produktdatenblätter.
Aufbereitung: Duplikate, Versionierung, Metadaten (Gültigkeit, Sprache, Sichtbarkeit).
Zugriff: RBAC/ABAC, SSO, Audit-Logs; nur freigegebene Inhalte in die Suche.
Lebenszyklus: Aktualisierung, Löschkonzepte, Retention-Policies.
Governance: Verantwortliche pro Quelle, Freigabeprozesse, dokumentierte Prompt-Richtlinien.

Praxis-Tipp: Starten Sie mit 3–5 „Goldquellen“, die 80 % der Fragen abdecken. Qualität schlägt Quantität.

Schritt-für-Schritt: Eigenes Wissensmodell aufbauen

Use Case und KPIs definieren
- Beispiel-KPIs: Erstlösungsquote im Support, Erstellungszeit für Angebote, Zeit bis Policy-Antwort.
Inhaltsaudit & Datenvertrag
- Welche Quellen? Wer ist Owner? Welche Lizenz-/Nutzungsrechte gelten?
Aufbereitung & Chunking
- Einheitliche Formate (PDF/HTML), semantisches Chunking (Absatz/Abschnitt), Metadaten anreichern.
Vektordatenbank & Indizierung
- Embeddings wählen, Indizes pro Quelle, Feldsuche + semantische Suche kombinieren.
Prompting & Orchestrierung
- Systemprompt mit Tonalität/DoR, Retrieval-Strategien (k, MMR), Zitationspflicht aktivieren.
Guardrails & Sicherheit
- Content-Filter, PII-Redaktion, Policy-Checks, Rollen-/Rechteprüfung vor Ausgabe.
Evaluation & Red-Teaming
- Goldenset mit realen Fragen; Metriken: Genauigkeit, Zitationsquote, Zeit bis Antwort.
Rollout & Enablement
- Pilotgruppe, Feedback-Loops, Change-Management, Trainings & Spielregeln.

Go-Live-Checkliste:

Quellen vertraglich geklärt, Owner benannt
RBAC/SSO aktiv, Audit-Logs geprüft
Evaluationsset + Base-Line vorhanden
Rückmeldemechanismus im UI (Daumen, Kommentar)
Monitoring für Kosten, Qualität, Nutzung

Qualität sichern: Evaluation, Guardrails, Monitoring

Evaluationssets: 50–200 repräsentative Fragen/Antworten mit erwarteten Quellen.
Automatisierte Checks: Zitationspflicht, Quellen-Diversität, Antwortlänge, PII-Filter.
Human-in-the-Loop: Fachreview für heikle Antworten, Eskalationspfade.
Monitoring: Kosten pro Anfrage, Trefferquote Retrieval, Antwortakzeptanz, Latenz.
Drift-Management: Re-Index bei Dokumentupdates, regelmäßige Prompt-/Parameter-Reviews.

Sicherheit, Datenschutz, Compliance

Datenfluss minimieren: Nur Embeddings/IDs statt Volltext an Dritte senden, wo möglich.
Verschlüsselung: At-Rest und In-Transit, Secret-Management, Schlüsselrotation.
Zugriff: Least Privilege, Freigaben auf Orchestrierungsebene erzwingen.
Protokollierung: Nachvollziehbarkeit für Audits, Löschkonzepte für Prompt-/Chat-Logs.
Rechtliches: Urheberrechte der Quellen klären, DSGVO-Rechtsgrundlagen dokumentieren, DPA/AVV mit Anbietern.

Praxis-Tipp: Trennen Sie strikt „Indexing Pipeline“ (mit Vollzugriff) und „Query Runtime“ (nur freigegebene Snippets). So vermeiden Sie versehentliche Datenlecks.

Best Practices aus Projekten

Narrow First: Ein konkreter Prozess statt „alles können“.
Content as Product: Dokumente haben Owner, SLAs, Versionen.
Retrieval > Modellwahl: Gute Suche schlägt größeres LLM.
Explainability einbauen: Quellen anzeigen, Unsicherheiten kennzeichnen.
Change-Management: Schulung, Guidelines, Erfolgsgeschichten früh teilen.

Typische Fehler – und wie Sie sie vermeiden

„Wir laden alles hoch“: Ohne Kuratierung entstehen Widersprüche. Starten Sie kuratiert.
Fine-Tuning als Wissensspeicher: Aktualisierung wird teuer und langsam. Nutzen Sie RAG.
Keine Metriken: Ohne Goldenset bleiben Diskussionen politisch. Legen Sie KPIs fest.
Security später: Rechteprüfung gehört in die erste Iteration, nicht ins Backlog.
Kein Betriebskonzept: Logging, Kostenbudgets, Alarmierung von Tag 1 an.

Integration in Ihre Tool-Landschaft

So fügen Sie das Unternehmens-GPT nahtlos ein:

M365/Google Workspace: Add-ins/Extensions, Rechteübernahme via SSO.
Confluence/SharePoint: Event-basierte Re-Indexierung bei Änderungen.
CRM/ITSM: Function Calling für Ticketanlage, Opportunity-Updates, Wissenseinträge.
Chat/Portal: Teams/Slack-App, Web-Widget mit Unternehmenslogin.
Analytics: Nutzung pro Team, Akzeptanzraten, Content-Lückenreport.

Aufwand und Kosten: Womit Sie rechnen sollten

Die Kosten verteilen sich typischerweise auf:

Aufbau: Datenaufbereitung, Indizes, Orchestrierung, Security-Härtung.
Laufend: LLM-Token, Embeddings/Storage, Monitoring, Wartung der Pipelines.
Enablement: Schulungen, Guidelines, internes Marketing.

Als grobe Orientierung: Ein fokussiertes MVP (ein Use Case, 3–5 Quellen) lässt sich oft in wenigen Wochen umsetzen; laufende Kosten hängen primär von Nutzungsvolumen und Modellwahl ab.

Häufige Fragen (FAQ)

Was ist der Unterschied zwischen „Custom GPT“ und „Unternehmens-GPT“?

„Custom GPT“ beschreibt ein angepasstes Sprachmodell mit eigenem Prompt, Wissen und Tools. „Unternehmens-GPT“ betont zusätzlich Sicherheits-, Governance- und Integrationsanforderungen in der Firmen-IT. In der Praxis meinen beide oft denselben Ansatz – mit Fokus auf Firmenwissen und Compliance.

Reicht RAG, oder brauchen wir Fine-Tuning?

Für Wissensabfragen reicht RAG in den meisten Fällen, weil Inhalte aktuell bleiben und zitiert werden. Fine-Tuning lohnt sich für Style-/Formataufgaben oder sehr spezifische Extraktionen. Häufig ist die beste Lösung: RAG als Fundament, punktuelles Fine-Tuning für Formatkonstanz.

Können wir das on-premise betreiben?

Ja, mit self-hosted LLMs/Embeddings und eigener Vektordatenbank. Das erhöht die Kontrolle, erfordert aber Betriebskompetenz für Skalierung, Sicherheit und Observability. Eine Hybridarchitektur (On-Prem Daten, gemanagte LLM-API) ist ein praxistauglicher Mittelweg.

Wie verhindern wir Halluzinationen im Unternehmens-GPT?

Kombinieren Sie striktes Retrieval mit Zitationspflicht und Antwortgrenzen. Ergänzen Sie Guardrails (Policy-Checks, PII-Filter) und ein Evaluationsset. Bei Unsicherheit sollte die KI klar „unklar“ signalisieren und Rückfragen stellen.

Welche Rollen braucht das Projektteam?

Typisch: Product Owner, Data/Analytics Engineer, Prompt/RAG Engineer, Security/Compliance, Fachbereichsvertreter und ein Enablement/Change Lead. In kleinen Teams können Rollen gebündelt werden, solange Verantwortlichkeiten klar sind.

Wie messen wir den Erfolg?

Nutzennahe KPIs wie Ticket-Deflection, Erstellungszeit von Dokumenten, Antwortakzeptanz durch Nutzer oder Reduktion manueller Nacharbeit. Ergänzend Prozessmetriken: Retrieval-Trefferquote, Zitationsrate, Latenz, Kosten pro Anfrage.

Wie binden wir SharePoint/Confluence sicher an?

Über service accounts mit Least-Privilege, Event-/Webhook-basierte Re-Indexierung und Rechteübernahme zur Abfragezeit. Prüfen Sie sensible Bibliotheken separat und definieren Sie Ausschlusslisten für vertrauliche Bereiche.

Dürfen interne Richtlinien oder Verträge in die KI?

Ja, sofern rechtlich zulässig und technisch kontrolliert (Zugriffsrechte, Verschlüsselung, Logging). Vermeiden Sie unkontrollierte Drittlandübermittlungen und dokumentieren Sie Rechtsgrundlagen sowie Datenflüsse in Ihrem Verarbeitungsverzeichnis.

Was passiert mit vertraulichen Daten im Prompt?

Prompts/Antworten sind personenbezogene Daten potenziell ähnlich schützenswert wie Inhalte. Aktivieren Sie Log-Redaktion, Minimierung, Aufbewahrungsfristen und Zugriffsbeschränkungen. Schulen Sie Nutzer, keine unnötigen PII in freie Texte zu schreiben.

Fazit

Ein leistungsfähiges Unternehmens-GPT entsteht nicht durch das „größte Modell“, sondern durch saubere Daten, kluge Retrieval-Strategien und strikte Governance. Beginnen Sie fokussiert, messen Sie Nutzen und skalieren Sie entlang klarer Prozesse. So wird Firmenwissen zur produktiven Ressource – sicher, schnell und verlässlich.

Sie planen, ein Custom GPT im Unternehmen aufzubauen? Wir begleiten Sie von der Architektur bis zum Go-Live. Jetzt Beratungstermin anfragen und mit einem greifbaren MVP starten.

Lasst uns über eure Zukunft sprechen