Zum Inhalt springen
K Krynex Labs
Technik & Architektur

RAG vs. Fine-Tuning vs. Long-Context — was wann?

Die ehrliche Kurzantwort

Drei Wege, einem LLM Unternehmenswissen beizubringen:

  • RAG (Retrieval-Augmented Generation): Wissen in Vector-DB, pro Anfrage die relevanten Stücke heraussuchen und ins Prompt-Window legen
  • Fine-Tuning: Modell-Gewichte mit eigenen Daten weiter trainieren
  • Long-Context: gesamtes Wissen direkt ins Kontextfenster legen (Claude Sonnet 4.6 hat 1 Mio Tokens, Gemini 2.5 hat 2 Mio, Llama 4 Scout 10 Mio Kontext)

Wann was greift:

AnforderungEmpfehlung
Aktuelle Daten (Tickets, Verträge, Wikis)RAG
Quellenverweise und NachvollziehbarkeitRAG
Spezielle Schreibstil/Ton/FormatFine-Tuning
Domain-spezifisches Vokabular (Medizin, Recht)Fine-Tuning + RAG
Kleine, statische Wissensbasis (<200 Seiten)Long-Context
Hohes Frage-Volumen auf großem KorpusRAG
Compliance-Anforderungen an DatentrennungRAG

RAG — der Standardweg 2026

Wie es funktioniert. Dokumente werden in Chunks zerlegt (300–1.000 Tokens pro Chunk), mit einem Embedding-Modell (text-embedding-3-large, bge-m3, nomic-embed-text) in Vektoren übersetzt, in einer Vector-Datenbank (Qdrant, Weaviate, pgvector, Pinecone) abgelegt. Bei einer Anfrage werden die k=5 bis k=20 ähnlichsten Chunks geholt und ins LLM-Prompt gelegt. Das LLM antwortet auf Basis dieses Kontextes.

Stärken.

  • Aktualisierbar ohne Modell-Retraining (neue Dokumente einfach indexieren)
  • Quellen-Verweise möglich (welche Chunks haben zur Antwort beigetragen)
  • Daten-Trennung pro Tenant/Abteilung über getrennte Vector-Indizes
  • Kostengünstig (Embedding ist ein Bruchteil von Generation)

Schwächen.

  • Retrieval-Qualität ist der zentrale Flaschenhals — schlechte Embeddings oder schlechte Chunking-Strategie → schlechte Antworten
  • “Lost in the middle”-Problem bei vielen retrieveden Chunks
  • Komplexer als ein reiner LLM-Call (mehrere Komponenten, Monitoring nötig)

Typische Mittelstands-Anwendungsfälle. Customer-Support mit Produktdatenbank, internes Wiki-Q&A, Vertragsklauseln-Suche, Wissens-Management für neue Mitarbeitende.

Tooling 2026.

  • Vector-DB: Qdrant (open source, performant), pgvector (wenn Postgres schon im Stack), Weaviate (für gemischte Volltext+Vektor-Queries)
  • Embedding: bge-m3 oder nomic-embed-text-v1.5 (open source, deutsch ausreichend gut), text-embedding-3-large von OpenAI (besser, kostet)
  • Framework: LangChain LCEL, LlamaIndex, Haystack, oder gleich eigener schlanker Code (oft sinnvoller als Framework-Abstraktion)
  • Re-Ranking: Cohere rerank-3, BGE-Reranker (deutlicher Qualitätssprung, kleiner Cost-Overhead)

Fine-Tuning — wann es Sinn macht

Wann es lohnt. Wenn du Ton, Format oder Stil dauerhaft willst — z. B. firmen-typische E-Mail-Antworten, juristische Formulierungen, medizinische Abkürzungen. Oder wenn du klassifizieren willst (Mail-Routing, Ticket-Priorisierung) und RAG-Approach ineffizient wäre.

Wann es nicht lohnt. Wenn du Fakten beibringen willst. Fine-Tuning ist ein schlechter Weg, neues Wissen reinzubekommen — das Modell halluziniert dann oft mit der “neuen Wahrheit”. RAG ist dafür der bessere Weg.

Tooling 2026.

  • OpenAI Fine-Tuning (GPT-5.5, GPT-4o-mini): Web-UI oder API, kommt mit Server-side-Hosting. Kostet ca. 25 €/Million Trainingstoken.
  • Anthropic bietet 2026 noch kein öffentliches Fine-Tuning. Nur über Bedrock-Custom-Models bei AWS, eingeschränkt.
  • Open-Source-Fine-Tuning: LoRA/QLoRA mit Unsloth, Axolotl oder HF TRL. Reicht meist (LoRA hat ~1 % der Parameter, gleiche Qualität für Stil-Tasks). Trainingsdauer auf 1× A100 typisch 2–8 Stunden bei kleinen Datasets.

Daten-Anforderung. Mindestens 100, besser 500–2.000 hochwertige Trainings-Beispiele. Qualität schlägt Quantität: 200 perfekt kuratierte Paare sind besser als 5.000 inkonsistente. Test-Set zu mindestens 20 % reservieren.

Long-Context — der Kontextfenster-Weg

Wann es ausreicht. Wenn dein gesamtes relevantes Wissen in den Kontext passt: Claude Sonnet 4.6 fasst 1 Million Tokens (ca. 700.000 Wörter, ca. 2.000 Seiten DIN A4), Gemini 2.5 Pro fasst 2 Millionen, Llama 4 Scout sogar 10 Millionen. Für viele B2B-Szenarien — ein einzelnes Vertragsdokument, ein Produkthandbuch, ein technisches Spec — reicht das problemlos.

Wann es nicht funktioniert.

  • Bei 10+ Millionen Tokens an Bestandsdaten — zu groß
  • Bei dynamisch wachsendem Korpus (jeder Ticket-Eintrag soll abrufbar sein) — zu unflexibel
  • Bei strengen Daten-Trennungs-Anforderungen — du sendest immer alles, was unter Compliance-Gesichtspunkten ein No-Go sein kann

Kosten-Realität. 1 Million Token Input bei Claude Sonnet 4.6: ca. 3 € pro Anfrage. Bei 100 Anfragen am Tag → 300 €/Tag → ~9.000 €/Monat. Anthropic bietet Prompt-Caching an, das die wiederholten Teile auf ~10 % der Kosten senkt — aber nur wenn die Cache-TTL passt (5 Minuten Standard, 1 Stunde gegen Aufpreis).

Sweet Spot für Long-Context.

  • Statischer Dokumentenbestand (< 500.000 Tokens)
  • Niedrige bis mittlere Anfrage-Frequenz
  • Hoher Anspruch an Antwort-Qualität (Long-Context liefert oft besser als RAG bei kleinen Korpora)

Die typischen Mittelstands-Architekturen

Pattern A: RAG-Standard (etwa 60 % unserer Projekte 2026)

  • Embedding mit text-embedding-3-large oder bge-m3
  • Vector-DB Qdrant on-prem oder pgvector in Bestandspostgres
  • Generation mit Claude Sonnet 4.6 (Cloud) oder Llama 4 Scout (on-prem)
  • Re-Ranking mit Cohere rerank-3 oder BGE-Reranker
  • Audit-Log mit Anfrage, Retrieved Chunks, Antwort

Pattern B: RAG + Fine-Tune (etwa 15 % unserer Projekte)

  • RAG für Faktenwissen
  • Fine-Tune (meist LoRA auf Open-Source-Modell) für firmen-typischen Antwortstil
  • Use-Case: Kundenservice mit eigener Tonalität

Pattern C: Long-Context (etwa 15 % unserer Projekte)

  • Pro Anfrage: Anhang/Dokument vorladen, dann Frage stellen
  • Use-Case: Vertragsprüfung, Diagnose-Berichte, technische Spezifikations-Analyse

Pattern D: Hybrid Long-Context + RAG (etwa 10 % unserer Projekte)

  • Long-Context für aktuellen Vorgang (z. B. konkreter Kundenfall)
  • RAG für Hintergrund-Wissen (Produktkatalog, FAQ)
  • Use-Case: Komplexe Kundensupport-Anfragen mit Kontext über mehrere Tickets

Was du heute nicht tun solltest

Keine Fine-Tuning-Sessions, um aktuelle Faktenwissen ins Modell zu bekommen — das wird halluzinieren. Keine RAG-Pipeline ohne Re-Ranking, wenn die Antwortqualität wirklich zählt. Keine Million-Token-Long-Context-Calls bei hohem Anfragenvolumen ohne Prompt-Caching — das wird teuer.

Pragmatischer Einstieg: erst Long-Context mit den 10 wichtigsten Dokumenten testen, ob das Antwortverhalten ausreicht. Wenn ja: einfach so betreiben. Wenn nein: RAG bauen, mit Re-Ranking, mit Eval-Set für Regressions-Tests.

Konkrete Frage zu eurem Setup?

Ein 30-Minuten-Erstgespräch klärt meistens schon, ob euer aktueller AI-Stack hält oder wo nachzuarbeiten ist. Kostenlos, ohne Verkaufsdruck.

Erstgespräch buchen