Reicht es, personenbezogene Daten vor dem LLM-Call zu pseudonymisieren oder zu anonymisieren?

Pseudonymisierung reduziert das Risiko, hebt die DSGVO-Pflichten aber nicht auf — pseudonyme Daten bleiben personenbezogen (Art. 4 Nr. 5 DSGVO). Echte Anonymisierung ist bei LLM-Inputs schwer, weil Kontext-Inferenz Re-Identifikation ermöglicht. Pseudonymisierung ist trotzdem ein wichtiger Baustein, aber kein Freischuss für sonst kritische Use-Cases.

Pseudonymisierung vor LLM — was DSGVO-rechtlich wirklich zählt

Die ehrliche Kurzantwort

Zwei Begriffe, die oft verwechselt werden:

Pseudonymisierung (Art. 4 Nr. 5 DSGVO): Daten werden so verarbeitet, dass sie ohne Zusatzinformationen nicht mehr einer Person zugeordnet werden können. Aber: Pseudonyme Daten bleiben personenbezogene Daten — die Zusatz-Info (Schlüssel) liegt eben woanders. Alle DSGVO-Pflichten gelten weiter.

Anonymisierung (Erwägungsgrund 26 DSGVO): Daten werden so verändert, dass keine Identifizierung mehr möglich ist — auch nicht mit Zusatzinformationen oder Inferenz. Anonymisierte Daten fallen aus der DSGVO heraus.

Bei LLM-Inputs ist echte Anonymisierung praktisch sehr schwierig. Ein LLM zieht Inferenz aus Kontext — selbst nach Entfernen von Name und E-Mail-Adresse kann der Output über Branche, Region, Spezialwissen und Datums-Kontext eine eindeutige Re-Identifikation ermöglichen.

Konsequenz: Pseudonymisierung ist ein wichtiger Schutzbaustein, aber kein DSGVO-Freischuss. Sie kann das Risiko-Niveau senken, hebt aber die Pflichten (AVV, DSFA, Transparenz) nicht auf.

Wo Pseudonymisierung trotzdem viel hilft

Pseudonymisierung vor LLM-Call ist sinnvoll, weil sie zwei reale Probleme mildert:

Datenpannen-Schaden. Wenn der Cloud-Anbieter gehackt wird oder ein Mitarbeiter versehentlich Logs leakt, sind pseudonymisierte Daten weit weniger gefährlich als Klartext. Schadens-Reduktion ist eine zentrale Schutzkategorie nach Art. 32 DSGVO.

Training-Daten-Risiko. Auch wenn der AVV einen Trainings-Opt-Out garantiert, ist es schöner, wenn die Daten selbst bei einem Anbieter-Pannenfall keine PII enthalten. Defense in Depth.

Mitarbeiter-Sicht. Wer als Mitarbeiter sensible Mails an ein LLM schickt, fühlt sich auch persönlich besser, wenn Klar-PII vorab maskiert wurde. Das fördert produktive AI-Nutzung statt heimliches Workaround-Verhalten.

Was 2026 als Pseudonymisierung-Pipeline funktioniert

Drei Komponenten:

1. PII-Detection vor LLM-Call

Microsoft Presidio ist das verbreitetste Open-Source-Tool 2026. Erkennt ~50 Entitäts-Typen (Person, E-Mail, Telefon, IBAN, Adresse, IP, etc.), deutsch-tauglich nach Konfiguration. Tagesarbeit, kein Wochen-Projekt.

spaCy + Custom-NER. Wenn du spezielle Entitäten erkennen musst (Patientennummern, interne Auftrags-IDs, branchen-spezifische Identifier), trainierst du ein eigenes NER-Modell auf 200–500 Beispielen.

Regex-Layer. Für deterministisch erkennbare Patterns (IBAN, Kreditkartennummern, Personal-Nummern) sind Regex schneller und treffsicherer als ML-Modelle. Sollte als erste Schicht laufen.

Eval-Set. Nimm 200 echte Beispiel-Inputs, lass die Detection laufen, prüfe manuell. Recall (wie viel PII wurde erkannt) ist wichtiger als Precision (wie viele False-Positives). Im Zweifel pseudonymisierst du zu viel statt zu wenig.

2. Pseudonymisierungs-Strategie

Token-Replacement. “Max Mustermann” wird zu “[PERSON_001]”, “info@firma.de” zu “[EMAIL_001]”. Konsistent über die ganze Session — wenn ein Name dreimal vorkommt, wird er dreimal mit dem gleichen Token ersetzt. Sonst verliert das LLM Kohärenz.

Format-Preserving Pseudonymization. Für strukturierte Daten (Kundennummern, Bestellnummern): generiere konsistente, aber fiktive Werte gleichen Formats. “K-12345” → “K-AB7DC”. Vorteil: das LLM kann mit dem Format normal arbeiten, ohne dass die echte Nummer leakt.

Kontext-Reduktion. Manchmal ist die beste Strategie, einen Teil der Eingabe ganz wegzulassen. Wenn das LLM nicht wissen muss, dass die Patientin aus Chemnitz kommt und im Quartal 3/2025 behandelt wurde, dann leg diese Felder gar nicht erst rein.

3. Re-Mapping nach LLM-Antwort

Wenn die LLM-Antwort die Pseudonyme enthält (“[PERSON_001] hat angefragt, ob…”), musst du sie rückübersetzen, bevor du sie an den Nutzer ausgibst. Die Mapping-Tabelle lebt nur in deinem Kontext-Speicher (z. B. Session-Cache, maximal Stunden), nie beim Anbieter, nie in den LLM-Calls selbst.

Wo Pseudonymisierung nichts rettet

Strukturelle Inferenz. “Wie behandle ich Patient X mit Beschwerde Y im Kontext Z?” Selbst nach Pseudonymisierung des Namens — wenn das Krankheitsbild extrem spezifisch ist und es deutschlandweit zehn Fälle gibt, ist die Person identifizierbar.

Cluster-Inferenz. Wenn du gleichzeitig Hunderte Anfragen über ähnliche pseudonymisierte Personen schickst, kann der Anbieter (oder ein Lauscher in der Pipeline) Cluster-Muster erkennen, die zur Identifikation führen.

Re-Identifikation aus Output. LLMs können in seltenen Fällen aus Trainings-Daten Klar-PII ausspucken, die zufällig mit deinen pseudonymisierten Daten zusammenpasst. Selten, aber dokumentiert.

Art.-9-Daten. Bei besonders sensiblen Daten (Gesundheit, Religion, Gewerkschaftszugehörigkeit) ist Pseudonymisierung allein niemals der ausreichende Schutz. Hier brauchst du zusätzlich Rechtsgrundlage nach Art. 9 Abs. 2 und meist on-prem-Verarbeitung.

Stand der Anonymisierung 2026

Echte Anonymisierung (im DSGVO-Sinn, also rückführungs-sicher) ist bei LLM-relevanten Daten praktisch nur in zwei Wegen erreichbar:

Differential Privacy. Mathematisch fundierte Methode mit quantifizierbarem Re-Identifikations-Risiko. Wird in der Forschung und in einzelnen Unternehmenskontexten eingesetzt (Apple, Google Statistiken). Für deutsche Mittelstands-LLM-Use-Cases meist Overkill.

Synthetische Daten. Echte Daten werden durch statistische Ersatzdaten ersetzt, die dieselben Verteilungen haben. Funktioniert gut für strukturierte Datenbanken, weniger gut für freitext-LLM-Inputs.

Für die meisten Mittelstands-Szenarien gilt: Pseudonymisierung ist realistisch erreichbar, Anonymisierung ist eher nicht erreichbar. Die DSGVO-Pflichten bleiben — Pseudonymisierung ist ein Risiko-Reduzierer, kein Befreiungs-Schein.

Pragmatische Empfehlung

Drei Schutzschichten kombinieren:

PII-Detection + Pseudonymisierung vor jedem Cloud-LLM-Call. Tools: Presidio + spaCy + Regex-Layer.
AVV + EU-Region mit dem Anbieter. Beides bleibt nötig auch nach Pseudonymisierung.
Klassifizierungs-Routing. Grüne und gelbe Daten ins Cloud-LLM (pseudonymisiert), rote Daten auf on-prem-LLM (auch dort pseudonymisiert, für Defense-in-Depth).

Was vermieden werden sollte:

“Wir pseudonymisieren, also brauchen wir keinen AVV mehr.” — Falsch.
“Wir pseudonymisieren, also brauchen wir keine DSFA mehr.” — Falsch.
“Wir pseudonymisieren, also dürfen Art.-9-Daten ins Cloud-LLM.” — Falsch.

Pseudonymisierung senkt das Schadenspotenzial im Pannenfall und ist Pflicht-Bestandteil eines guten Schutzkonzepts. Sie ändert nichts an Rechtsgrundlage, Anbieter-Pflichten und Aufsichtsbehörden-Erwartung.

Was du heute nicht tun solltest

Keine “Anonymisierung-Lösung” als Marketing-Layer verkaufen, die nur Namen ersetzt. Keinen Use-Case “wegen Pseudonymisierung” für DSGVO-frei erklären. Und keine PII-Detection ohne Eval-Set live schalten — wenn die Detection schlecht eingestellt ist, geht mehr Klar-PII durch als wenn du gar nicht maskierst.

Pragmatischer Einstieg: Presidio aufsetzen, 200 reale Inputs durchspielen, Recall messen, Custom-NER für branchenspezifische Entitäten ergänzen. Eine Woche Arbeit, danach läuft die Pipeline.

Pseudonymisierung vor LLM-Calls — reicht das wirklich?