Compliance · Voice-Agents · DSGVO + AI Act

DSGVO-konforme Voice-Agents für Praxen, Restaurants, Hotels — gebaut in Berlin.

Stimme ist biometrisches Datum nach Art. 9 DSGVO. Plus Artikel 50 ab August 2026 und das DSK-Positionspapier zu KI in Arztpraxen vom Juni 2025 — die Latte wird konkret. Wir bauen Voice-Agents, die beide Audits standardmäßig bestehen — EU-only-Daten, keine Aufzeichnungen, AVV-bereit, Artikel-50-Hinweis-Skripte integriert.

TL;DR

·Stimme = biometrisches Datum (Art. 9 DSGVO). Verarbeitung besonderer Kategorien erfordert eine spezifische Rechtsgrundlage über Consent hinaus.
·Für Arztpraxen setzt das DSK-Positionspapier vom 16.06.2025 explizite Bedingungen: EU-Hosting, keine Aufzeichnung, nur strukturierte Erfassung, AVV mit dem Praxisinhaber.
·Ab 2. August 2026 muss jeder Voice-Agent sich nach EU AI Act Artikel 50 als KI zu erkennen geben — nicht nur bei Sitzungsbeginn, sondern vor der ersten KI-Antwort.
·Unsere Lieferung: Discovery-Sprint (4.900 €) → MVP-Build (18.000 €, eine Sprache, voll konform) → Multi-Language-Enterprise-Paket bis 75.000 €.

Wer braucht einen konformen Voice-Agent

Drei Käuferprofile mit nicht verhandelbaren Compliance-Anforderungen. Erstens: Arztpraxen, Kliniken, Zahnarztpraxen — die DSK-Guidance ist bindend für jeden Verarbeiter von Patientendaten. Zweitens: Gastronomie (Restaurants, Hotels) — Voice-Erfassung speichert Buchungsdaten, Allergien, Vorlieben, alle potenziell sensible Kategorien. Drittens: Rechts- und Steuerberatung — Verschwiegenheit ist gesetzlich (§43a BRAO, §57 StBerG) und aufgezeichnete Gespräche verstoßen dagegen. Generische Voice-Agents wie Doctolib, Clinia oder Standard-Twilio-Bots erfüllen typischerweise mindestens eine dieser Bedingungen nicht; ein maßgeschneiderter EU-only-Voice-Agent erfüllt alle.

Was ein konformer Voice-Agent technisch verlangt

Acht technische Anforderungen. Wir sehen die meisten Standard-Voice-Agents an mindestens drei scheitern. Jede ist ein Deal-Breaker für regulierte Käufer.

Audio-Aufzeichnungen werden gespeichert — auch kurz, auch „nur für QA". Stimme = biometrisch, Aufzeichnung = Verarbeitung besonderer Kategorien, AVV allein deckt das nicht ab.
Speech-to-Text-Endpunkt außerhalb der EU (Deepgram US, OpenAI Whisper US) — Drittlandtransfer ohne SCC + ergänzende Maßnahmen
Text-to-Speech-Endpunkt außerhalb der EU (ElevenLabs default ist Multi-Region; muss explizit auf EU gepinnt werden)
Kein KI-Hinweis („Hallo, ich bin Maria") — Artikel-50-Verstoß ab August 2026
KI-Hinweis nur bei Sitzungsbeginn, nicht vor der ersten KI-generierten Antwort
Kein Pfad zur menschlichen Übergabe — Art. 14 AI Act für Hochrisiko-Anwendungen verlangt es; für allgemeine Anwendung Best Practice
Keine DSFA / Datenschutz-Folgenabschätzung speziell für Voice-Verarbeitung
Keine AVV (Auftragsverarbeitungsvertrag) mit Arztpraxis / Hotel / Restaurant — strikte Haftung nach Art. 28

Wie die Durchsetzung tatsächlich aussieht

Drei Risikovektoren. Erstens: BfDI / LfDI-Untersuchung — Bußgelder bis 20 Mio. € oder 4 % Umsatz (DSGVO) plus bis 15 Mio. € oder 3 % Umsatz (AI Act). Beide kumulativ. Zweitens: Patientenbeschwerden im medizinischen Kontext. Datenschutz-Aufsichtsbehörden in NRW und Bayern haben 2025 begonnen, KI im Gesundheitswesen zu prüfen; die DSK-Guidance gibt ihnen eine klare Vorlage. Drittens: Eigene Haftungsrisiken des Praxisbetreibers — wenn Ihr Voice-Agent Patientendaten leakt, ist die Praxis Verantwortlicher und wird Sie für den Verstoß in Anspruch nehmen. Unsere Verträge enthalten LSM-seitige Freistellung für Compliance-Defekte, die wir liefern; ohne dieses Vertrauen gehen wir nicht live.

Wie wir ein Voice-Agent-Projekt führen

01
Discovery-Sprint (2 Wochen, 4.900 €): Use-Case-Definition, Regulierungsklasse, Konversationsfluss-Design, Integrations-Map. Ergebnis: unterzeichneter Scope + DSFA-Vorlage.
02
Architektur: EU-Hosting (Twilio EU + Deepgram EU + ElevenLabs EU + OpenAI/Anthropic über europäische Endpunkte), No-Recording-Pipeline, nur strukturierte Erfassung mit Feld-Level-Schwärzung.
03
Build (4–6 Wochen für MVP): Konversationslogik, Artikel-50-Hinweis-Skripte, Audit-Logging, AVV-Vorlagen für Kunden-Unterschrift, Pfad zur menschlichen Übergabe.
04
Compliance-Verifikation: Drittprüfung DSGVO + AI Act. Ergebnis: unterzeichnetes Bereitschafts-Pack.
05
Pilot-Deployment: 1–2 Wochen Schattenbetrieb neben bestehender Reception. KPIs: Erfassungsrate, Eskalationsrate, Beschwerdeanzahl.
06
Go-Live + Retainer: Voll-Deployment mit Operator-Tier-Monitoring (2.999 €/Monat) inklusive Compliance-Updates, Quartalsreviews und Konversationsfluss-Tuning.

Quellen

Voice-Agents — häufig gestellte Fragen

Kann ich Doctolib oder Cognigy oder fonio.ai nutzen?+

Manchmal — für nicht-medizinische, nicht-sensible Anwendungsfälle. Speziell für Arztpraxen erfüllt aktuell keiner der Standard-Anbieter alle DSK-Bedingungen out-of-the-box (No-Recording, EU-only, nur strukturiert, unterzeichnete AVV mit der Praxis). In 12 Monaten vielleicht. Wenn Sie es jetzt brauchen, ist Custom der Weg.

Warum ist Stimme biometrisch? Es ist doch nur ein Telefonat.+

Art. 9(1) DSGVO + Erwägungsgrund 51 + EDPB-Leitlinien 4/2018: Stimmabdrücke sind „biometrische Daten", wenn sie zur eindeutigen Identifizierung einer natürlichen Person verwendet werden oder werden können. Jedes Sprachsignal, das aufgezeichnet oder zur Sprecher-Identifizierung analysiert wird, löst Art. 9 aus. Selbst transiente Verarbeitung für Speech-to-Text ohne Aufzeichnung ist umstritten — wir behandeln es im Zweifel als Art. 9 mit ausdrücklicher Einwilligung + medizinischer Notwendigkeit als Rechtsgrundlage.

Muss ich Anrufe für QA aufzeichnen?+

Nein. Strukturierte Erfassung ersetzt das. Jedes vom Agent erfasste Feld wird als Text protokolliert (Name, Termin-Typ, Dringlichkeit, Rückrufnummer); Stimme wird im Flug verarbeitet und verworfen. QA-Review erfolgt über die strukturierten Logs, nicht das Audio.

Was ist mit Notfällen — was, wenn jemand 112 anruft?+

Der Agent erkennt Notfall-Schlüsselwörter und bietet sofort Übergabe an einen Menschen oder Wahl der 112 an. Wir testen dies explizit beim Build. Artikel 14 AI Act verlangt einen menschlichen Aufsichtspfad; wir bauen ihn standardmäßig für jeden Agent in medizinischen oder sicherheitsbezogenen Kontexten ein.

Wie lange dauert es?+

2-Wochen-Discovery, 4–6 Wochen Build für MVP, 1–2 Wochen Pilot. End-to-End ~9–11 Wochen für Single-Language-Deployment. Multi-Language addiert 3–4 Wochen pro zusätzlicher Sprache.

Was kostet es?+

Discovery-Sprint: 4.900 € Festpreis. MVP (eine Sprache, volle Compliance): 18.000–28.000 € abhängig vom Integrationsumfang. Multi-Language-Enterprise: bis 75.000 €. Operator-Retainer danach 2.999 €/Monat. Genaues Angebot auf Anfrage.

Get in touch →

← Back to compliance overview