chatGPT und der Datenschutz

ChatGPT ist in aller Munde – die generative KI (Künstliche Intelligenz) hat mittlerweile einen Reifegrad erreicht, die Nutzung dieses und anderer Chatbots ist in vielen Einsatzgebieten denkbar.

An den Hochschulen wird diskutiert und ausprobiert, welche Szenarien sinnvoll und praktikabel sind.

An der TU Berlin hat sich das Berliner Zentrum für Hochschullehre des Themas angenommen. Gearbeitet wird an Handlungsempfehlungen, die eine Hilfestellung geben, wie eine sinnvolle Nutzung von KIs erfolgen könnte.

Dieser Beitrag widmet sich den Datenschutzaspekten.

Zwei zentrale Empfehlungen vorweg:

* Geben Sie nur wenige persönliche Daten preis, u.a. weder private Accounts und E-Mail-Adressen noch ihr korrektes Geburtsdatum.

* Vertrauliche Informationen sollten nicht über chatGPT geteilt werden.

Neben OpenAI sind auch andere Anbieter am Markt, bspw. Google mit Bard oder Bing Chat von Microsoft. Bei diesen stellen sich analoge Datenschutzfragen. Auf die lokal oder im eigenen Rechenzentrum betreibbaren KI-Systeme gehen wir hier nicht ein – zudem diese ChatGPT-Alternativen laut Medienberichten derzeit noch nicht genug ausgereift sein sollen.

Die Baden-Württembergische Datenschutzaufsichtsbehörde hat OpenAI im April 2023 zu einer Stellungnahme aufgefordert, das Verfahren ist noch nicht abgeschlossen. Derzeit ist eine vollumfängliche DSGVO-Konformität vermutlich nicht gegeben. Die Datenschutzerklärung von OpenAI hat noch Potential, sie enthält nicht alle erfordeliche Angaben entsprechend Art. 12 DSGVO.

Welche personenbezogenen Daten werden verarbeitet?

Ein häufiges Nutzungsszenario ist die Nutzung der ChatGPT-Webseite von OpenAI bzw. deren App, die eine persönliche Registrierung erfordert.

Rechtsgrundlage ist dabei die informierte Einwilligung gemäß Art. 6 Abs. 1 Buchstabe a DSGVO bzw. der Abschluss eines Vertrags (Buchstabe b), damit wird auch die Zustimmung zur Verarbeitung auf US-Servern erteilt.

Bei der Registrierung ist das „Kleingedruckte“ zu bedenken, für eine Verarbeitung personenbezogener Daten mittels chatGPT soll entsprechend den Nutzungsbedingungen „Terms of Use 5c“  das von OpenAI bereitgestellte Data Processing Agreement (DPA), ein Auftragsverarbeitungsvertrag AVV), abgeschlossen werden, was für institutionelle Anwender sinnvoll und notwendig ist, jedoch für persönliche Accounts wenig praktikabel.

Insofern sollten keine personenbezogenen Daten (insbesondere Dritter!) an chatGPT übermittelt werden.

1) Registrierung / Account

Von OpenAI werden für den Account folgende personenbezogenen Daten erhoben:

  • E-Mail-Adresse,
  • Name,
  • Mobiltelefonnummer,
  • Geburtsdatum und
  • Bezahlmethode (bspw. Kreditkartendaten) bei Nutzung kostenpflichtiger Dienste (chatGPT4, chatGPT Plus, …)

Für die dienstliche Nutzung sollten dienstliche Daten hinterlegt werden, bspw. Die TU-E-Mail-Adresse.  Für Studierende ist es ebenfalls sinnvoll, die TU-E-Mail-Adresse anzugeben.

Mobiltelefonnummern werden häufig private sein, da es nur einige dienstliche Mobiltelefone an der TU gibt. Da darüber ein Freischaltcode per SMS gesendet wird, muss es eine funktionierende Nummer sien.

Entsprechend der Beschreibung im Loginprozess wird die Telefonnummer nur für die Verifizierung genutzt, da sie aber dauerhaft gespeichert  wird, kann sie von OpenAI ggf. auch zu einem späteren Zeitpunkt für eine Mehr-Faktor-Authentifizierung (MFA) genutzt werden.

Als Name kann ein Pseudonym hinterlegt werden. Das Geburtsdatum sollte nicht notwendigerweise richtig angegeben werden – das eines Erwachsenen ist vermutlich sinnvoll (13 Jahre ist als Mindestalter angegeben).

Anmeldung mit Microsoft-Konto, Google- oder Apple-Account?

Per Single-Sign-On-Login (SSO) können diese Accounts genutzt werden – diese Option ist aber aus Datenschutzsicht problematisch, da damit eine Verknüpfung personenbezogener Daten über verschiedene Systeme hinweg möglich ist und zudem der Drittanbieter ggf. Zugriff auf das chatGPT-Profil erhält.

Wofür werden die Registrierungsdaten von OpenAI verwendet?

In der Datenschutzerklärung ist die Nutzungsbeschreibung recht kurz und allgemein gehalten, sie werden u.a. zur Diensterbringung und zur Kommunikation mit den Nutzenden verwendet. Erfreulicherweise ist regulär keine Weitergabe an Dritte vorgesehen (abgesehen von notwendigen – Subauftragnehmern oder rechtliche Verpflichtungen).

Erstaunlicherweise scheinen die Registrierungsdaten nicht ohne Weiteres nachträglich korrigierbar zu sein, Profildetails anzuzeigen oder zu bearbeiten ist derzeit nicht in der Benutzeroberfläche vorgesehen, lediglich die Löschung des Accounts.

2) Chatinhalte

Die Chatinhalte werden von OpenAI verarbeitet und gespeichert, Zugriff haben auch Beschäftigte bei OpenAI, sogenannte „AI Trainer“, die das System optimieren. Beim Login wird darauf hingewiesen und ebenso, dass keine vertraulichen Informationen mit dem chatBot geteilt werden sollen.

Da die Daten auf US-Servern verarbeitet werden, ist potentiell ein Zugriff durch US-Sicherheitsbehörden möglich, was mit bedacht werden sollte.

Neben personenbezogenen Daten sollten keine urheberrechtlich geschützten oder andere vertrauliche Informationen im Chat eingegeben werden.

Voreingestellt ist die dauerhafte Speicherung der Chathistorie, die Chatkommunikation wird von OpenAI zum Trainieren des Large Language Models (LLM) genutzt. In welcher Form die Chats dabei übernommen werden, ist nicht offensichtlich, idealerweise sollte das vollständig anonymisiert erfolgen und in der Datenschutzerklärung dargelegt werden.

Die Anzeige der Chathistorie und die Nutzung als Trainingsdaten kann in den Settings deaktiviert werden (Option „Chat history & training“ unter „Data Controls“). Wenn deaktiviert, werden die Inhalte den Nutzenden nicht mehr angezeigt und nach 30 Tagen von OpenAI gelöscht.

Trotz des geringeren Komforts sollte die Chathistorie deaktiviert werden, denn andernfalls wird die Kommunikation langfristig gespeichert und fließt je nach gewählten Einstellungen als Trainingsdaten mit ein. Bereits eingeflossene Inhalte können bislang nicht per Widerruf gelöscht werden – inwieweit OpenAI dieses künftig ermöglichen kann, bleibt offen.

3) Nutzungsdaten

In den Logfiles werden die üblichen Daten protokolliert, u.a. IP-Adressen und Geräteinformationen,vermutlich auch  Accountnamen und  ausgeführte Aktionen. In der Datenschutzerklärung finden sich keine Informationen, wie lange diese Daten aufbewahrt werden.

4) Trainingsdaten – Personenbezogene Daten im  Large Language Model LLM

In den Medien diskutiert wird, ob OpenAI die im Internet verfügbare Daten zum Trainieren des Large Language Model LLM nutzen darf und welche Rechtsgrundlagen hier greifen – neben Datenschutzaspekten sind u.a. Urheberrechtsfragen zu klären. Hierbei zeigen sich unterschiedliche Rechtsauffassungen – insbesondere eine kommerzielle Nutzung der frei verfügbaren Inhalte ist nach dem europäischen Recht nicht ohne Weiteres erlaubt.

Entsprechend der DSGVO gilt das Verbotsprinzip mit Erlaubnisvorbehalt: die Verarbeitung personenbezogener Daten  erfordert eine Rechtsgrundlage, bspw. eine Einwilligung. Ein „berechtigtes Interesse“ wird in vielen Fällen nicht zu begründen sein.

Das grundsätzliche Problem der (Gewinnung von) Trainingsdaten für KI-Systeme wird uns in den nächsten Jahren begleiten, rechtliche Fragen werden mit neuen Gesetzen adressiert (z.B. der KI-Verordnung) und sicherlich in Einzelfällen gerichtlich geklärt.

Einbindung von chatGPT über Schnittstellen (API)

Ohne auf die Details hier näher eingehen zu wollen:

Es besteht die technische Möglichkeit, ChatGPT via Schnittstelle (API) in eigene Softwareprodukte einzubinden.

Dafür ist ein standardisierter Auftragsverarbeitungsvertrag AVV (Data Processing Agreement, DPA) abzuschließen, der von OpenAI bereitgestellt wird, Anpassungen werden nicht akzeptiert. Die Verantwortung über die datenschutzkonforme Verarbeitung der personenbezogenen Daten liegt dann beim Auftraggeber.

Einige Tools und Webseiten haben den chatBot über die API integriert. Dabei wird zumeist ein eingeschränkter Funktionsumfang in Kauf genommen, außerdem erhält der Drittanbieter Zugriff auf die Chatinhalte. Insofern sollten sie nur nach einer (datenschutzrechtlichen) Prüfung aktiviert/genutzt werden. Beispielsweise wurde die ChatGPT-Integration von Zoom an der TU deaktiviert, u.a. da sie mit einer Datenübertragung in die USA verbunden ist.

ChatGPT Enterprise und andere kostenpflichtige Angebote

OpenAI bietet mehrere Produkte an, die auch aus Datenschutzsicht Vorteile bieten, bspw. dass die Chatverläufe verschlüsselt gespeichert werden und (generell) nicht in die Trainingsdaten einfließen.

Nicht nur für Unternehmen, auch im Hochschulkontext kann eine Lizensierung dieser Produkte eine praktikable Lösung sein, eine  datenschutzrechtliche Prüfung ist aber für jeden Einzelfall  nötig.

Alternativ ist eine Lizenzierung und universitätseigene Implementierung mittels der Schnittstelle (API) eine Option, um ChatGPT datenschutzfreundlich in der Lehre einsetzen zu können, eine Registrierung der Anwender*innen bei OpenAI wäre dann obsolet.

Weitere Informationen

 

 

Autor: don't panic

Über das Pseudonym: "Don't panic" ist auf das Cover des legendären elektronischen Reiseführers durch die Galaxis gedruckt, damit ein Anhalter keine Angst verspürt. - The British author Arthur C. Clarke said Douglas Adams' use of "don't panic" was perhaps the best advice that could be given to humanity. cf. Wikipedia

2 Gedanken zu „chatGPT und der Datenschutz“

  1. Hallo,

    danke für den Post!

    Es sei angemerkt, dass aus dem Chatverlauf häufig ein Nutzerprofil generiert bzw. gelernt werden kann, welches openAI und seine Partner (möglicherweise) künftig monetarisieren wollen.

    Dieses Profil kann durchaus Gesundheitsdaten, weltanschauliche Ansichten und andere besondere Kategorien personenbezogener Daten gemäß Artikel 9 DSGVO umfassen, so dass deren Verwendung kritisch zu sehen ist.

    Gut verständlich geschildert von der Firma Datenschutzgruppe Nord in ihren Datenschutz-Notizen:

    * ChatGPT: Risks and challenges from a Data Privacy perspective
    https://www.datenschutz-notizen.de/chatgpt-risks-and-challenges-from-a-data-privacy-perspective-0341134/

    1. Ja, das ist wohl so.

      Die Nutzerprofile sind bei chatGPT als problematisch einzuschätzen, da viele Nutzer im Chat Informationen preisgeben werden, die nicht für Dritte gedacht sind.

      Mit chatGPT im Dialog zu sein fühlt sich eher wie eine Kommunikation mit einem kompetenten Gegenüber an, dem vertraut werden kann als die mit einer Maschine, was leicht vergessen wird …

      Insofern wären sowohl eine für chatGPT unpersonalisierte Lösung via API oder eine Lizenz, bei der der Chatinhalt nicht durch openAI genutzt werden darf und Ende-zu-Ende verschlüsselt ist sehr sinnvoll.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert