Palantir – das Betriebssystem des Überwachungsstaats

Werkzeuge wie Palantir ermöglichen eine bislang beispiellose Integration und Auswertung riesiger, heterogener Datenmengen in Echtzeit.

Spätestens seit den Enthüllungen von Edward Snowden im Jahr 2013 ist bekannt, welches Ausmaß staatliche Datensammlungen annehmen können. Damals sprach man vom „permanent record“ – der dauerhaften Speicherung von Informationen über Menschen bei den US-amerikanischen Sicherheitsbehörden.

Was damals noch wie eine dystopische Vision wirkte, ist heute technische Realität: Dank flächendeckender Vernetzung, enormer Speicher- und Rechenleistung ist aus dem permanenten Datensatz ein permanenter Datenstrom geworden, der

„permanent data stream“

Massenüberwachung findet automatisiert und in Echtzeit statt.

Der Beitrag beleuchtet zunächst die Systematik von Datenintegration und Echtzeitverarbeitung und zeigt, wie solche Systeme zur Entscheidungsunterstützung eingesetzt werden. Anschließend werden rechtliche, ethische und demokratietheoretische Fragen diskutiert. Angesprcohen werden grundlegende Probleme automatisierter Entscheidungssysteme wie Automation Bias, algorithmische Diskriminierung und Chilling Effects.

Wissen über Menschen wird dabei zur Ressource staatlicher Macht – mit tiefgreifenden Folgen für Transparenz, individuelle Freiheit und Selbstbestimmung.

Zwar kann anlasslose Massenüberwachung punktuell zur Erhöhung der Sicherheit beitragen, da sie das staatliche Gewaltmonopol stärkt. Die damit verbundene gesellschaftliche Transformation ist jedoch mit Menschenrechten und demokratischen Grundprinzipien unvereinbar.

In einem Überwachungsstaat sind Meinungsfreiheit, Pressefreiheit und demokratische Teilhabe nicht möglich.

Einsatz von Palantir

Noch ist Deutschland kein Überwachungsstaat – aber der Anfang ist getan.

Die US-amerikanische Software Palantir Gotham wird bereits von Polizeibehörden in Hessen, Bayern und Nordrhein-Westfalen zur automatischen Datenanalyse und Entscheidungsunterstützung eingesetzt. Aktuell geschieht dies mit eingeschränkter Funktionalität, ohne Cloud- oder umfassende KI-Komponenten. So werden etwa Social-Media-Profile bislang nur verlinkt und nicht automatisch ausgewertet.

In Baden-Württemberg und bei weiteren Landespolizeien steht die Einführung von Palantir an. Der Bundesinnenminister plant sie für die Bundespolizei und das BKA. Einige Bundesländer haben sich zwar klar gegen Palantir positioniert, z.B. Schleswig-Holstein und Sachsen. Aber das ist gegen den Trend, auch in Berlin lässt sich aus dem neuen Polizeigesetz herauslesen, dass an Palantir gedacht wird.

In den USA kommt Palantir hingegen seit Jahren bei US-Behörden zum Einsatz. Die Firma wurde zur Informationsbeschaffung und -aufbereitung im Rahmen der Terrorbekämpfung nach den Angriffen auf das World-Trade-Center gegründet. Maßgebliche Unterstützung und Aufträge erhielt und erhält sie durch die CIA und andere US-Behörden.

Palantir ist in der USA fest im operativen Einsatz verankert: Gotham dient als Grundlage für taktische Entscheidungen von Geheimdiensten, Militär und Polizei. Die Software wird vom ICE zur Überwachung von Migrant*innent als „Betriebssystem für Abschiebungen“ genutzt.

Palantirs Produkt Appollo wird in der Industrie zur Steuerung von Logistik- und Fertigungsprozessen eingestetz; in Europa setzt Airbus es beispielsweise ein.

In Israel ist Palantir integrativer Bestandteil des miltitärischen Systems zur Festlegung von Angriffzielen zur Bombardierung in Gaza.

Datenintegration in Echtzeit

Im Folgenden wird die der Datenintegration zugrunde liegende Systematik erläutert. Der Name Palantir wird nur verwendet, wenn es um produktspezifische Eigenschaften geht.

Grundsätzlich lässt sich die beschriebene Logik auch auf andere Datenintegrationsprojekte übertragen, etwa auf das Projekt Program P20, das auf die Harmonisierung der polizeilichen IT-Architektur abzielt.

Die Software bzw. das System führt behördliche Datenbanken, Akten und Dokumente auf Personenebene zusammen und verknüpft sie mit weiteren Datenquellen, etwa aus sozialen Netzwerken.

Polizeilich oder geheimdienstlich erhobene Telekommunikationsdaten –SMS, E-Mails, Zahlungsdaten oder abgehörte und transkribierte Gespräche– lassen sich weitgehend automatisiert integrieren.

Ausgelesene Endgeräte, Server und Cloud-Speicher liefern private Kontaktnetzwerke, Fotos, Dokumente, Browserverläufe und Chatprotokolle. Hinzu kommen in Echtzeit erfasste Sensor- und Standortdaten aus Mobilgeräten sowie Bilder aus Überwachungskameras, aus denen biometrische Merkmale gewonnen werden können.

Der „permanent record“ wird zum
permanent data stream

Vom Datensatz zum digitalen Zwilling

Durch die umfassende Datenzusammenführung entstehen detaillierte dynamische Abbilder von Menschen. Es handelt sich nicht nur um Profiling, sondern um ständig aktualisierte digitale Repräsentationen, einen „digital twin“.

Grundsätzlich gilt:

Jedes Datum kann integriert werden.

Jedes Datum kann Personen oder Objekten zugeordnet werden.

Die Software verarbeitet kontinuierlich neue Datenströme, ordnet sie bestehenden Datensätzen zu und ergänzt diese automatisch um neue Daten.

Wofür früher tagelange Recherche nötig war, können umfassende Informationen in übersichtlicher Form mit wenigen Klicks abgerufen werden. Lagebilder werden live generiert und mit interaktiven Karten visualisiert.

Ermittler:innen nutzen das System als Entscheidungsgrundlage und können auf Detailinformationen über eine intuitive Nutzeroberfläche zugreifen, z.B. auf alle Kontakte, Gespräche und Bewegungsmuster einer Telefonnummer. Die Software liefert auch konkrete Handlungsvorschläge.

Datenintegration und Data Warehousing

Ein Data Warehouse bietet eine strukturierte Sicht auf integrierte Daten – sie werden als aufbereitete Kopien in ein zentrales System eingespeist und dieses regelmäßig aktualisiert.

Im Data Warehouse werden alle Informationen strukturiert gespeichert. Die System-internen IDs der Quellesysteme werden für spätere Aktualisierungen mitgeführt, bspw. Objekt-IDs von Datenbank-Datensätzen. Für die Suche und LookUps werden effiziente Indexstrukturen genutzt, Treffer werden in Sekundenbruchteilen gefunden.

Die Datenbanktechnologie bewährt sich seit Jahrzehnten in der Industrie zur Aufbereitung von Unternehmensdaten, um Excel-ähnliche Auswertungen zu ermöglichen:

  • Aggregation von Bilanzen und Verkaufszahlen: Nach Branche, Region, Zeitraum bis hin zu Verkäufer:in und Kund:in
  • Data Mining und Identifikation von Ausreißern: Analyse-Tools können nach Unregelmäßigkeiten in den Daten suchen, Umsatzzahlen und Rentabilität einzelner Standorte und Verkäufer:innen durchleuchtet werden
  • Auswertung: Manager können jeden einzelnen Verkauf und jedes Produkt selektieren (sog. Drill-Down)

Mittlerweile sind Data Warehouses das gängige Hilfsmittel zur Aggregation und Berichtserstellung sowohl in Unternehmen als auch öffentlichen Einrichtungen. Bspw. nutzt die TU Berlin im Enterprise Ressource Managemend (ERM) ein Data Warehouse, u.a. um die Ausgabenplanung der Bereiche zu unterstützen.

Die Datenaufbereitung erfolgt im Data Warehouse mittels „Extraction-Transformation-Loading (ETL)“:

  • Extraction: Daten aus entfernten Quellsystemen exportieren, übertragen und lokal zwischenspeichern
  • Transformation (Preprocessing): Rechenintensive Prozesse, u.a.
    • Umwandlung in standardisierte Datenformate
    • Aufspaltung in einzelne Datensätze
    • Verknüpfung/Matching von Datensätzen
    • Versehen der Datensätze mit Zeitstempeln
    • Transkription von Audio
    • Automatische Übersetzung von Texten
    • Generierung von Inhaltszusammenfassungen
    • Personenextraktion aus Videos mit biometrischen Merkmalen
    • Kontextualisierung der Daten mittels Ontologien (s.u.)
  • Loading: Import der aufbereiteten Daten ins Zielsystem, die über Lookup-Tabellen mit den vorhandenen Daten verknüpft werden

Der Datentransfer von Terabytes ist aufwändig und die Verarbeitung zur Transformation der Daten rechenintensiv. Data Warehouses werden deshalb klassischerweise asynchron in festen Zyklen aktualisiert, bspw.  täglich.

Das ist hier anders:
In der Software läuft der ETL-Prozess in Echtzeit, es werden  kontinuierliche Datenströme verarbeitet und die aufbereiteten Daten werden synchron ins Zielsystem eingespeist.

Bei Palantir wird der ETL-Prozess über sogenannte Datenpipelines realisiert.

Identifizierung und Verknüpfung

Wesentlicher Inhalt der Datenintegration ist die Verknüpfung der verschiedenen Datenbestände auf Datensatzebene.

Die Zuordnung erfolgt über eine Vielzahl identifizierender Merkmale (je nach Kontext als Identifikatoren, IDs oder Selektoren bezeichnet).

Für Personen sind dies unter anderem E-Mail-Adressen, Telefonnummern, Namen, Geburtsdaten, Bankverbindungen, behördliche Kennziffern wie  Steuer-ID, Ausweis- und Versicherungsnummern sowie biometrische Merkmale wie Fingerabdrücke, Iris, Gesicht, Stimme oder Gang.

Für Objekte kommen technische Kennungen, IP-Adressen, Geräte-IDs, SIM-Karten, Kfz-Kennzeichen oder Gebäude-Standortdaten hinzu.

Aktenzeichen und Vorgangsnummern sind für die Referenzierung in der Verwaltung relevant.

Anhand dieser Identifikatoren werden Beziehungsnetzwerke offengelegt, z.B.:

  • wer kommuniziert mit wem,
  • wer hält sich wann wo auf,
  • wer war Zeuge oder Betroffene:r in einem Fall,
  • welche Geräte oder Fahrzeuge werden von wem genutzt.

Die Verknüpfungen von einzelnen Datensätzen basiert darauf, z.B.

  • Daten über Personen aus verschiedenen Quellen werden den jeweiligen Personen-Datensätzen im Data Warehouse hinzugefügt bzw. referenziert
  • Daten über Objekte und Personen können in Zusammenhang gebracht werden, beispielsweise ist eine SIM-Karte einem Mobiltelefon und dieses in der Regel einer Person zugeordnet.
  • Personen die miteinander per E-Mail oder Messenger kommuniziert haben können verknüpft werden.
  • Objekte können in Zusammenhang gebracht werden, z.B. ein Fahrzeug, welches nachts immer in der Nähe einer Wohnadresse parkt.

Sofern Zuordnungen nur für gewisse Zeiträume gelten, z.B. bei der Anmietung eines Mietwagens, wird der Gültigkeitszeitraum erfasst.

Wie zuverlässig sind diese Verknüpfungen?

In manchen Fällen ist nicht sicher belegbar, dass ermitteltete identifizierende Merkmale sich wirklich auf dieselbe Person beziehen, beispielsweise bei Namen und Adressen.

Denn in der Realität sind Daten aufgrund verschiedenster Ursachen fehlerbehaftet:

  • Datensätze können unvollständig oder fehlerhaft erfasst sein (z.B. variierende Namensschreibweisen, Nummerndreher bei Ausweisnummern und Geburtsdaten sowie Tippfehler),
  • Inhalte können veraltet oder ungültig sein und
  • Verknüpfungen können vertauscht sein (z.B. Zeugenaussagen falsch zugeordnet, Bilder falsch verlinkt).

In anderen Fällen fehlen identifizierende Merkmale in den Daten generell oder sie können nicht sicher abgeleitet werden, z.B. bei unscharfen Kameraaufnahmen.

Wenn eindeutige Identifikatoren fehlen, werden statistische Verfahren oder maschinelles Lernen eingesetzt oder in Ausnahmefällen manuell zugeordnet:

Datensätze werden „gematcht“.

Diese Verfahren können nie zuverlässig „identifizieren“, so dass in Einzelfällen Datensätze die zusammengehören, nicht gematcht werden und andere dafür fälschlicherweise zueinander zugeordnet werden.

Matchings können falsch sein – mit fatalen Konsequenzen für Betroffene. Entscheidungen auf Basis fehlerhafter Daten sind nicht neutral, sondern häufig diskriminierend (bspw. gab es Einreiseverbote bei Namensdopplung oder ähnlichem Äußeren von Personen).

Bedeutung, Kontext und Entscheidungsvorschläge

Aber es geht nicht nur um Personen, sondern um die vollständige Auswertung der verfügbaren Daten. Die inhaltliche Erschließung ist fundamental, um Kontextbezüge herstellen zu können: in Bildern abgebildete Dinge, in Gesprächen und Texten Beschriebenes, Geräte, technische Daten, etc.

Zur semantischen Annotation der Daten werden Ontologien bzw. Taxonomien herangezogen. Diese definieren formal, was genau einzelne Daten(felder) beschreiben und ergänzen dieses „Weltwissen“ mittels Annotation. Bspw. bei einer Datenbank mit Zeugenaussagen wird strukturiert und klassifiziert: Die Aussage selbst, wer Zeuge und wer beteiligte Person war und für welchen Vorgang / Fall sie wann und von wem erfasst wurde.

Je Datenquelle wird mit Filterregeln konkret spezifiziert, welche Bedeutung die jeweiligen Daten besitzen, bspw.

  • Strukturierte Daten werden auf Schemaebene beschrieben: Geht es in diesem Datensatz um eine Person, ein Objekt oder einen Vorgang? Welche Felder enthalten Identifikatoren, und sind diese in anderen Tabellen ebenso enthalten? Welche sematische Bedeutung haben einzelne Datenfelder?
  • In Kameraaufnahmen werden Personen markiert und aus ihnen biometrische Merkmale extrahiert und in den Daten ergänzt.
  • Bei Kommunikationsdaten: Beteiligte Personen (z.B. identifiziert über die Telefonnummern oder E-Mail-Adressen), Zeitpunkt, Standorte, weitere Metadaten, Medium, transskribierter Inhalt

Bei Palantir managed das Tool Foundry die Annoatation der Daten mit der semantischen Informationen aus einer Ontologie.

Datenschutz, Recht und Macht

Die massenhafte Datenintegration untergräbt zentrale Datenschutzprinzipien wie Zweckbindung und Datensparsamkeit.

Zweckbindung

Daten, die für einen bestimmten Zweck erhoben wurden, lassen sich mühelos für andere Zwecke nutzen. Zeug*innen oder Opfer geraten so in neue Verdachtszusammenhänge.

Das Bundesverfassungsgericht hat in seiner Entscheidung 2023 klargestellt, dass die Eingriffstiefe in die Grundrechte der Bürger:innen maßgeblich dafür ist, welche Zweckänderungen als zulässig zu betrachten sind.

Profiling

Die Zusammenführung verschiedenster Datenquellen auf Personenebene ist ein klarer Fall von Profiling. Nach Art.22 DSGVO ist Profiling grundsätzlich verboten, jedoch ist die DSGVO nicht anwendbar: Es gilt die EU-Richtlinie 2016/680

Bislang ist noch nicht abschließend geklärt, welche Konsequenzen die KI-Verordnung für die Umsetzung der automatischen Datenanalyse bei der Polizei hat. Die

Die Ampelregierung hatte eine wissenschaftliche Studie zur Überwachungsgesamtrechnung beauftragt, deren Ergebnisse sollten in nationale (Polizei-)Gesetzen angemessen berücksichtigt werden, um die Freiheit der

Datensparsamkeit

„Privacy by Design“ kann bei der Software nicht erwartet werden, zumindest für Geheimdienste:

„Since you can’t connect dots you don’t have, it drives us into a mode of, we fundamentally try to collect everything and hang on to it forever“

„It is really very nearly within our grasp to be able to compute on all human generated information.“

Ira „Gus“ Hunt, Chief Technical Officer (CTO) of CIA, 2013 at a Conference in New York, Business Insider -CIA Chief Tech Officer: Big Data Is The Future And We Own It (2013)

Unterschiedliche Datenschutzstandards

Offensichtlich wird das informationelle Selbstbestimmungsrecht beschnitten – in der Abwägung zwischen Persönlichkeitsrechten und Sicherheit werden auch in Deutschland wiederholt die gesetzlichen Regelungen zu Privatsphäre und Datenschutz geschwächt, zuletzt mit den Sicherheitsgesetzen, siehe dazu die Überwachungsgesamtrechnung. Aktuell sind Vorratsdatenspeicherung, Chatkontrolle und biometrische Überwachung öffentlicher Räume in der Diskussion.

Für Strafverfolgung und öffentliche Sicherheit gelten in Europa abgeschwächte Datenschutzstandards, etwa durch die EU-Richtlinie 2016/680. Bspw. kann nach Art. 22 DSGVO grundsätzlich verbotene Profiling entsprechend Art. 11 EU-RL 2016/680 zulässig sein –  Rechtsgrundlagen können auf Landesebene mit den Polizeigesetzen geschaffen werden.

Hinzu kommen geopolitische Risiken:

US-amerikanische Anbieter unterliegen Gesetzen wie dem Cloud Act, der Zugriffe durch US-Behörden ermöglicht. Das ist nicht mit europäischem Recht vereinbar: Es besteht ein Richtervorbehalt – das Abhören von Telefonaten und Videokonferenzen, Zugriff auf Webserver und der Zugriff auf private Geräte (bspw. durch Staatstrojaner) sind gesetzlich beschränkt.

Ethische Risiken

These:

Automatisierte Entscheidungs- und Analysesysteme verstärken bestehende gesellschaftliche Probleme, anstatt sie zu lösen.

Ein zentrales Risiko ist der sogenannte Automation Bias: Menschen neigen dazu, den Empfehlungen von Software und Algorithmen mehr zu vertrauen als dem eigenen Urteil. Maschinell erzeugte Einschätzungen werden oft nicht mehr kritisch hinterfragt, selbst wenn sie offensichtlich auf fehlerhaften oder unvollständigen Daten beruhen. Verantwortung verschiebt sich so schleichend von Menschen zu technischen Systemen.

Hinzu kommt die Gefahr algorithmischer Diskriminierung. Da solche Systeme mit historischen Daten arbeiten, reproduzieren sie bestehende Vorurteile und Ungleichheiten – etwa gegenüber bestimmten Bevölkerungsgruppen, Stadtteilen oder sozialen Milieus. Diese Verzerrungen erscheinen objektiv, sind aber Ergebnis politischer, sozialer und technischer Entscheidungen.

Algorithmische Diskriminierung kommt beim „predictive policing“ in der Polizeiarbeit zum Tragen: Palantir wirbt sogar damit, kriminelle Aktivitäten vorhersagen zu können – betroffen sind davon in den USA in der Regel nicht-weiße Bürger:innen.

Die allgegenwärtige Datenerfassung führt zudem zu sogenannten Chilling Effects: Menschen ziehen sich aus öffentlichem Raum, politischem Engagement oder vertraulicher Kommunikation zurück, weil sie sich beobachtet fühlen und zu Recht befürchten, dass ihre Aktivitäten Konsequenzen für ihrem weiteren Lebensweg haben könnten.

Die Komplexität von Software ist immens, Fehler werden billigend in Kauf genommen. Fehlerbehafte Software führt zu unkalkulierbaren Risiken für Betroffene, da Fehlfunktionen häufig von den Anwendern nicht erkannt werden. Automatisch ermittelte Zuordnungen oder falsche Verdachtsmomente lassen sich kaum korrigieren, da die Systeme intransparent bleiben und proprietäre Software sich zudem einer unabhängigen Kontrolle entzieht.

Fake- oder inkorrekte Daten sind ein weiteres Risiko – hohe Datenqualität kann kaum sichergestellt werden, da Daten aus verschiedensten Quellen zusammengeführt werden.

Intransparenz – Für Betroffene ist es praktisch unmöglich nachzuvollziehen, welche Daten über sie verarbeitet werden, wie Entscheidungen zustande kommen und wie sie sich dagegen wehren können.

Massive Datenintegration und automatisierte Datenanalyse-Tools sind in der Polizeiarbeit nicht nur technische Werkzeuge, sondern greifen tief in die Grundrechte der Bürger:innen ein, das informationelle Selbstbestimmungsrecht ist gefährdet.

Die Eingriffstiefe in die Grundrechte ist enorm.

Fazit

Eine Gesellschaft, die auf permanente Überwachung setzt, verliert Freiheit, Vertrauen und demokratische Werte.

Sicherheit ist ein legitimes Ziel – aber sie darf nicht durch Systeme erkauft werden, die grundlegende Rechte aushöhlen.

Gerade in Deutschland mahnt die Geschichte zur Vorsicht.

Digitale Werkzeuge müssen den Menschen dienen – nicht umgekehrt!

Weitere Informationen

Wissenschaft & Medien

Netzpolitik.org

Rechtliches

Gesellschaft für Freiheitsrechte (GFF)

Datenschutz-blog

Pro-Palantir Statements

Nachtrag vom 19. und 20. Januar

Der Artikel wurde von mir überarbeitet, um einzelne Punkte klarer herauszustelle, u.a.

  • Quellen und Links wurden ergänzt und strukturiert.
  • Außerdem ist nun die zugrundeliegende Data Warehouse-Technologie beschrieben.

Angedacht habe ich Vorträge zum Thema, die Ergänzung weiterer Quellen sowie eine englischsprachige Version des Beitrags.

Autor: don't panic

Über das Pseudonym: "Don't panic" ist auf das Cover des legendären elektronischen Reiseführers durch die Galaxis gedruckt, damit ein Anhalter keine Angst verspürt. - The British author Arthur C. Clarke said Douglas Adams' use of "don't panic" was perhaps the best advice that could be given to humanity. cf. Wikipedia

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert