Als "Datenquelle für Marketing, Forschung und Planung" präsentiert mobilkom Austria ihren Dienst A1 Traffic Data Stream. Versprochen werden die Bewegungsdaten von 4,7 Millionen Kunden. Einige Bewegungsdaten, so verspricht die Präsentation, sind zusätzlich durch GPS-Position präzisiert. Selbstverständlich werden sämtliche Daten vollständig anonymisiert - doch wie einfach eine Deanonymisierung möglich ist, habe ich bereits in meiner Promotion festgestellt.
Vollends entsetzt mich das 2. Update bei netzpolitik.org - hier heißt es:
Da wir die Anonymisierungsschlüssel regelmässig austauschen, lassen sich auch keine Langzeitbeobachtungen durchführen.
Daraus vermute ich, daß die einzelnen Samples dieselbe (pseudonymisierte) ID tragen - so lange, bis der Anonymisierungsschlüssel geändert wird. So etwas als "Anonymität" zu bezeichnen ist vollkommen absurd; der letzte Notanker, um nicht sofort auf einen Namen zurückgeführt zu werden, ist die Meßgenauigkeit der Position. Hierüber schweigt sich die Pressemitteilung aus - die Information wird jedoch mindestens aus der GSM-Zelle bestehen, und die Schaubilder der Pressemappe suggerieren noch höhere Genauigkeit.
Hier ein paar einfache Ideen, wie Bewegungsspuren einem realen Name zugeordnet werden können:
- Handy ruht über Nacht an einer Geoposition, die einem Haus zuzuordnen ist? Über die Adresse läßt sich mindestens der Familienname herausfinden (wie bereits hier skizziert)
- Wer mit EC-Karte oder Kreditkarte zahlt oder eine Kundenkarte (Payback & Co.), hinterläßt seinen Name; die Geoposition der Kasse ist bekannt, so kann der Bezahlvorgang u.U. einem Meßsample zugeordnet werden
- Punktgleiche Bewegungen entlang von Straßen lassen ein gemeinsames Fahrzeug vermuten. Der Trennpunkt läßt auf die Art der Beziehung (Schule? Kind wurde von Eltern gebracht, etc.) schließen
Und selbst wenn keine exakte Zuordnung möglich ist - es schränkt die Zahl der Kandidaten deutlich ein, und durch Kombination mehrerer solcher Bedingungen ist eine eindeutige Identifizierung erreichbar.
Der Wechsel des Anonymisierungsschlüssels ist ebenfalls ein höchst schwacher Schutz: Der Tagesablauf vieler Leute weist hohe Regelmäßigkeiten auf (zur ähnlicher Zeit auf dem selben Weg gen Arbeit, etc.). Indem man mehrere Tage überlagert, kann man sehr einfach ähnliche Muster erkennen und so verschiedene Pseudonyme zusammenführen.
Im übrigen bieten selbst vollständig anonyme Meßwerte (ohne irgendwelche Identifier) nur einen bedingten Schutz: Je nach Genauigkeit der Messung und Frequenz der Meßwerte lassen sich auch solche Informationen zu Bewegungsspuren rekonstruieren; wer's ganz genau wissen will, kann die Algorithmen hierzu in meiner Ausarbeitung ab Seite 42 nachschlagen oder die Papers von Stajano und Beresford über Mix Zones durchlesen.
Ich hatte im Zuge meiner Arbeit bei verschiedenen Mobilfunkanbietern angefragt, ob es möglich wäre, solche Daten für meine Arbeit zu bekommen... damals vergeblich. Das ganze nun nicht nur auszugsweise, sondern im gesamten Netzgebiet und für alle Kunden herauszugeben (man kann "Daten einzelner Tage oder Monate erwerben bzw. auch unlimitierten Zugang zu den anonymisierten Daten erhalten"), halte ich datenschutztechnisch für einen Skandal. Die Beispiele aus der Präsentation mögen für Marketingleute sicher sehr interessant sein (Einzugsgebiete von Einkaufszentren, Nutzung von Zufahrtswegen, etc.) - einem Datenschützer treiben sie die Gänsehaut auf den Rücken.
(via netzpolitik.org)