čtvrtek 22. listopadu 2012

Anonymizace versus průkaznost agregovaných dat

Některé problémy člověka prostě předem nenapadnou.
“A related question is how aggregated and derived forms of information (e.g. statistics) should be affected when some of the raw data from which statistics are derived are forgotten. Removing forgotten information from all aggregated or derived forms may present a significant technical challenge. On the other hand, not removing such information from aggregated forms is risky, because it may be possible to infer the forgotten raw information by correlating different aggregated forms.”
Tohle je vážná věc. Citovaný článek reaguje na konflikt mezi zákonnými požadavky (v tomto případě EU, ale to není příliš podstatné) na anonymizaci dat na jedné straně a průkazností agregovaných dat na straně druhé.

Finanční úřad o mně ví, kolik vydělávám, protože má moje daňová přiznání. Agregovaná data všech daňových přiznání (ve městě, kraji, státě...) prozrazují průměrný příjem (a spoustu dalších věcí). Ta agregovaná data z mnoha důvodů potřebujeme, ta individuálně by měla být nedostupná. No tak spočítáme průměry a výchozí data pak smažeme, ne? Ne.

Když nevratně znepřístupníte výchozí individuální data, ztrácejí ta agregovaná legitimitu: nedá se dokázat, zda jsou pravá a spolehlivá. Když neznepřístupníte, bude vždy možná reverzní operace vedoucí k individuálních datům.

Tohle ještě bude obrovský problém. Obě možnosti jsou totiž špatné a mezi nimi se nenachází žádné jednoduché řešení — možná dokonce vůbec žádné řešení. Prozatímní zárukou ochrany soukromí je (vlastně jen) nedostatečnost osobních dat co do kvantity, kvality a koncentrace, tedy klasická security by obscurity. To ale rychle přestává platit, data jsou digitální, dostupná, propojená a je jich hodně.

Jestli s tímhle háčkem někdo dokáže pohnout, budou to muset být matematici, ne zákonodárci.

David Meyer, GigaOM: Why big data could sink Europe's "right to be forgotten"

Žádné komentáře:

Okomentovat