čtvrtek 31. ledna 2013

Válka, jaká je doopravdy — na digitálním videu

Prý je to nejsledovanější video z války v Afghánistánu. Vojín první třídy Ted Daniels spustil kameru a vyrazil do útoku. Zpočátku to vypadá úplně stejně jako kterákoli střílečka hraná z pohledu první osoby, od Doomu po Call of Duty. Voják postupuje, bojiště sledujeme přes hlaveň jeho zbraně.



Pak se ale situace mění. Daniels se dostane do nepřátelské palby, je zasažen, na chvíli ztratí pušku, snaží se krýt a volá o pomoc. Hra se změnila v drsnou realitu, ovšem se šťastným koncem, Daniels se poměrně rychle vyléčil ze svých zranění, odeslán zpět do USA a demobilizován.

Celý jeho příběh je fascinující, zůstaňme ale u té nahrávky. Když si Ted Daniels na helmu připevnil kameru GoPro Hero3, neudělal nic zas tak nezvyklého. Videa na památku si prý vojáci dnes pořizují celkem běžně. Americké ozbrojené síly v Afghánistánu to nezakazují plošně, rozhodnutí je na tom kterém veliteli. Z hlediska utajení to vypadá dost šíleně, zřejmě se ale vychází z toho, že obě strany v boji pořizují tolik dat, že je to už jedno.

Vojáci ostatně mívali soukromé fotoaparáty už ve druhé světové válce a velitelé jim to často tolerovali.

Dnešní armáda natáčí minimálně v takovém množství, v jakém střílí. Oficiální videokamery jsou na vozidlech, ve vrtulnících i ve vybavení jednotlivých pěšáků. Záznamy se po akci vyhodnocují a rozebírají.

Kromě videa se v boji pořizuje mnoho dalších dat. Všechny zbraňové systémy mají čidla a zároveň monitorují svůj vlastní stav, poruchy a opotřebení. Všude jsou GPS přijímače a všechno se zobrazuje v reálném čase na mapách. Tahle data ovšem nejsou pro veřejnost.

Amatérské záznamy jsou tak zpravidla to jediné, co z toho všeho uvidíme. Ukazují válku v malém výřezu, bez kontextu, bez nadhledu. Tak, jak bychom ji viděli my sami, kdybychom se do ní připletli.

čtvrtek 24. ledna 2013

Kolik dat je příliš?

Převodu analogového signálu na digitální — třeba u zvukové nahrávky - se říká vzorkování. Čím častěji odeberu vzorek a vyčíslím jeho hodnotu, tím věrněji změřím původní signál. Nebo ne?

Ano, ale jen v ideálním světě, jaký neexistuje. V realitě je každý signál doplněn šumem. Čím častěji vzorkuji, tím více šumu odebírám spolu se signálem. Správně zvolená frekvence vzorkování je ta, kterou by vybrala Popelka: ani moc, ani málo, ale tak akorát.

Odborněji se tomu říká Nyquistův vzorkovací teorém: volbou frekvence vzorkování lze stanovit, které frekvence signálu ještě přečteme a které ne. Ta nejvyšší, která se z analogových dat do digitálních dostane, je poloviční oproti vzorkovací frekvenci. Vysokofrekvenční šum se automaticky odfiltruje.

Když sledujete zprávy třikrát denně, konzumujete vysokofrekvenční šum. Máte pocit, že se svět zbláznil. Když se na ně podíváte jednou za týden, získáte dojem daleko větší stability - nic se vlastně neděje. Prkotiny se totiž mezitím vyřešily samy a zapomnělo se na ně.

Tohle je jedno z velkých rizik spojených s celým fenoménem Big Data. Mít hodně dat neznamená nutně být na tom lépe. Při naivním přístupu k věci je daleko snazší uškodit si všemi těmi údaji, než z nich jakkoli profitovat.


pondělí 21. ledna 2013

Vaše SPZ byla prověřena

Odjížděl jsem dnes z garáže nákupního centra. Zastrčím lístek do čtečky, naskočil tam text: „Vaše SPZ byla nyní prověřena.“ Zvednu oči, skutečně na stropě visí nová kamera a míří směrem k přední masce.

Prověřena? Proti čemu?

Odjezdy vůči příjezdům? To nedává smysl, čas příjezdu je kódován v magnetickém pruhu papírové karty, což k výpočtu parkovného naprosto stačí a používá se to tak léta.

Proti policejní databázi kradených vozidel? Nepravděpodobné. Nebylo by to schůdné organizačně (z příběhu o registru vozidel víme, jak stát umí zacházet s distribuovanými databázemi) a asi ani právně — soukromému subjektu takové údaje do rukou nepatří.

Proti jejich vlastní databázi návštěvníků? Sotva by to sdělovali, vést takovou databázi bez souhlasu evidovaných je protizákonné. Jsem si samozřejmě jist, že ji teď už mají a že do ní každé auto zaznamenávají, ale jestli nejsou blázni, nikdy to nepřiznají, rozhodně ne takhle hloupě.

Tak co se tam vlastně prověřuje? (Pomiňme, že to, co nazývají SPZ, se už dávno správně jmenuje RZ.)

Pořizovat a ukládat lze téměř jakákoli data, technologie na to jsou. Stále častěji musí padat otázka, kdy to má smysl a kdy ne. Kdy je to vysloveně nepřípustné. A kde je šedá zóna, v níž se výhody (mám evidenci, které auto kdy bylo v nákupním centru a i když třeba teď nevím, k čemu je to dobré, časem se něco najde) vyvažují s nevýhodami (zákazníci, obávající se o soukromí, začnou jezdit jinam).

Všeho moc škodí, i dat.

čtvrtek 20. prosince 2012

Smolanova kniha je i na iPadu

Fotograf Rick Smolan, známý svými tematicky zaměřenými obrazovými publikacemi, vydal novou knihu zaměřenou na digitální data, jejich význam v životě dnešní společnosti a jejich všudypřítomnost. Jmenuje se The Human Face of Big Data a je dostupná také v podobě aplikace pro iPad.


Fotky jsou mimořádné, velice sdělné. Zážitek.

čtvrtek 22. listopadu 2012

Anonymizace versus průkaznost agregovaných dat

Některé problémy člověka prostě předem nenapadnou.
“A related question is how aggregated and derived forms of information (e.g. statistics) should be affected when some of the raw data from which statistics are derived are forgotten. Removing forgotten information from all aggregated or derived forms may present a significant technical challenge. On the other hand, not removing such information from aggregated forms is risky, because it may be possible to infer the forgotten raw information by correlating different aggregated forms.”
Tohle je vážná věc. Citovaný článek reaguje na konflikt mezi zákonnými požadavky (v tomto případě EU, ale to není příliš podstatné) na anonymizaci dat na jedné straně a průkazností agregovaných dat na straně druhé.

Finanční úřad o mně ví, kolik vydělávám, protože má moje daňová přiznání. Agregovaná data všech daňových přiznání (ve městě, kraji, státě...) prozrazují průměrný příjem (a spoustu dalších věcí). Ta agregovaná data z mnoha důvodů potřebujeme, ta individuálně by měla být nedostupná. No tak spočítáme průměry a výchozí data pak smažeme, ne? Ne.

Když nevratně znepřístupníte výchozí individuální data, ztrácejí ta agregovaná legitimitu: nedá se dokázat, zda jsou pravá a spolehlivá. Když neznepřístupníte, bude vždy možná reverzní operace vedoucí k individuálních datům.

Tohle ještě bude obrovský problém. Obě možnosti jsou totiž špatné a mezi nimi se nenachází žádné jednoduché řešení — možná dokonce vůbec žádné řešení. Prozatímní zárukou ochrany soukromí je (vlastně jen) nedostatečnost osobních dat co do kvantity, kvality a koncentrace, tedy klasická security by obscurity. To ale rychle přestává platit, data jsou digitální, dostupná, propojená a je jich hodně.

Jestli s tímhle háčkem někdo dokáže pohnout, budou to muset být matematici, ne zákonodárci.

David Meyer, GigaOM: Why big data could sink Europe's "right to be forgotten"

úterý 13. listopadu 2012

Co nám zůstane, co poztrácíme

Archivy jsou důležitější, než byly kdy dříve, protože všechny údaje, s nimiž naše civilizace pracuje, jsou vlastně pro krátkodobé použití. Jejich životnost je limitována použitými technologiemi, nosiči, přehrávači.

Hudbu jsme mívali na černých deskách, pak na CD, donedávna v MP3 a dnes ji nemáme vůbec nikde, protože přišel streaming. Hudba je kdesi v cloudu. Video jde stejnou cestou. Dokumenty, maily, tabulky; budou ty dnešní k dispozici za deset let? Za dvacet? Kde budou uloženy v jakém formátu, bude k mání software, v němž by šly otevřít? Když vám přinesu osmipalcovou disketu, na níž je soubor s tabulkou ve formátu Lotus 1-2-3 — víte o někom, kdo si bude vědět rady a převede vám to do Excelu?

Aby směl Národní filmový archiv mít svůj mezinárodní statut, musí uchovávat kopie filmů na celuloidu, ne v digitální podobě; ta se nepokládá pro dlouhodobou archivaci za spolehlivou. Je to samozřejmě pracné, zdlouhavé, drahé (filmy se často digitalizují, restaurují na počítači a pak přepisují zpět na filmový pás — a to v době, kdy se v kinech už častěji promítá z disku než z promítačky), ale je to správné a nutné, máme-li mít jistotu dlouhodobého uchování.

Totéž ostatně platí o papírové dokumentaci.  České pozemkové knihy, Desky zemské, sahají zpět až do třináctého století. V roce 1541 ovšem téměř beze zbytku shořely a musely se komplikovaně rekonstruovat. I to je bezmála pět set let. Umíme si představit technologie práce s informací, jaké se budou používat roku 2600? To je naprosto absurdní otázka.

Přepisujeme tedy z jednoho média na druhé a pořád něco ztrácíme, něco zapomeneme, něco pomineme, protože to už není důležité. Informace mizí s měnícími se technologiemi. To je změna oproti dlouhému údobí dějin, kdy se psalo na papír či pergamen. (Ale i ten občas shořel.)

Je tu ale ještě jeden pohled na věc. Skutečně stojí za uchování vše? Každá fotka z dovolené, každá poznámka na Facebooku, každé interní memorandum? S novými technologiemi se zmnohonásobila i naše schopnost produkce informací. Tradiční názor, že archivovat pro budoucnost se má pokud možno vše, je neudržitelný.

Paměť civilizace se vždycky částečně uchovávala a částečně vytrácela. Něco shořelo, něco se ztratilo. Nové je to, že teď sami musíme volit, co zachovat a co ne s plným vědomím důsledků.

středa 7. listopadu 2012

US volby v datech

Prezidentské volby jsou pro média dobrou příležitostí, jak se předvést, co dovedou na poli práce s daty. Takhle například pracuje s infografikou britský Guardian:


V detailu to pak může vypadat takhle:



A takhle The New York Times:


Důležité je, že mapou celých USA to teprve začíná, stačí kliknout a dostanete rozpad dat pro nižší administrativní jednotky:


Data jsou samozřejmě živá, okamžitě se doplňují, jak přicházejí sečtené hlasy. Před deseti lety nemožné, dnes standard, přinejmenším v Americe.