čtvrtek 24. ledna 2013

Kolik dat je příliš?

Převodu analogového signálu na digitální — třeba u zvukové nahrávky - se říká vzorkování. Čím častěji odeberu vzorek a vyčíslím jeho hodnotu, tím věrněji změřím původní signál. Nebo ne?

Ano, ale jen v ideálním světě, jaký neexistuje. V realitě je každý signál doplněn šumem. Čím častěji vzorkuji, tím více šumu odebírám spolu se signálem. Správně zvolená frekvence vzorkování je ta, kterou by vybrala Popelka: ani moc, ani málo, ale tak akorát.

Odborněji se tomu říká Nyquistův vzorkovací teorém: volbou frekvence vzorkování lze stanovit, které frekvence signálu ještě přečteme a které ne. Ta nejvyšší, která se z analogových dat do digitálních dostane, je poloviční oproti vzorkovací frekvenci. Vysokofrekvenční šum se automaticky odfiltruje.

Když sledujete zprávy třikrát denně, konzumujete vysokofrekvenční šum. Máte pocit, že se svět zbláznil. Když se na ně podíváte jednou za týden, získáte dojem daleko větší stability - nic se vlastně neděje. Prkotiny se totiž mezitím vyřešily samy a zapomnělo se na ně.

Tohle je jedno z velkých rizik spojených s celým fenoménem Big Data. Mít hodně dat neznamená nutně být na tom lépe. Při naivním přístupu k věci je daleko snazší uškodit si všemi těmi údaji, než z nich jakkoli profitovat.


Žádné komentáře:

Okomentovat