14:50 – na žádost České spořitelny jsme napříč článkem zvýraznili fakt, že v případě jejího datasetu nešlo o ostré údaje klientů, ale o fiktivní data
Přes víkend se ve zlíchovském TechSquaru uskutečnil první, úvodní ročník ‚hackathonu‘ zaměřeného na „velká data“. S nápadem původně přišel Pavel Doležal (ten, který vybudoval a pak prodal agenturu Ataxo). Pavel letos začal naplno působit v Keboole (do níž vstoupil i jako podílník), protože zjistil, že ho „strašně baví data“, a Keboola je technologická firma plná lidí, kteří svět kolem sebe vnímají především jako množiny dat. Vy možná vidíte kavárnu nebo obchoďák nebo čerpací stanici nebo e‑shop; oni vidí samá data — nedostatečně prozkoumaná, nevytěžená, nepropojená a neporovnaná s jinými, a tedy ještě neobjevené souvislosti mezi nimi.
Petr Šimeček (zakladatel Kebooly) a Pavel Doležal jsou přesvědčeni o potřebě data „otevírat“ — sice anonymizovaně, ale zpřístupňovat je světu „tam venku“, mimo myšlenkovou „krabici“, ve které jsou nezbytně zavřeni ti, kteří je pořídili.
Příspěvkem k tomu má být i setkání nazvané „Enterprise Data Hackathon“. Petr s Pavlem přemluvili některé malé i velké společnosti, aby poskytly svá skutečná data — samozřejmě ne všechna a ne bez úprav, jen omezené anonymizované soubory. A také ovšem byla potřeba vypůjčit si potřebné nástroje na práci s daty; ne však všechny společnosti, jejichž logo se skví na obrázku, spolupracovaly s hackathonem přímo, některé nástroje poskytli jejich čeští partneři.
Zájem o hackathon předčil očekávání. Petr Šimeček s Pavlem Doležalem se prý obávali, že akcí osloví tak padesátku lidí, že celý víkend vydrží jen hrstka a že budou v neděli odpoledne končit skoro sami. Mimo to se rozhodli nevypsat žádné „hodnotné ceny“, protože nechtěli lákat ty, kteří by především přišli soutěžit o ceny; měla to být akce pro lidi, kteří si opravdu užívají samo hledání souvislostí v datech, objevování tajemství v nich skrytých.
Pořadatelé vydali celkem 194 lístků, některé bezplatně, ale celkem na nich utržili přes 57 tisíc korun. Na závěr uvedli, že v pátek se přišlo podívat 170 lidí, v sobotu pracovala asi stovka, do neděle vydrželo pracovat kolem 65 účastníků, a k tomu se někteří další přišli opět podívat na závěrečné prezentace (některé lístky platily jen na pátek a na nedělní odpoledne).
Celkové náklady na pořádání vyčíslili Šimeček s Doležalem na 169 000 korun včetně pronájmu TechSquaru nebo jídla pro účastníky. Díky sponzorským darům od firem však získali dohromady se vstupným necelých dvě stě tisíc. Přebytek se proto rozhodli věnovat TechSquaru na podporu pořádání něčeho příštího.
Typickým účastníkem víkendu byl programátor se zájmem o datovou analytiku, ať už se jí zabývá i přes týden v zaměstnání, nebo si chtěl jen rozšířit obzor. Hackathon byl pro něj příležitostí vyzkoušet si nástroje, především cloudové, z nichž na mnohé si běžně asi nesáhne; dále šlo ovšem o setkání s jinými „dataři“, o sdílení znalostí, zkušeností, nápadů — účastníci pracovali v týmech zpravidla složených teprve na hackathonu.
„Na hraní“ dostali celkem osm datových množin, některé větší, některé menší, některé lépe popsané, některé hůře, některé jen opravdu anonymizované, zatímco z některých byl odstraněn i díl klíčových dat — účastníci si pak stěžovali, že snažit se ve zbytku něco najít bylo cvičením pouze teoretickým, bez dalšího smyslu. Některá data obsahovala delší čas, některá například jen měsíc, a na takových zase nešlo moc dobře modelovat trendy a rozeznávat příčiny od následků. Byl to první ročník datového hackathonu a i dodavatelé dat teprve zkoušeli vlastní odvahu.
Vzorky ze všech osmi datových množin jsou k nahlédnutí na Githubu — můžete sami prozkoumat, jaké obsahují údaje, a přečíst si, zda a jaké řešitelské zadání navrhl dodavatel.
Jako nejvděčnější ke zkoumání vyšla data z linky 1188 a data z CCS. Geewa poskytla údaje za jeden měsíc z jedné hry, a v neděli byly předvedeny některé pěkné pokusy něco v nich najít, ale pouhý měsíční rozsah souboru se ukázal být citelným omezením. A například data z Energomonitoru, o elektrospotřebě, pokrývala sice 22 měsíců, ale patrně jen ze čtyř bytů a dvou rodinných domů a závěrečné prezentace víceméně nepřinesly zajímavá zjištění.
Nad víkendové síly hackathonců se ukázala být data poskytnutá Avastem, Seznamem a od České spořitelny. Data od Avastu byla pro účastníky patrně prostě příliš abstraktní — každý záznam obsahoval 7434 booleovských parametrů blíže neupřesněného významu.
Česká spořitelna dodala pro účely akce vygenerovaných fiktivních 260 milionů záznamů transakcí, a to bylo na účastníky sousto možná příliš velké. Ne, že by si Petr Šimeček z Kebooly myslel, že takovou množinu nejde zpracovat za víkend, ale účastníci hackathonu to přece jen nezvládli. Jakž takž si ji připravili až v neděli nad ránem, a pak už jim nezbývalo mnoho času na zkoumání.
Obdobně si několik týmů „vylámalo zuby“ na datech od Seznamu. Podle Petrova názoru na to však „prostě šli špatnými nástroji“.
Úvodní ročník tak pořadatelé zakončili ponaučením, že napříště se pokusí, aby s hackathonci osobně zůstali přes víkend jak dodavatelé dat, tak poskytovatelé datových nástrojů, aby jim mohli poradit a pomoci.
Obecně zajímavých zjištění zaznělo v závěrečných prezentacích nakonec poskrovnu, ale přece uveďme pár příkladů. Linka 1188 se například údajně snaží o to, aby její operátoři zvedali hovory do pěti vteřin. To se ovšem vždy nepodaří, někteří volající musí čekat a po určitém čase to pochopitelně vzdají. Tým, který byl nakonec vyhlášen vítězem hackathonu, zjistil mimo jiné, že podíl těch, kteří čekat nevydrželi, začíná významně růst teprve po 55 vteřinách čekání. Jinými slovy, kdo vydrží čekat třeba patnáct vteřin, vydrží nejspíše čekat i třicet nebo padesát vteřin.
Společnost CCS patrně nepotěší, že podle názoru účastníků hackathonu nelze z dodaných dat předpovídat, kdy který zákazník od společnosti odejde. Uděje se to totiž obvykle tak, že platí všemi svými kartami do poslední chvíle naplno, a příští měsíc je najednou pryč.
Na závěr vyzdvihněme účast České spořitelny. Není příliš těžké rozhodnout se poskytnout data pro hackathon v malé firmě, která má nejvýše několik společníků, ale uvědomme si, že v tomto případě poskytla data banka – byť nešlo o přímá data klientů, ale o vygenerovaný umělý dataset. V bankovnictví přitom převládá názor, že i něco takového je podstupováním nesmyslného „operačního rizika“. Dataři z České spořitelny si to nemysleli, a neoficiálně jsme zvěděli, že dva až tři měsíce trvalo přesvědčit různá vnitřní oddělení banky k souhlasu — ale uspěli. Mnozí se pak také přišli osobně zúčastnit a zapojili se do různých týmů.