Zahlídnout v datech, co ještě nikdo neviděl
Michal Kašpárek minulý týden na webu iRozhlas.cz publikoval sérii datových analýz české knižní kultury za poslední dvě a čtvrt století. V rozhovoru mluvíme o pozadí výzkumu a nejzajímavějších zjištěních.
Michale, ty analýzy primárně vycházejí z České národní bibliografie, je to tedy kvantitativní průzkum velkých dat. „Big data“ jsou tématem i jinde, možná si tedy na úvod řekněme, co tyto obrovské soubory dat umožňují a co ne. V čem je jejich síla?
Velká data ti umožňují místo zkoumání jednotlivých stromů vidět les. Jak se během let proměňuje, co z něj mizí, co se v něm objevuje. Ale záleží na konkrétních datech. Když jsem se předloni podobně vrtal v datech Filmového přehledu, byly tam detailně popsané zápletky hraných filmů: v padesátých letech z nich například zmizely kavárny a vystřídaly je továrny. Tak podrobná data ke knihám bohužel nemáme. Na druhou stranu jsou míň selektivní, takže co víme o románech, víme i o učebnicích, atlasech, slovnících, průvodcích nebo kuchařkách. V tom všem se doba otiskuje úplně stejně jako v beletrii.
Jak ses vlastně ty sám k podobným datovým analýzám dostal? Ve veřejném prostoru jsi figuroval dlouho hlavně jako novinář, později spisovatel…
Vidíš, a já se vždycky považoval hlavně za publicistu a editora, až potom za novináře nebo spisovatele. Za covidu jsem se potkal u jednoho výdejního okýnka s Honzou Bočkem z datového týmu Českého rozhlasu a zmínil se mu, že končím v tehdejší práci. Za pár dnů už jsem byl editorem datového týmu Českého rozhlasu. Tam jsem záviděl ostatním, co všechno umí dělat, tak jsem se to začal učit taky.
Teď ses tedy vrhl na Českou národní bibliografii. Co přesně to je?
Národní knihovna před třemi lety zveřejnila několik velkých balíků dat, které vycházejí z toho, co o vydaných knihách vědí tam i v jiných knihovnách. Česká národní bibliografie je pokusem o kompletní soupis všeho, co u nás vyšlo od začátku 19. století. Má zhruba milion a čtvrt záznamů: knih, časopisů, map nebo gramodesek. Vedle toho se ale dá z webu NK stáhnout taky dataset národních autorit s informacemi o stovkách tisíc lidí nebo firem podepsaných pod knihami a několik dalších datasetů.
Napadá mě, jak moc jsou ta vstupní data zatížená změnami v systémech knihovnické katalogizace? A jak jsou zatížena ideologicky, vzhledem k tomu, že pocházejí z různých dějinných období od Rakouska-Uherska až po současnost?
Proměny katalogizace jsou na podobě dat znát víc než proměny ideologie. Během let se třeba několikrát mění označování kategorií a žánrů, takže se to pak těžko spolehlivě filtruje napříč obdobími. Ale vlastně to souvisí i s tou politikou: čemu dnes říkáme young adult literature, byla dřív literatura pro mládež.
Když jsi ten pětidílný seriál před týdnem na sociálních sítích anoncoval, napsal jsi, že je to „nejpracnější série článků, kterou jsem kdy napsal a patrně i kdy napíšu“. Jak dlouho taková věc vzniká a co je na tom to nejpracnější?
Zaznamenávám si pracovní dobu, takže vím, že jsem na tom strávil třetinu času co psaním románu. Klasicky nejvíc trvalo ta data pochopit a očistit. Chceš znát podíly nakladatelství na vydaných knihách? Za pár vteřin vidíš, že vedou Euromedia Group a Albatros. Ale počítají se do prvního Odeon a do druhého Kniha Zlín? Aha, nepočítají, takže to musíš nějak sloučit. ChatGPT ti sice může obratem vygenerovat kód, který ti nakladatele podle nějakého klíče přejmenuje, ale ten klíč musíš poskládat ručně. A to jsou hodiny jen u téhle jedné drobnosti.
Jak moc ti ChatGPT pomáhal? Mimochodem, teď se mi vybavilo, že jsem někde viděl nabídku tvého kurzu, jak využít AI při psaní románů nebo povídek…
Při podobných projektech AI zrychluje práci, ale bohužel nijak radikálně. Nemůžu ji nechat naprogramovat něco o dva levely nad tím, čemu sám rozumím, protože potřebuju mít nad všemi operacemi kontrolu. Zároveň nemá smysl zadávat AI rutinní banality, tam si těch pár svých řádků kódu obvykle kopíruju z projektu do projektu. Takže nejčastěji používám ChatGPT nebo spíš Claude jako mentora. Proč mi tenhle kód hlásí chybu? Jak z téhle obří tabulky vyfiltruju pár řádků, aniž bych ji musel načíst celou? Tohle se mi počítá už deset minut, nejde to nějak zrychlit? Ostatně takhle mi AI pomáhá i při psaní. Není ten článek zbytečně složitý? Která pasáž by šla vyhodit? Nezapomněl jsem na něco?
Jako každá datová analýza má i ta tvoje ve výsledku dvě části: určitým způsobem uspořádaná data a vedle toho jejich interpretaci. Ta interpretace je ve většině případů zjevná, ale mě by samozřejmě zajímaly ty opačné případy, kdy data něco ukázala, ale ty jsi nevěděl proč. Dal bys mi nějaké příklady?
U každé podobné práce se většina překvapení nakonec ukáže být renoncem v datech nebo ve výpočtech. Skokově ubylo románů v roce 1901? Aha, metadata za 19. století se zpětně doplňují přednostně. Spousta spisovatelů narozených v Boskovicích? Aha, ona je tam porodnice s velkou spádovou oblastí. Zase to jsou hodiny pokusů a omylů, které přežije jenom zlomek pozorování.
Teď jsi taky pojmenoval, co bylo na všech možných výzkumech frustrující pro mě, když jsem studoval sociologii — tolik dat a metod, a tak málo překvapivých výsledků… Ty to ale musíš mít jinak, když jsi zpracováváním tohohle projektu strávil třetinu času co psaním Fosilie. Co tě na tom nejvíc vzrušuje?
Jako děcko jsem miloval obrázkové knihy, ve kterých si můžeš prohlížet rozříznutou továrnu, dům, auto nebo fotoaparát. Taky si doteď pamatuju tu radost, když jsem byl s našima kdesi u Pálavy, rozlousknul šutr a uvnitř byla zkamenělina. Tohle mě teď fascinuje na datech: že v nich můžu zahlídnout, co ještě nikdo neviděl, a ukázat to ostatním.
Chci se ještě vrátit k předchozí odpovědi. Jak jsi postupoval v těch případech, kdy data něco ukázala, ale nebylo zjevné proč?
Klasicky novinářsky. Když už jsem si byl nějakým výsledkem vcelku jistý, zavolal jsem někomu, kdo tomu rozumí líp. Lidem z Ústavu pro českou literaturu, z nakladatelství nebo konkrétním spisovatelům. Měl jsem zábavný telefonát s Jiřím Vedralem, který je podepsaný pod stovkami slovníků se zábavnými názvy, Latinsko-český slovník nemocí prstů skotu a tak. Ukázalo se, že jeho role byla většinou editorská.
Mě například zaujalo, že podle tvé analýzy po roce 1990 prakticky zmizely knihy s tématem produktivity. To bych nečekal, důraz na práci je společný režimu před rokem 89 i po něm, i když narativy se proměnily. Máš pro to nějaké vysvětlení? Patřily by například ve tvé datové analýze do tématu produktivity i knihy o prokrastinaci, kterých se v posledních letech objevilo až neuvěřitelně mnoho?
Vysvětluju si to tím, že existuje produktivita osobní a produktivita kolektivní. Nástup knih o kolektivní produktivitě po roce 1948 je v datech vidět moc hezky. To slovo pak z popisků knih viditelně mizí už v druhé půlce osmdesátých let a po revoluci prakticky úplně. Vrací se ve velkém kolem roku 2015, ale to spíš už jako produktivita osobní. Té se po revoluci nejspíš častěji říkalo jinak. Nechtěl jsi být produktivní, to přece bývali úderníci a dojnice. Chtěl jsi být bohatý, úspěšný, slavný. I když je to nakonec to samé.
A s tou prokrastinací? Ptám se teď spíš kvůli vhledu do toho procesu práce s daty než kvůli věci samotné. Produktivita a prokrastinace jsou logicky jedno téma, dvě strany jedné mince, ale zároveň dvě různé kategorie… Podobné případy jsi ručně slučoval?
Neslučoval, tohle bylo v podstatě primitivní hledání řetězce „produktivi“ ve sloupcích s relevantními metadaty: název knihy, podtitul, tematické zařazení… Sloučení víc takových dotazů mi dávalo smysl tam, kde šlo o jednu a tu samou věc, třeba „RVHP“ a „Rada vzájemné hospodářské pomoci“. Zkusil jsem teď čistě ze zvědavosti, jestli nějaké z těch témat souvisejících s produktivitou nenapoví nějaký zajímavý příběh, ale spíš ne.
Kdyby tě zajímaly knihy o produktivitě v širším slova smyslu, včetně těch o efektivitě, píli, lenosti nebo prokrastinaci, můžeš na knihovnická data vypustit embeddings model. Ten by slova v nich převedl na vektorové reprezentace a pak už by šly knihy filtrovat podle toho, jak blízko si v prostorech témat jsou. Což je přesně ta věc dvě lekce přede mnou, kterou bych zvládl hodit na AI, jenže pak bych si nebyl jistý tím, co přesně lidem ukazuju.
Dovolím si vypíchnout ještě jeden hezký postřeh, který zmiňuješ: na čtenářských databázích jsou v průměru lépe hodnoceny dlouhé romány než krátké. To je totiž věčný spor v redakcích nakladatelství, jestli lidi mají radši krátké nebo dlouhé romány… Takže teď už víme, že dlouhé, nebo je to složitější?
Vždycky je to složitější. Delší české romány z posledních let skutečně mají na Goodreads i Databázi knih lepší hodnocení než ty krátké. Největší úměra je ale vidět u nejkratších rozsahů: když vydáš stodvacetistránkovou knihu a říkáš tomu román, asi to bude spíš blbý. U dlouhých knih zas může hrát roli to, že když se ti nelíbí, v půlce je odložíš a pak je nikde nehodnotíš. Dočtou je a hvězdičky jim dají jen ti fakt nadšení.
Podobný efekt by možná šlo vysledovat i u knižních sérií: koho nebavil první díl, těžko bude hodnotit ty další. Ale chci se na závěr zeptat na toto: Datové soubory, se kterými jsi pracoval, dáváš veřejně k dispozici na GitHubu, a to včetně skriptů, které jsi použil k přípravě dat. Znamená to, že každý technicky trochu zdatný člověk se teď národní bibliografie může ptát přesně na to, co ho zajímá?
Jednoduchá odpověď je ano, každý trochu technicky zdatný člověk může ta data prozkoumat. Tohle je mimochodem přehlížený benefit veřejnoprávních médií: nemusíme při takové práci syslit data pro vydavatele. Můžeme je dát k dispozici ostatním, pro kontrolu naší práce, pro další bádání, pro cokoliv.
Složitější a přesnější odpověď je, že ten člověk musel mít dobré hodiny informatiky na střední nebo nakoukat pár youtube videí. Malinko umět s příkazovou řádkou a tak. Očištěná data jsou navíc pro GitHub moc velká, tak tam místo části z nich visí kód, který z původních zdrojů za pár hodin vyrobí to, s čím jsme pracovali my. Pak je ještě nutné si v knihovnických materiálech načíst, co ty záznamy vlastně znamenají. Ale potom už se s tím dá hrát. Někdo by třeba mohl dopočítat, jestli lidi, kteří píšou o zdravém životním stylu, žijí déle než ostatní. To mě zajímalo a pořád zajímá, ale bylo to nad moje síly.
Michal Kašpárek (1984, Brno) je český publicista, spisovatel a překladatel, bývalý šéfredaktor webového serveru a časopisu Finmag. Od roku 2021 pracuje v Samizdatu — datovém týmu Českého rozhlasu. Vydal prózy Hry bez hranic (2018) a Fosilie (2023).