Městská knihovna, big data a Tisíc knih

Ostatní | 16.11.2015

Co všechno lze dělat s big data? Jak doporučovat knihy? Proč klesá na českém trhu vydávání populárně naučných titulů – a klesá opravdu? A jaké funkce on-line knihovních systémů vám chybějí?

Sdílet

Následující text bude už vzhledem k šíři témat spíše poznámkami a tříští než souvislým článkem.

Tento text vznikl na základě nápadu spíše literárního. Uživatelé Městské knihovny v Praze (www.mlp.cz) již nějakou dobu mohou knihy vracet v libovolné pobočce sítě (a samozřejmě si knihu jak půjčit tam, kde se vyskytuje aktuálně, tak i si za poplatek nechat doručit do libovolné pobočky). Kam člověk knihu vrátí, to každopádně záleží jen na něm. Bizarní idea: Budou se snad do určitých poboček soustřeďovat knihy určitých žánrů a bude to něco vypovídat o jednotlivých čtvrtích? Někde převládne hororová literatura někde, co korelace s kriminalitou? Co by korelovalo se sebevražedností, průměrným příjmem nebo cenou realit? Jak vidno, jde spíše o nápad na mystifikaci nebo na sci-fi povídku než na seriózně pojatý výzkum.
O způsobu toho, co se s vrácenou knihou dál stane, Městská knihovna poskytla řadu informací, které celkem logicky výše zmíněné fantaskní představy značně korigují. Knihy, které po vrácení do určité pobočky zůstanou nějakou dobu nezapůjčeny, se přesouvají podle různých algoritmů – logicky hlavně tak, že nejpopulárnější žánry jsou všude, čím specializovanější tituly, tím se soustřeďují do větších (častěji otevřených) poboček – atd.
Nicméně netřeba jen zkoumat, kam lidé přednostně vracejí Kanta či Markýze de Sade. Městská knihovna v Praze je zajímavá i z řady dalších důvodů (pomineme-li její hlavní účel). Za dobu existence (respektive od digitalizace provozu) se zde shromáždilo obrovské množství dat, s nimiž lze (po anonymizaci) opravdu různě kouzlit. Výstupy z těchto dat by samozřejmě mohly zajímat primárně nakladatele, ale i leckoho dalšího. Asi bych nějaká data o chování lidí zkusil od MK koupit, kdybych v Praze zakládal třeba nový řetězec prodejen (nakonec i půjčování knih na pobočkách, účinnost lákání, pohyb v prostoru – to vše by mohlo nějak korespondovat s tím, jak si zákazník vybírá zboží v supermarketu). Jaký výstup z dat napadá vás?

Pro čtenáře je každopádně nejzajímavější službou doporučování knih na základě jeho preferencí; což je ukázková aplikace z oblasti big data. I když něco podobného se zákazníkům samozřejmě snaží nabízet každý e-shop, kolik těch českých má srovnatelně záznamů o transakcích v databázi?
Aplikace Tisíc knih (www.tisicknih.cz) připravená nad daty o půjčování v MK v rámci projektu Google Garage nabízí ke každé ze 70 000 nejpůjčovanějších titulů v MK 1 000 podobných. Algoritmus je samozřejmě postaven na principu „co si půjčovali lidé, kteří si půjčili toto“, nicméně korelován proti obecnému zájmu o jiné tituly, tj. snaží se najít, co mají půjčovatelé knihy X specifického.
Konkrétněji: Může být, že čtenáři knihy X si v 1 % případů půjčovali titul Y. Ten si jinak půjčilo 0,01 % čtenářů. Hodnota korelace je zde podíl konkrétní/obecné, tj. 100.
Čtenáři knihy X si půjčí v 10 % knihu Z, tu si však půjčí celkem 1 % návštěvníků knihovny, zde je tedy koeficient příbuznosti, z něhož se sestaví žebříček, jen 10.
Celkově asi ve stylu, že čtenáři Borgese si možná půjčují častěji Tolkiena než Cortazara, protože Tolkiena si půjčují všichni, to druhé je však specifičtější – a tedy, myslím, i pro čtenáře relevantnější vazba.
Jak to celé funguje, lze vidět na webu Tisíc knih. Osobně bych doporučoval jako volitelnou možnost ve výsledcích filtrovat tituly od téhož autora – to si asi každý zase může najít jinak nebo je i zná. Když si zadáte knihu od psavce typu Stanislava Lema, může se stát, že budete muset déle rolovat, než vůbec v žebříčku narazíte na nějaký jiný titul.
Řazení tohoto typu je celkem velký byznys, stačí si připomenout Google PageRank, ale třeba i přímo doporučovací algoritmus Netflix.

Jaké funkce v aplikaci Tisíc knih byste uvítali vy sami?

Dalším tématem, k němuž mají data z knihovny jistě co říct, je současný úbytek populárně naučných titulů na českém trhu (nebo se mi to jen zdá?). Svoji řadu Fénix ukončila Paseka, Mladá fronta Kolumba zabila již před delším časem, ale produkci omezují i další.
Pod kolonkou pop-science si zde představuji celkem jasně vymezenou oblast, žádné „sociální fenomény“, „přemítání o životě, vesmíru a vůbec“, ani „alternativní vědy“, ani eseje. Pokud platí, že těchto titulů vychází stále méně, proč tomu tak je? Asi jediné, co se výrazněji změnilo za posledních cca 10 let, je nástup e-knih (zdarma sdílených a stahovaných). Nicméně kolik najdete na Uloz.to česky publikovaných pop-science titulů, aby se mohlo říct, že to způsobilo pokles prodeje, který otrávil vydavatele (či snad obtěžuje monitoring a upozorňování)? Další faktory – životní úroveň/výrobní náklady, znalost angličtiny apod. – se za stejnou dobu asi tolik nezměnily?
I když prodejnost titulů a jejich půjčování v knihovně jsou dvě různé věci (naopak předražená kniha se mohla špatně prodávat, ale o to víc půjčovat), přesto z dat o půjčování něco asi vyvodit půjde. Nezájem si půjčit zřejmě indikuje ještě větší nezájem si koupit (pomiňme verzi, že se většina knih kupuje na dárky).
Celkový počet výpůjček dané knihy je dostupný pouze z vnitřní sítě knihovny, zde by samozřejmě bylo nutné data pečlivě vztahovat vzhledem k době, která uplynula od vydání knihy (jak se bude chovat příslušná křivka závislosti půjčování na čase?).
Zvenku lze v katalogu vidět, kolik výtisků daného titulu je v knihovně celkem a kolik aktuálně k zapůjčení (tedy obdoba aktuálního relativního zájmu). Mnohé pop-science tituly z posledních několika let, u nichž by se dal čekat velký zájem, jsou skutečně v MK nyní dostupné hned na řadě poboček:
Zcela namátkou a nereprezentativně:
– Válka o černé díry, 2013 – k dispozici 10 z 19
– Truhlice matematických pokladů profesora Stewarta, 2013 – k dispozici 21 z 37
– Částice na konci vesmíru, 2014 – 3 z 11
(Jako by aktuálně poptávku uspokojilo cca 10-15 knih tohoto typu? Bude toto číslo u každého titulu postupně klesat? Nebo pop-science čtou hlavně lidé určitého věku, kteří přitom ovšem primárně sahají po novějších knihách?)

Jaká data z MK by vás v tomto ohledu zajímala jako konzumenty pop-science literatury a jaká coby vydavatele?

Poznámka: Kdo je líny se registrovat, komentáře lze posílat i na
pavel tecka houser zavinac gmail tecka com

Úvodní foto: historicair, wikipedia, licence obrázku GFDL, Creative Commons Uveďte autora-Zachovejte licenci 3.0 Unported

autor Pavel Houser

Další články z rubriky

Související články

Tagy

big data · e-knihy · knihovna · knihy

pridat Linkuj | Jagg | Delicious | Facebook | vybrali.sme.sk

Komentáře

07.12.2015, 06:36

[…] Následuje zcela subjektivně pojatý výběr z oblasti česky vydané pop-science za rok 2015; u překladů bývá originál samozřejmě starší, nicméně z pohledu českého čtenáře jde stejně o novinky. Obecně v posledních letech mám pocit, že klesá kvantita vydávaných titulů tohoto druhu a stejně tak množství nakladatelů, kteří v tomto segmentu podnikají – což lze nakonec poznat i z nakladatelství zastoupených v následujícím výběru. Na toto téma viz i článek Městská knihovna, big data a Tisíc knih […]

Napsat vlastní komentář

Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.

Student World