Scienceworld | Google vytvořil z digitalizovaných knih obrovský frekvenční slovník

Google zpřístupnil obrovský slovník, který vznikl digitalizací 5,2 milionu knih obsahujících 500 miliard slov. Slovník pokrývá období od roku 1500 a tvůrci projektu o něm mluví vzletně jako o kulturním genomu nebo digitálních fosíliích. Vysvětlují, že humanitní vědy by pomocí podobných nástrojů mohly získat exaktnější základ a opírat se o kvantifikované údaje.

V aplikaci lze zjišťovat, jak se měnila frekvence používání určitých slov v čase. Nejde ale jen o nástroj pro lingvisty, lze takto sledovat i jednotlivé „memy“ – třeba šíření určitých myšlenek, teorií, vědeckých objevů i technologií. Pro lidi zabývající se memetikou je taková aplikace hotový ráj, mohou si zde hrát s obdobami biologické selekce mezi jednotlivými slovy. Takto získaná slova navíc často nejsou obsažena v klasických slovnících, takže si lze posvítit i na obdobu temné hmoty existující v jazyce (především v angličtině).

Jednotlivé vědce i další osobnosti lze porovnávat z hlediska jejich „citovanosti“ (byť nikoliv v impaktovaných časopisech :-)). Co myslíte, vyhrál by Darwin, Einstein nebo Freud?

Podrobnosti o projektu přináší článek na Computerworld.cz.

autor