Co je to Zipfův zákon?

Člověk |

Matematičtí lingvisté často uvádějí, že texty v přirozeném jazyce vyhovují tzv. Zipfovu zákonu. Toto pravidlo říká, že jednotlivá slova se vyskytují v určitém statistickém rozdělení. Zhruba řečeno, vynásobení relativního pořadí slova v textu a jeho frekvence je konstantní.




Matematičtí lingvisté často uvádějí, že texty v přirozeném jazyce vyhovují tzv. Zipfovu zákonu. Toto pravidlo říká, že jednotlivá slova se vyskytují v určitém statistickém rozdělení. Zhruba řečeno, vynásobení relativního pořadí slova v textu a jeho frekvence je konstantní.

Příklad: Nejčastěji se vyskytující slovo v textu je obsaženo 100krát, druhé v pořadí bude tedy obsaženo přibližně 50krát, třetí 33krát, čtvrté 25krát – a tak dále. Praktická aplikace zákona samozřejmě naráží na řadu problémů: můžeme za text považovat členy? Jsou různé tvary jednoho slova pokládány za jedno slovo? Jak je tomu u slov odvozených, je stejným slovem také "zápor"? Je podstatné jméno s předložkou jedním nebo více slovy?
Nicméně – Zipfův zákon na delších textech platí, s výjimkou těch úplně nejčastějších a těch nejméně častých slov, přesto poměrně přesně – byl např. s úspěchem vyzkoušen na Odysseovi od Jamese Joyce, stejně jako třeba na frekvenci příjmení v telefonním seznamu (nejčastějšími příjmeními v ČR jsou mimochodem Novák, Svoboda, Novotný, Černý, Dvořák, Procházka, Veselý, Kučera, Hájek, Jelínek, Pokorný, Růžička, Beneš, Horák, Marek, Král, Čermák, Zeman, Fiala). Existuje navíc i celá řada upřesňujících modifikací Zipfova pravidla, z nichž zřejmě nejznámější podnikl francouzský matematik B. Mandelbrot.
U kvantitativních popisů jazyka je otevřenou otázkou, zda se příslušná statistika liší v závislosti na tom, jestli se jedná o jazyky přirozené či umělé. Uvádí se, že některá statistická rozdělení není možné aplikovat např. na esperanto (a už vůbec ne na texty počítačových programů), ale pouze na jazyky, které prošly delším vnitřním vývojem. Jiní lingvisté však namítají, že specifičnost přirozeného jazyka není dána frekvencemi písmen či slov, ale tím, že se jím dorozumívají lidské bytosti.
Pravda je, že Zipfovu zákonu vyhovuje i řada nejazykových jevů, dají se jím třeba modelovat i kolísání populací na jednotlivých stupních potravních řětezců (vlk-zajíc apod.) v populační biologii. Rovněž některé kódy, šifry či zdrojové texty programů vykazují podobné frekvenční rozdělení.

Poznámka: Inspirací k napsání tohoto článku bylo připomenutí výročí Zipfova narození ve vědecké sekci Neviditelného psa – viz
http://pes.internet.cz/veda/clanky/26360_0_0_0.html.
Zipf je inspirující v tom, že se pokusil lingvistiku zexaktnit, zdůraznit její kvantitativní aspektky a přiblížit celý obor přírodním vědám.

Drobná reklama: Kdo zde rádi čtete lingvistickou rubriku, vězte, že redaktorovi serveru v nakladatelství Portál právě vyšla kniha o slovních hříčkách. Podrobnosti na http://hricky.webpark.cz.








Související články




Komentáře

30.07.2014, 10:21

.... ñýíêñ çà èíôó!...

Napsat vlastní komentář

Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.