Člověk |
Vezmime si napríklad frázu "to be or not to be". Aj priemerný človek v nej okamžite spozná Shakespearovho Hamleta. Ak však nad Hamletom urobíme dôsledné predspracovanie so silnou elimináciou stopwordov, pravdepodobne sa do výsledného indexu ani jedno zo slov tvoriacich uvedenú frázu nedostane. Všetko sú to totiž málo významné slová, ktoré samé o sebe nevravia nič o význame dokumentu; nakoľko ide o slová vyskytujúce sa snáď v každom anglickom texte, nie sú pre odlíšenie jedného konkrétneho dokumentu od iných dokumentov významné.
Komentáře
31.07.2014, 11:34
.... áëàãîäàðþ!...
Napsat vlastní komentář
Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.