Prehľadávanie dokumentov: Od surového textu k modelu

Člověk |

Vezmime si napríklad frázu "to be or not to be". Aj priemerný človek v nej okamžite spozná Shakespearovho Hamleta. Ak však nad Hamletom urobíme dôsledné predspracovanie so silnou elimináciou stopwordov, pravdepodobne sa do výsledného indexu ani jedno zo slov tvoriacich uvedenú frázu nedostane. Všetko sú to totiž málo významné slová, ktoré samé o sebe nevravia nič o význame dokumentu; nakoľko ide o slová vyskytujúce sa snáď v každom anglickom texte, nie sú pre odlíšenie jedného konkrétneho dokumentu od iných dokumentov významné.











Související články




Komentáře

31.07.2014, 11:34

.... áëàãîäàðþ!...

Napsat vlastní komentář

Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.