Internetové vyhledávače čekají revoluční proměny

Člověk | 24.11.2004

Výzkumníci hodlají v příštích několika letech přinést do oblasti vyhledávání na internetu revoluci. Jedním z hlavních cílů jejich práce je personalizace vyhledávačů. Měly by tak například vědět, že jste odborníkem v oblasti IT a pokud hledáte slovo myš, pak vás zajímá spíše počítačová periferie než údaje o zvířatech.

Sdílet

Většina lidí pracujících s informacemi by měla velké problémy, kdyby měla jmenovat něco, co změnilo jejich profesní život tolik, jako internetové vyhledávače. Zázračné služby, které jsou schopny vyhledat žhavá témata daného dne, projít miliony webových stránek a během několika sekund zobrazit informace o nových produktech, výzkumech, jménech odborníků a další údaje, které by jinak bylo možné nalézt jen s velkými obtížemi nebo vůbec.
I přes své silné stránky ale mají vyhledávače také spoustu slabých míst. Pokud se například nějaký uživatel v srpnu letošního roku rozhodl hledat přes Google slovo Linux, po hledání trvajícím pouhých 0,19 sekundy, dostal více než 95 milionů výsledků. To ho jistě neuspokojilo v případě, že ten jím požadovaný byl desetitisící na seznamu. Že je chyba na straně uživatele? Nikoli v případě, pokud přijmeme tezi, že uživatel má vždy pravdu…
Výzkumníci hodlají v příštích několika letech přinést do oblasti vyhledávání na internetu revoluci. Jedním z hlavních cílů jejich práce je personalizace vyhledávačů. Měly by tak například vědět, že jste odborníkem v oblasti IT a pokud hledáte slovo myš, pak vás zajímá spíše počítačová periferie než údaje o zvířatech.

Agenti

Adele Howeová, profesorka počítačových věd na státní univerzitě Colorada, a její postgraduální student Gabriel Somlo již vytvořili nástroj testující použitelnost naznačeného konceptu nazvaný QueryTracker. Jedná se o softwarového agenta, který tvoří jakousi mezivrstvu mezi uživatelem a běžným vyhledávačem a sbírá informace o opětovných oblastech jeho zájmu — tím mohou být například nejnovější informace o chronické nemoci daného uživatele. QueryTracker následně postupuje jednou denně dotaz uživatele vyhledávači a zobrazuje výsledky — současně sleduje, které stránky se od předchozího dotazu změnily.
Kouzlo QueryTrackeru spočívá v automatickém vytváření dodatečných každodenních dotazů –- které jsou podle Howeové často kvalitnější než ty, které zadává sám uživatel. A to na základě zjištění o zájmech uživatele a jeho prioritách v průběhu času. Nástroj se stará o filtrování výsledků obou druhů dotazů na základě relevance a jejich odeslání uživateli.
„Schopnost nástroje QueryTracker vytvářet vlastní dotazy může kompenzovat špatně zformulované otázky, jež mnozí uživatelé vytvářejí,“ tvrdí Howeová. „Dokonce i lidé znalí webu jsou často buď příliš líní, nebo neinformovaní o tom, jakým způsobem by měli psát dobré dotazy,“ dodává. Nejběžnější chybou jsou podle ní příliš krátké dotazy, jako je výše uvedený jednoslovný výraz Linux.

Specializace

Jeannette Jenssenová, profesorka matematiky na Dalhousie University v Halifaxu pokročila s personalizačními technikami ještě o krok dále -– zaměřila se na boty (crawlery) indexující obsah webu předtím, než se provádí vyhledávání. Jenssenová tvrdí, že oblíbené vyhledávače mají tři nedostatky: Ve stále vyšší míře za své služby účtují vysoké částky firemním uživatelům, zkreslují výsledky ve prospěch inzerentů a často stahují ohromné množství irelevantních informací. Ale specializované crawlery, které Jenssenová vytvořila, indexují pouze ty stránky, jež mají vztah k předem definovaných tématům, a hodnocení následně přizpůsobují zájmům uživatele.
Podle Jenssenové by například lékařská firma mohla každou noc spouštět svůj crawler, který by indexoval pouze stránky vztahující se k medicíně. Současně by hodnotil výsledky způsobem, který dává smysl v oblasti lékařství, nikoliv tak, jak to požadují inzerenti nebo běžní uživatelé webu. Výsledky indexování by se stále zlepšovaly na základě pozorování úspěšnosti vyhledávání.
Specializované crawlery hledají stránky, obsahující údaje, jež odpovídají určitým kritériím. Jenssenová umí rozpoznat skryté nebo nepřímé odkazy pomocí procesu, který sama připodobňuje k dětské hře „samá voda -– přihořívá –- hoří.“ Vysvětluje to na příkladu webového crawleru, jenž se specializuje na oblast počítačových věd. Výsledky výzkumů v této oblasti jsou často na stránkách výzkumných pracovníků, kteří je napsali, a jejich stránky obsahují odkazy na jejich domovské univerzity. „Když se crawler dostane na stránky univerzity, pak hledá cíleněji, než na stránkách nějaké firmy,“ říká Jenssenová. „Říká –- přihořívá.“
Filippo Menczer, profesor počítačových věd na alabamské univerzitě, říká, že běžné vyhledávače určují relevanci dokumentu na základě izolovaného zvážení různých kritérií. Například mohou nejprve zvolit dokument proto, že obsahuje daná klíčová slova. K vyhodnocení pořadí následně vezmou v potaz, kolik odkazů na tento dokument směřuje. Lepších výsledků by podle jeho názoru bylo možné docílit zvážením mnoha takových „měřítek relevance“ –- včetně preferencí uživatele -– v jejich kombinaci, a na základě kombinace vyhledaných stránek, nikoliv jednotlivých dokumentů.
Takovéto komplexní a silné vyhledávače budou podle jeho názoru dostupné v praxi během tří až pěti let, kdy výkony počítačů opět vzrostou. „Budeme provádět dolování dat hrubou silou ve velkém rozsahu po celém webu –- napříč mnoha terabajty informací,“ upřesňuje Menczer.

Studnice dat

Hrubá síla -– to je celkem přesný popis práce ohromného linuxového clusteru IBM WebFoutain, na němž nepřetržitě běží 9 000 programů, procházejících každým dnem 50 milionů nových stránek. Ale WebFountain neprovádí prosté indexování slov; využívá analýzy přirozeného jazyka k extrahování významu z nestrukturovaného textu.
Tak například určuje, zda je daná entita jménem osoby, firmy, místa, produktu a podobně, a následně k ní připojuje XML metadata, v nichž lze vyhledávat. „Značkujeme celý web, všechny diskusní skupiny a další zdroje,“ říká Dan Gruhl, šéfarchitekt WebFountain z výzkumného centra IBM.
Použitý software podle Gruhla funguje již dnes velmi dobře — je úspěšný pokud jde o extrahování a označování sémantického významu nestrukturovaného textu. Ale náročnější operace, jako například analýza významu, sloužící třeba k tomu, aby firmy mohly automaticky monitorovat pověst svých produktů, vyžaduje podle jeho slov množství další práce.
Výzkumní pracovníci IBM Almaden Research Center experimentují s nástrojem Sentiment Analyzer, jenž se pokouší vybírat z on-line textových dokumentů slova označující pocity a názory. „Ford Explorer je skvělý — takový výraz je snadné klasifikovat,“ upřesňuje Gruhl. „Ale pokud by zákazník sarkasticky řekl, „Je skoro tak dobrý, jako je Ford Pinto,“ pak je to pro sémantickou analýzu obtížný úkol. Analýza smyslu takovýchto výroků je jedním z cílů výzkumu IBM.

Extrakce entit

„Odvětví hledání a správy obsahu se povětšinou zabývá nestrukturovanými nebo polostrukturovanými informacemi, nikoliv transakčními daty v relačních databázích,“ říká Prabhakar Reghavan, šéftechnolog firmy Verity. Podle něj má většina celosvětově zaznamenaných údajů nestrukturovanou podobu, přesto mají tato data pro firmy menší hodnotu, než údaje v jejich relačních databázích. A důvod? Zjištění jejich jednoznačného významu je obtížné.
„My potřebujeme vzít hromady slov a přidat k nim různé formy struktur,“ vysvětluje Reghavan. Technologie, která má tento úkol, tedy extrakci entit, na starosti je podle jeho slov již poměrně robustní. Zvládne již relativně spolehlivě určit, že některá slova označují jména osob, firem, zeměpisných míst a podobně.
Ale i když jsou nástroje pro extrakci entit poměrně vyspělé, aplikace, které tyto nástroje využívají –- třeba systém pro třídění žádostí o zaměstnání -– bohužel nikoliv. „Aplikace se dosud nedostaly tak daleko, aby firmy mohly říci: Dobrá, mohly bychom místo našeho systému lidských zdrojů využít jednu z takových věcí.“
„Z technického hlediska jsme ve stádiu, kdy můžeme říci, že systém umí přečíst e-mail od zákazníka a zjistit, kterému oddělení patří, zjistit odesílatele a skutečnost, že se jedná o významného zákazníka, a na základě toho tento e-mail předat vyšší úrovni podpory. Umí dokonce provést i analýzu nálady -– třeba zda je odesílající zákazník rozzloben,“ tvrdí Reghavan. Ale zde už leží hranice jeho schopností.
Podle Reghavana jsou dostupné nástroje dost dobré při extrahování struktury, ale spolehlivé využití takové struktury stále vyžaduje specifické vyladění v dané oblasti, sloužící ke zmapování terminologie. Například firma, jež se zabývá v anglicky mluvící zemi on-line prodejem vstupenek do divadla, by měla vědět, že výraz „stall“ ve Velké Británii znamená totéž, co v USA výraz „orchestra seat“ (křesla v první řadě).
Raghavan se přesto domnívá, že stav současného poznání v oblasti technologií vyhledávačů přesahuje očekávání většiny firemních uživatelů. „Na nás je, abychom o tom průmysl přesvědčili. Cesta spočívá v tom, že vezmeme tyto sady nástrojů a ukážeme, že poskytují přesvědčivé hodnoty pro určité vertikální odvětví.“
„Dnes, pokud byste řekli, že můžete vzít svůj CRM systém, jenž spoléhá na databázi, a přeměnit jej v mnohem větším rozsahu tak, aby využíval textový obsah, pak byste získali určité zájemce. Ale ti by řekli: Tak nám to ukažte. A na nás je, abychom do dokázali,“ uzavírá Raghavan.

Vědci z kalifornské univerzity odhadují, že v roce 2002 bylo na papíru, filmech a magnetických či optických médiích zaznamenáno 5 exabajtů informací? Kolik že to přesně je?

Kilobajt – 1 024, tedy cca 10 exp 3 bajtů, 2 KB = jedna strojopisná stránka
Megabajt – 10 exp 6 bajtů, 1 MB = krátký román
Gigabajt – 10 exp 9 bajtů, 1 GB = nákladní auto plné knih
Terabajt – 10 exp 12 bajtů, 1 TB = knihy, vytištěné na papíře z 50 tisíc stromů
Petabajt – 10 exp 15 bajtů, 2 PB = veškeré vědecké knihovny v USA
Exabajt – 10 exp 18 bajtů, 5 EB = všechna slova, která kdy lidé vyslovili