Scienceworld | DNA bojuje proti spamu

O velmi zajímavém průsečíku biotechnologií a informatiky referoval časopis New Scientist. Hrdinou příběhu je algoritmus Chung-Kwei, který dokáže úspěšně zachytit až 97 % spamu.

Na počátku byl software analyzující DNA založený na algoritmu označovaném jako Teiresias. Tento systém dokázal řešit úlohu spadající do tzv. rozpoznávání vzorů. Zjednodušeně řečeno byl určen k tomu, aby dokázal říci, jaké části DNA kódují jaké proteiny, jaké části DNA nesou v rámci informačního kódu speciální význam apod.
Thomasem J. Watson z bioinformatické výzkumné skupiny IBM (který samozřejmě není totožný s nositelem Nobelovy ceny a spoluobjevitelem struktury DNA Jamesem D. Watsonem) si vzal Teiresias jako základ, z něhož vyvinul algoritmus Chung-Kwei (jméno má údajně odpovídat jakémusi ochrannému amuletu z Feng-šuej). Tomuto programu pak byla předložena databáze 65 000 spamů; za pomoci své schopnosti rozpoznávání zde pak identifikoval vzory typické pro spam. Souběžně byly totiž analyzovány normální e-maily a vzory nalezené v obou skupinách vyřazovány.
Chung-Kwei nyní třídí e-maily podle toho, jaké procento "závadných" vzorů obsahují. To má hned několik výhod. Regulérní dopisy mohou klidně obsahovat třeba slovo "Viagra" a nejsou kvůli tomu automaticky vyřazeny. Podíl povolených "závadných" vzorů vzhledem k celkové délce dopisu lze snadno měnit a tím určovat, nakolik bude náš filtr "paranoidní". Pokud je systém nastaven tak, aby odchytil 97 % spamů, označí za závadnou pouze jednu regulérní zprávu z 6 000. Dalším vývojem algoritmu by se tato úspěšnost přitom měla samozřejmě ještě zvyšovat.
Důležité je, že systém nerozpoznává přímo konkrétní závadné řetězce, ale právě obecnější "vzory". Nedá se tedy obalamutit např. slovy Vi*gra nebo $ex. Tuto vlastnost už musel mít původní algoritmus Teiresias, protože také rozpoznával (např.) funkčně ekvivalentní, ale formálně odlišné struktury DNA. Při přepisu DNA to struktury proteinů existuje totiž značná redundance – různé trojice (triplety) "písmenek" DNA kódují stejný protein, a algoritmus se je proto musí naučit vnímat jako stejné. Nyní tato vlastnost najde uplatnění i v boji se spamem.
Společnost IBM se údajně chystá zahrnout algoritmus Chung-Kwei do svého komerčně dodávaného programu SpamGuru. Za slibnou označil celou koncepci i Justin Mason, který vyvinul známý open source antispamový program SpamAssassin. Podle Masona bude zřejmě na algoritmu udělat celou řadu práce; fascinující však není ani tak konkrétní algoritmus, ale spíše mezioborový průnik, kdy se původně bioinformatický software ukázal jako vhodný pro úplně jiný typ úlohy.

Zdroj:
http://www.newscientist.com/news/news.jsp?id=ns99996292

autor