Úvod do praktické bioinformatiky

Biologie | 27.05.2006

Biolog, který nachází jádro svého působení v laboratoři, zůstává vůči „vysoké bioinformatice“ v pozici zvídavého laika, žasnoucího nad cizími výsledky získanými pomocí metod, které se navenek jeví jako černá skříňka. V lepším případě se stává poučeným uživatelem programů, které sestavili jiní.

Sdílet

Již celé desetiletí – totiž od zveřejnění první kompletní genomové sekvence bakterie Haemophilus influenzae – žijeme v postgenomové době, a několik let nás už dělí i od publikace (téměř) úplného genomu huseníčku Thalova. Na epochální důležitosti analýzy genomových sekvencí se shodnou nejen úvodníky významných vědeckých časopisů a praktikující molekulární biologové, ale v rostoucí míře i zástupci disciplín systematicko-ekologických, jejichž tradiční doménou bývaly donedávna spíše obory morfologické.
O překotnosti vývoje posledních let svědčí i to, že samotnou definici bioinformatiky je poměrně těžké najít v tištěné literatuře mimo specializované publikace, a do značné míry jsme odkázáni na webové zdroje proměnlivé důvěryhodnosti. Zde budeme bioinformatiku chápat, podle definice zveřejněné na poměrně autoritativním serveru http://bioinformatics.org, jako „klasickou bioinformatiku“ – tedy oblast na pomezí biologie a informatiky, která se zabývá především zpracováváním, prohledáváním a analýzou dat o sekvenci (pořadí monomerů) a struktuře biologických makromolekul. Termín „bioinformatika“ může však být chápán i ve významu širším jako „využití počítačů k hledání odpovědí na biologické otázky“, což by ale mohlo zahrnovat třeba i statistické zpracování fyziologických či klinických dat, která se strukturou makromolekul nemají přímou souvislost. V diskusích v odborných kruzích se můžeme naopak setkat i s pojetím užším, podle něhož opravdovým bioinformatikem je jen ten, kdo vyvíjí software pro pokud možno automatizované (či přinejmenším algoritmizované) zpracování a analýzu sekvenčních dat, nebo aspoň spravuje vlastní databázi. „Vysoká“ bioinformatika v tomto smyslu se vyvinula v plnohodnotný obor, z něhož na mnohých univerzitách lze obhájit doktorát a pak se mu věnovat jako celoživotní specializaci. Průvodním jevem specializace je vybudování vlastního souboru problémů, pokládaných za dostatečně důstojné, aby se na nich dala dělat dizertace (např. jakým způsobem najít v sekvenci kompletního eukaryotního genomu hranice všech intronů a exonů s větší než 95 % pravděpodobností). Typickými tématy „vysoké“, „nové“ či „postgenomové“ bioinformatiky jsou katalogizace genů a genových produktů v celogenomovém či ještě větším měřítku (genomika, transkriptomika, proteomika) a srovnávací analýzy většího počtu genomů směřující např. k predikci funkcí dosud neznámých genů a interakcí jejich produktů na základě korelace výskytu homologů těchto genů v různých skupinách organismů.
Biolog, který nachází jádro svého působení v laboratoři, zůstává vůči „vysoké bioinformatice“ v pozici zvídavého laika, žasnoucího nad cizími výsledky získanými pomocí metod, které se navenek jeví jako černá skříňka. V lepším případě se stává poučeným uživatelem programů, které sestavili jiní. Toto konstatování by nemělo být chápáno jako hanlivé; důraz je totiž na slově poučeným. Na tom, že pracuji s černou skříňkou, není nic špatného – kolik průměrný uživatel ví o vnitřní architektuře motoru ultracentrifugy? Experimentující biolog totiž bioinformatické nástroje užívá podobně jako ultracentrifugu. Řeší ovšem otázky jiného druhu než ty, které by, pokud bychom měli pokračovat v našem příměru, zajímaly fyzika studujícího proces ultracentrifugace. Nad 95 % úspěšností predikce obecného intronu v obecném genomu se sice asi zaraduje, ale pro konkrétní intron v konkrétním genu nutně potřebuje predikci pokud možno skoro stoprocentní. Kupodivu takové přesnosti často dosáhnout lze, a to právě pro jednotlivé, dobře vybrané, nadstandardně experimentálními daty i literárními souvislostmi podložené případy. Musíme však rezignovat na obecné algoritmy a vysoce výkonné (high throughput) softwarové nástroje, které jsou chloubou „vysoké“ bioinformatiky! Podobně jako se všeobecným zprůmyslněním výroby obuvi dokonce ani v nejbohatších státech nezaniklo ruční šití bot (ale setkáme se s ním se už jen u těch nejdražších, kde každý pár je jedinečný), i zde se vedle vysoké technologie postgenomového věku i nadále uplatní pečlivá ruční práce. Tato „drobná domácí výroba“ však by měla být podložena zkušeností biologa, který sice neovládá rafinované matematické teorie a zpravidla ani neumí programovat, avšak vyzná se v džungli molekul a regulačních drah organismu, kterým se zabývá.
Jak se ale náš experimentátor má stát poučeným uživatelem? Podobně jako u jiných laboratorních dovedností, i tuto je nejlépe pochytit od někoho, kdo to umí. V tomto ohledu si věda zachovala strukturu středověkého cechu, i s institucí mistrů (tedy šéfů laboratoří), putujících tovaryšů (postdoků) a učedníků (diplomantů a doktorandů). Stojí za připomenutí rada, kterou svým budoucím kolegům kdysi udělil pozdně gotický malíř Cennino Cennini: A co nejdříve můžeš, svěř se vedení mistra, abys se od něj učil: a co nejpozději budeš moci, od něj odejdi! – i když o tom, zda je i její druhá polovina ve vědeckém světě hodna následování, bychom mohli diskutovat.
Výhodou ovšem je absolvovat nějaký praktický kurs, popřípadě mít k dispozici literaturu, která by mohla posloužit na způsob itineráře či turistického průvodce. Z cizích publikací z nedávné doby považuji za zdařilou zejména útlou knížečku od Andrey Hansen (2001), která však pokrývá, i když velmi názorně a důkladně, jen část potřebné tématiky (zejména prohledávání sekvenčních databází a konstrukci dendrogramů), a krom toho existuje pouze v němčině. Minoru Kanehisa (2000) podává hezky biologicky zaměřený, spíše teoretický než praktický a poměrně náročný vhled do myšlenkového pozadí řady postupů „vysoké“ bioinformatiky. Podrobnější, ale pro začátečníka asi až příliš hluboký a rozsáhlý přehled, který se dotýká i některých oblastí překračujících běžné uživatelské aplikace, pak poskytuje např. monografie kolektivu autorů ze série „Methods of biochemical analyses“. Česky dosud na příbuzná témata nevyšlo nic; věřím tedy, že je na čase to napravit.

***
Tento text je úryvek z knihy
Fatima Cvrčková: Úvod do praktické bioinformatiky, Academia, Praha, 2006

Anotace vydavatele
Bioinformatika – obor na pomezí biologie a informatiky – se zabývá především zpracováním dat o sekvenci a struktuře biologických makromolekul. V češtině dosud žádná učebnice bioinformatiky neexistovala a ani ve světě není obdobných publikací mnoho. Kniha si klade za cíl zprostředkovat čtenáři počáteční poučení a být mu průvodcem při prvních krocích virtuální krajinou praktické bioinformatiky. Pokrývá běžné úlohy z molekulárně biologické laboratorní praxe (například konstrukce map úseků DNA, návrh primerů pro PCR, hledání známých sekvenčních či strukturních motivů v molekule proteinu,…) a bude tak cennou příručkou pro studenty biologie i medicíny. Text je koncipován tak, aby nevyžadoval hlubší znalosti matematiky či programování.
Objednávka viz např. http://www.kosmas.cz/knihy/129574/uvod-do-prakticke-bioinformatiky/