Meno:Michal
Priezvisko:Hozza
Názov:Zarovnávanie sekvencií s použitím metód klasifikácie
Vedúci:Mgr. Tomáš Vinař, PhD.
Rok:2014
Blok:INF
Kľúčové slová:zarovnávanie sekvencií, dodatočná informácia, strojové učenie, náhodné lesy, anotácie, skryté markovské modely
Abstrakt:Zarovnávanie dvoch DNA sekvencií je jedným zo základných bioinformatických problémov. V tejto práci sa zaoberáme možnosťami použitia prídavnej informácie o funkcii vstupných sekvencií na zlepšenie kvality takýchto zarovnaní. Informácie sme zakomponovali pomocou dvoch klasifikátorov, jeden pre zarovnané časti sekvencií a druhý pre nezarovnané časti sekvencií. Klasifikátor rozdeľuje pozície do dvoch tried: tie, ktoré majú byť zarovnané k sebe (trieda 1) a tie, ktoré nie (trieda 0). V prípade klasifikátora pre nezarovnané časti, tie, ktoré majú byť zarovnané k medzere (trieda 1) a tie ktoré nie (trieda 0). Výstupom klasifikátora je potom pravdepodobnosť, že dáta patria do triedy 1. Na klasifikáciu sme použili náhodné lesy (Random Forests). Venovali sme sa výberu atribútov a vhodnými atribútmi sa nám podarilo zlepšiť úspešnosť klasifikátorov. Ukázali sme, že klasifikátor sa dokáže naučiť, ktoré pozície majú byť zarovnané k sebe a ktoré nie. Vyvinuli sme dva modely pre zarovnanie sekvencií s anotáciami za pomoci klasifikátora, ktoré sú založené na párových skrytých Markovovských modeloch. V modeli A sme nahradili emisné tabuľky stavov výstupom z klasifikátora. V modeli B modelujeme okrem báz aj pásku s výstupom z klasifikátora. Naše modely dokázali prekonať referenčné modely na biologických dátach aj na simulovaných dátach s vyššou dôležitosťou anotácie. Na simulovaných dátach dosiahol model B podobné výsledky a model A mierne horšie.

Súbory diplomovej práce:

hozza-realigner.zip
hozza-dipl.pdf