Abstrakt: | Pangenomické grafy slúžia na reprezentáciu genetickej variability naprieč populáciou daného druhu, no pri väčšom počte genómov sa stávajú extrémne komplexnými a vizuálne neprehľadnými. Cieľom tejto práce bolo navrhnúť metódu, ktorá umožní zjednodušenie takýchto grafov bez výraznej straty informácie. Pracovali sme s pangenomickým grafom baktérie Escherichia coli, zostaveným z viac než 50 genómov pomocou nástroja GEESE. Na základe vizuálnej a algoritmickej analýzy sme identifikovali štruktúry prispievajúce k efektu hustého spletenca a navrhli sme iteratívny filtrovací algoritmus kombinujúci viacero metrík, ako sú stupeň, šírka (počet unikátnych kontextov), hĺbka, dĺžka a centralita. Výsledný graf si zachoval 89% sekvenčnej dĺžky a zároveň efekt hustého spletenca sa znížil na minimum. V porovnaní s existujúcim nástrojom PanGraph náš prístup dosiahol lepšiu rovnováhu medzi zjednodušením topológie a zachovaním relevantných informácií. Súčasťou práce je aj interaktívna vizualizácia grafu a návrh skórovacej metriky Hairball Index (HI), ktorá kvantifikuje vizuálnu komplexnosť. Výsledky naznačujú, že kombinácia topologických metrík a cielenej filtrácie predstavuje efektívny spôsob zjednodušenia pangenomických grafov pri zachovaní ich výpovednej hodnoty.
|
---|