V tomto súbore sa nachádza popis priložených súborov, rovnako ako hlavné skripty využité pri získavaní výsledkov. Pre zostavenie Spades pre E.~coli sú priložené všetky potrebné dáta a skripty na rekonštrukciu ľubovoľného kroku, ktorý bol vykonávaný našim softvérom.


SÚBORY PRE E.~coli:
1.)Pôvodné dáta:
    - sekvencie: ref.fa, spades.fa, spades2.fa, spades3.fa, velvet.fa, velvet2.fa, 
    - krátke čítania: miseq_R1.fq.gz, miseq_R2.fq.gz
    - dlhé čítania: nanopore.fa
2.) Graf ku ktorému sme zarovnávali dáta: ecoli_graph.gfa
3.) Zarovnania k priloženému grafu:
    - dlhé čítania: ecoli_nanopore.json
    - Spades: ecoli_spades.json
4.) _rwp, _rwp_bp súbory pre dlhé čítania a Spades: 
    - ecoli_nanopore_rwp, ecoli_nanopore_rwp_bp
    - ecoli_spades_rwp, ecoli_spades_rwp_bp
5.) Výsledky hlavného algoritmu pre zostavenie Spades s použitým limitom 1:
    - ecoli_spades_cpp_l1
    - ecoli_spades_cpp_prob_l1
6.) Finálne súbory s netriedenými a nespájanými chybami pre limit 1:
    - ecoli_spades_new_final_l1.bed
    - ecoli_spades_new_final_l1.txt
    - ecoli_spades_problem_l1.txt

SÚBORY PRE KVASINKU:
Keďže sú dáta objemovo výrazne väčšie, prikladáme iba graf, ku ktorému sme sekvencie zarovnávali. Dáta je možné si stiahnuť z odkazu v použitej literatúre a zarovnať softvérom a postupom spomínaným v práci.
1.) Graf ku ktorému sme zarovnávali dáta: kvasinka_graph.gfa
2.) Ukážkový finálny výstup pre zostavenie Spades pre kvasinku pre limit 1 po všetkých filtráciach: kvasinka_spades_short_hom_l1.bed


SKRIPTY:
1.) json_parse_rwp.py - skript, ktorý z JSON zarovnania vytvorí _rwp súbor, vstupom sú tieto argumenty:
    - json zarovnanie
    - výstupný subor, musí končiť _rwp
Príklad použitia: python3 json_parse_rwp.py ./ecoli_nanopore.json ./ecoli_nanopore_rwp

2.) json_parse_rwp_bp_final.py - skript, ktorý z JSON zarovnania vytvorí _rwp_bp súbor, vstupom sú tieto argumenty:
    - json zarovnanie
    - výstupný súbor, musí končiť _rwp_bp
príklad použitia: python3 json_parse_rwp_bp.py ./ecoli_nanopore.json ./ecoli_nanopore_rwp_bp

3.) problem_pattern.cpp - skript, ktorý hľadá chyby (výstup je nutné dodatočne spracovať skriptom 4.)
Pred spúštaním je nutná kompilácia, odporúčame využiť optimalizáciu:
g++ -O2 problem_pattern.cpp -o problemcpp
Vstupné argumenty sú:
    - súbor _rwp pre dlhé čítania (alebo referenciu)
    - súbor _rwp pre skúmanú sekvenciu
    - výstupný priečinok
    - meno skúmanej sekvencie
    - limit na určenie chybovosti vzorov (ch_limit)
Príklad použitia: ./problemcpp ./ecoli_nanopore_rwp ./ecoli_spades_rwp ./ ecoli_spades 1

4.) python_final.py - skript na upravenie výstupu skriptu 3. do finálnej podoby. Vstupné argumenty: 
    - graf ku ktorému sme dáta zarovnávali
    - výstupný súbor _cpp_lX zo skriptu 3., kde X je limit
    - výstupný súbor _cpp_prob_lX zo skriptu 3., kde X je limit
    - súbor _rwp_bp pre skúmanú sekvenciu
    - výstupný priečinok
    - meno skúmanej sekvencie
    - použitý limit
Príklad použitia: python3 python_final.py ecoli_graph.gfa ./ecoli_spades_cpp_l1 ./ecoli_spades_prob_l1 ./ecoli_spades_rwp_bp ./ ecoli_spades 1


POSTUP PRÁCE S DÁTAMI:
V prípade zarovnania Spades pre E.~coli sú priložené všetky potrebné dáta na zrekonštruovanie výsledkov (alebo ľubovoľného kroku postupu) pomocou skriptov. V prípade kvasinky by pre rekonštrukciu dát bolo potrebné dáta stiahnuť a následne postupom spomínaným v práci zarovnať ku nami priloženému grafu. Následne by bola práca s výslednými zarovnaniami rovnaká.
1.) Využitie skriptov 1.) a 2.) na spracovanie zarovnaní dlhých čítaní (alebo referencie) a skúmanej sekvencie.
2.) Využitie skriptu 3.) na nájdenie chýb
3.) Využitie skriptu 4.) na spracovanie výsledkov skriptu 3.) do finálnej podoby
