Meno:Peter
Priezvisko:Nather
Názov:N-Gram based Text Categorization
Vedúci:Mgr. Jan Habdak
Rok:2005
Blok:UI
Kµúčové slová:N-gram, text categorization, text clusterization
Abstrakt:V mojej praci som sa povodne pokusal zlepsit system na automaticku kategorizaciu textov, zalozeny na baze porovnavani sekvencii znakov(N-gramo). Nakolko som vsak neziskal pristup k potrebnym datam, navrhol som system na clusterizaciu, cize roztriedenie dokumentov na zaklade ich podobnosti. Zakladom systemu je tiez pouzitie N-gramov. Cely system som testoval na sade anglickych knih a dosiahol som pomerne zaujimave vysledky.

Súbory diplomovej práce:

textcat.zip
Ng-based-tc.pdf