Određivanje varijanti gena u populaciji više jedinki iz sekvenciranih očitanja varijabilne duljine
Tema ovog rada je implementacija vlastitog algoritma za pronalazak alela testiranog na očitanjima MHC gena jelena. Korištena je metoda grupiranja, pisana u programskom jeziku C++, dok je za učitavanje podataka korišten Python. Aleli, kao dijelovi genoma koji kodiraju osobine jedinke, mogu varirati š...
Main Author: | |
---|---|
Other Authors: | |
Format: | Bachelor Thesis |
Language: | Croatian |
Published: |
Sveučilište u Zagrebu. Fakultet elektrotehnike i računarstva.
2022
|
Subjects: | |
Online Access: | https://zir.nsk.hr/islandora/object/fer:9949 https://urn.nsk.hr/urn:nbn:hr:168:618276 https://repozitorij.unizg.hr/islandora/object/fer:9949 https://repozitorij.unizg.hr/islandora/object/fer:9949/datastream/PDF |
Summary: | Tema ovog rada je implementacija vlastitog algoritma za pronalazak alela testiranog na očitanjima MHC gena jelena. Korištena je metoda grupiranja, pisana u programskom jeziku C++, dok je za učitavanje podataka korišten Python. Aleli, kao dijelovi genoma koji kodiraju osobine jedinke, mogu varirati što znači da za isto svojstvo ne mora postojati identičan slijed nukleotida. Stoga proces pronalaska alela nije tako trivijalan te je u ovom radu korištena metoda strojnog učenja, grupiranje, kako bismo ih pronašli. Sami aleli se računaju kao konsenzusi svih sekvenci koje pripadaju jednoj grupi, razvrstanih u iste temeljem Hammingove udaljenosti. Algoritam uspješno pronalazi vrlo zastupljene alele. Vanjski alat korišten u ovom radu je SPOA za poravnanje više sekvenci i određivanje konsenzusa. The aim of this paper is implementation of an algorithm for finding alleles tested on MHC deer genome fragments. The method used in this research is clustering, written in C++ programming language, while the data was parsed using Python. Alleles, or genome variant that encodes phenotypic traits, could vary, meaning for the same trait it is not mandatory that all individuals have an identical nucleotide sequence for it. Therefore, the process of finding alleles is not so trivial. An algorithm was implemented using machine learning method, clustering. The alleles themselves are calculated as consensus of all sequences from a group, assigned to it based on Hamming distance. External tool used in this paper was SPOA for multiple sequence alignment and generating consensus. |
---|