Određivanje varijanti gena u populaciji više jedinki iz sekvenciranih očitanja varijabilne duljine

Tema ovog rada je implementacija vlastitog algoritma za pronalazak alela testiranog na očitanjima MHC gena jelena. Korištena je metoda grupiranja, pisana u programskom jeziku C++, dok je za učitavanje podataka korišten Python. Aleli, kao dijelovi genoma koji kodiraju osobine jedinke, mogu varirati š...

Full description

Bibliographic Details
Main Author: Lipovac, Matea
Other Authors: Križanović, Krešimir
Format: Bachelor Thesis
Language:Croatian
Published: Sveučilište u Zagrebu. Fakultet elektrotehnike i računarstva. 2022
Subjects:
Online Access:https://zir.nsk.hr/islandora/object/fer:9949
https://urn.nsk.hr/urn:nbn:hr:168:618276
https://repozitorij.unizg.hr/islandora/object/fer:9949
https://repozitorij.unizg.hr/islandora/object/fer:9949/datastream/PDF
Description
Summary:Tema ovog rada je implementacija vlastitog algoritma za pronalazak alela testiranog na očitanjima MHC gena jelena. Korištena je metoda grupiranja, pisana u programskom jeziku C++, dok je za učitavanje podataka korišten Python. Aleli, kao dijelovi genoma koji kodiraju osobine jedinke, mogu varirati što znači da za isto svojstvo ne mora postojati identičan slijed nukleotida. Stoga proces pronalaska alela nije tako trivijalan te je u ovom radu korištena metoda strojnog učenja, grupiranje, kako bismo ih pronašli. Sami aleli se računaju kao konsenzusi svih sekvenci koje pripadaju jednoj grupi, razvrstanih u iste temeljem Hammingove udaljenosti. Algoritam uspješno pronalazi vrlo zastupljene alele. Vanjski alat korišten u ovom radu je SPOA za poravnanje više sekvenci i određivanje konsenzusa. The aim of this paper is implementation of an algorithm for finding alleles tested on MHC deer genome fragments. The method used in this research is clustering, written in C++ programming language, while the data was parsed using Python. Alleles, or genome variant that encodes phenotypic traits, could vary, meaning for the same trait it is not mandatory that all individuals have an identical nucleotide sequence for it. Therefore, the process of finding alleles is not so trivial. An algorithm was implemented using machine learning method, clustering. The alleles themselves are calculated as consensus of all sequences from a group, assigned to it based on Hamming distance. External tool used in this paper was SPOA for multiple sequence alignment and generating consensus.