Exploring regulatory evolution after whole genome duplication using machine learning

The Atlantic salmon underwent a whole-genome duplication 80 million years ago and has kept around half of the duplicated genes. Over time, some genes have become more active, while others have become less active, due to regulatory changes. This thesis explores if it is possible to separate these gen...

Full description

Bibliographic Details
Main Author: Bjørn, Tobias
Other Authors: Hvidsten, Torgeir, Sandve, Simen
Format: Master Thesis
Language:English
Published: Norwegian University of Life Sciences, Ås 2021
Subjects:
Online Access:https://hdl.handle.net/11250/2776425
Description
Summary:The Atlantic salmon underwent a whole-genome duplication 80 million years ago and has kept around half of the duplicated genes. Over time, some genes have become more active, while others have become less active, due to regulatory changes. This thesis explores if it is possible to separate these genes by the number of nearby transcription factor binding sites. With previously obtained information about the binding sites for different transcription factors for each gene and the direction of the expression level shift for this gene, a matrix was constructed containing the difference in bound transcription factor binding sites between the gene duplicates. One of the gene duplicates has a significant change in gene expression level, while the other is conserved. The duplicate pairs with increased expression in one copy are called upcons, and the pairs with decreased expression in one copy are called downcons. Multiple machine learning algorithms were tested to classify upcons vs downcons. Overall, support vector machines performed best, achieving an accuracy of 67%. In conclusion, the results are indicative that classification of the evolutionary direction of genes based on nearby transcription factor binding sites can be done. Atlanterhavslaksen gjennomgikk en helgenomduplisering for 80 millioner år siden og har beholdt rundt halvparten av de dupliserte genene. Noen gener har blitt mer avlest, mens andre har blitt avlest sjeldnere, dette grunnet endringer i reguleringen. Denne oppgaven vil undersøke om det er mulig å skille slike gener etter antallet bindingsseter transkripsjonsfaktorer har i nærheten av genene. Med tidligere innhentet informasjon om bundne bindingsseter for forskjellige transkripsjonsfaktorer for hvert gen og retningen på endringen for genuttrykksnivået for genet, ble en matrise laget som inneholdt forskjellen i bindingsseter mellom duplikatgenene. Det ene genet i duplikatparet har en signifikant endring i genuttrykksnivå, men ikke det andre. De parene hvor endringen er positiv, kalles «upcons», og de negative kalles «downcons». Flere maskinlæringsmetoder var testet i klassifikasjonen av «upcons» og «downcons». SVM var den metoden som gjorde det best. Den klarte å velge riktig i 67% av tilfellene. Konklusjonen er at det er gjennomførbart å klassifisere geners evolusjonære retning basert på transkripsjonsfaktorers bindingsseter. M-KB