Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov

Teoretična izhodišča: Sladkorna bolezen tipa 2 (SB2) je najpogostejša oblika sladkorne bolezni, predvsem v razvitih državah sveta. Za SB2 zboleva vedno več ljudi, in to zaradi neprimernega življenjskega stila, predvsem premalo fizične dejavnosti in nepravilnega prehranjevanja. Čeprav večina ljudi SB...

Full description

Bibliographic Details
Main Author: Kopitar, Leon
Other Authors: Štiglic, Gregor
Format: Master Thesis
Language:Slovenian
Published: L. Kopitar 2017
Subjects:
Online Access:https://dk.um.si/IzpisGradiva.php?id=67727
https://dk.um.si/Dokument.php?id=116442&dn=
https://plus.si.cobiss.net/opac7/bib/2355620?lang=sl
_version_ 1821701876320567296
author Kopitar, Leon
author2 Štiglic, Gregor
author_facet Kopitar, Leon
author_sort Kopitar, Leon
collection Digital Library of University of Maribor
description Teoretična izhodišča: Sladkorna bolezen tipa 2 (SB2) je najpogostejša oblika sladkorne bolezni, predvsem v razvitih državah sveta. Za SB2 zboleva vedno več ljudi, in to zaradi neprimernega življenjskega stila, predvsem premalo fizične dejavnosti in nepravilnega prehranjevanja. Čeprav večina ljudi SB2 vidi kot samoumevno bolezen, ki se lahko pojavi v poznih letih, se mnogi ne zavedajo njene resnosti. SB2 predstavlja glavni vzrok za možgansko kap in bolezni srca. Poleg tega lahko privede do slepote, bolezni ledvic oziroma, v skrajnem primeru, tudi do smrti. S starostjo se tveganje za SB2 razumljivo povečuje, vendar pa lahko v veliki meri na povečanje tveganja vplivamo predvsem sami. Smrtnemu izidu so najbolj podvrženi bolniki s SB2, ki so bili hospitalizirani na enoti intenzivnega oddelka. Glavni namen magistrskega dela je bil preveriti vpliv najpogosteje ponavljajočih se korenov besed iz zapisov o zdravljenju bolnika na točnost napovednega modela za napoved preživetja bolnikov s SB2. Metodologija raziskovanja: Analize smo opravili na filtrirani podatkovni zbirki MIMIC-III, ki hrani skupno 4236 zapisov o bolnikih s SB2. Analize so bile izvedene s programskim jezikom R s pomočjo naslednjih klasifikatorjev: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regresija), XGBoost ter GBM. Rezultate smo evalvirali z Bootstrap metodo, ponovljeno 100-krat. Rezultati: Vsi napovedni modeli, zgrajeni na podatkih moškega vzorca, so bili v primerjavi z modeli, zgrajenimi na podatkih ženskega vzorca, statistično signifikantno uspešnejši pri napovedovanju umrljivosti bolnikov s SB2 (ΔAUC = +0,049, p < 0,001). Z uporabo bigramov se rezultati napovedne uspešnosti statistično ne razlikujejo (p > 0,001). Ne glede na spol se rezultati pri napovedovanju z vključenim kriterijem SAPS izboljšajo v primerjavi z napovedovanjem, če kriterij SAPS ni prisoten (ΔAUCŽenske = +0,0756, ΔAUCMoški = +0,082). Sklep: Napovedni model XGBoost je najprimernejši model za napovedovanje umrljivosti bolnikov s SB2. Prisotnost besed, ki se navezujejo na stimulacijo oziroma spodbujanje, starost, gibanje, neodzivnost in diagnozo intracerebralne krvavitve, ima največji vpliv na uspešno napovedovanje umrljivosti bolnikov s SB2. Z vključitvijo bigramov se uspešnost napovednih modelov ne izboljša signifikantno. Uporaba pogosto uporabljenega kriterija SAPS, ki temelji na fizioloških podatkih, ostaja primarno vodilo pri napovedovanju umrljivosti bolnikov s SB2. Theoretical basis: Type 2 diabetes mellitus (T2DM) is the most common form of diabetes, especially in developed countries around the world. More and more people are getting T2DM due to an unadapted lifestyle characterized by physical inactivity and an excessive caloric intake. Although most people see T2DMM as a self-evident illness that can occur in older age, many are unaware of its severity. T2DM is the main cause of stroke and heart disease. In addition, it can lead to blindness, kidney disease or ultimately to death. With age, the risk for T2D is rising, but we can, to a large extent, influence the increase in risk through our own life choices. The main purpose of this paper was to examine the impact of the most commonly-repeated words from the nursing notes on the accuracy of the predictive model for predicting the survival of patients with T2DM. Research methodology: The analyses were carried out on a filtered MIMIC-III database consisting a total of 4236 records of patients with T2D. The analyses were performed with the programming language R by using the following classifiers: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regression), XGBoost, and GBM. The results were evaluated with the Bootstrap method, repeated 100 times. Results: All predictive models built on male sample data were statistically significantly more successful in predicting the mortality of patients with T2DMM in comparison with models built on female sample data. By using bigrams, the results of predictive performance were not statistically different (p > 0,001). Regardless of gender, results of predictions including the SAPS criterion were better than results of predictions without the SAPS criterion (ΔAUCFemales = +0,0756, ΔAUCMales = +0,082). Conclusion: Results show that XGBoost predictive model is the most appropriate model for predicting mortality of patients with T2DM. The presence of words related to stimulation, age, movement, unresponsive and diagnosis of intracerebral haemorrhage have the greatest impact in the successful predictability of mortality of patients with T2D. By including bigrams, the performance of predictive models does not significantly improve.
format Master Thesis
genre sami
genre_facet sami
geographic Kap
geographic_facet Kap
id ftunivmaribor:oai:dk.um.si:IzpisGradiva.php-id-67727
institution Open Polar
language Slovenian
long_lat ENVELOPE(23.567,23.567,65.533,65.533)
op_collection_id ftunivmaribor
op_rights http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
op_rightsnorm CC-BY-NC-ND
op_source Maribor
publishDate 2017
publisher L. Kopitar
record_format openpolar
spelling ftunivmaribor:oai:dk.um.si:IzpisGradiva.php-id-67727 2025-01-17T00:39:27+00:00 Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov Predictive modeling using structured and unstructured data Kopitar, Leon Štiglic, Gregor 2017-10-10 application/pdf https://dk.um.si/IzpisGradiva.php?id=67727 https://dk.um.si/Dokument.php?id=116442&dn= https://plus.si.cobiss.net/opac7/bib/2355620?lang=sl slv slv L. Kopitar http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess CC-BY-NC-ND Maribor sladkorna bolezen tipa 2 napovedni modeli zapisi medicinskih sester Type 2 Diabetes predictive modelling nursing notes info:eu-repo/classification/udc/616.379-008.64(043.2) info:eu-repo/semantics/masterThesis info:eu-repo/semantics/publishedVersion 2017 ftunivmaribor 2019-02-03T16:46:37Z Teoretična izhodišča: Sladkorna bolezen tipa 2 (SB2) je najpogostejša oblika sladkorne bolezni, predvsem v razvitih državah sveta. Za SB2 zboleva vedno več ljudi, in to zaradi neprimernega življenjskega stila, predvsem premalo fizične dejavnosti in nepravilnega prehranjevanja. Čeprav večina ljudi SB2 vidi kot samoumevno bolezen, ki se lahko pojavi v poznih letih, se mnogi ne zavedajo njene resnosti. SB2 predstavlja glavni vzrok za možgansko kap in bolezni srca. Poleg tega lahko privede do slepote, bolezni ledvic oziroma, v skrajnem primeru, tudi do smrti. S starostjo se tveganje za SB2 razumljivo povečuje, vendar pa lahko v veliki meri na povečanje tveganja vplivamo predvsem sami. Smrtnemu izidu so najbolj podvrženi bolniki s SB2, ki so bili hospitalizirani na enoti intenzivnega oddelka. Glavni namen magistrskega dela je bil preveriti vpliv najpogosteje ponavljajočih se korenov besed iz zapisov o zdravljenju bolnika na točnost napovednega modela za napoved preživetja bolnikov s SB2. Metodologija raziskovanja: Analize smo opravili na filtrirani podatkovni zbirki MIMIC-III, ki hrani skupno 4236 zapisov o bolnikih s SB2. Analize so bile izvedene s programskim jezikom R s pomočjo naslednjih klasifikatorjev: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regresija), XGBoost ter GBM. Rezultate smo evalvirali z Bootstrap metodo, ponovljeno 100-krat. Rezultati: Vsi napovedni modeli, zgrajeni na podatkih moškega vzorca, so bili v primerjavi z modeli, zgrajenimi na podatkih ženskega vzorca, statistično signifikantno uspešnejši pri napovedovanju umrljivosti bolnikov s SB2 (ΔAUC = +0,049, p < 0,001). Z uporabo bigramov se rezultati napovedne uspešnosti statistično ne razlikujejo (p > 0,001). Ne glede na spol se rezultati pri napovedovanju z vključenim kriterijem SAPS izboljšajo v primerjavi z napovedovanjem, če kriterij SAPS ni prisoten (ΔAUCŽenske = +0,0756, ΔAUCMoški = +0,082). Sklep: Napovedni model XGBoost je najprimernejši model za napovedovanje umrljivosti bolnikov s SB2. Prisotnost besed, ki se navezujejo na stimulacijo oziroma spodbujanje, starost, gibanje, neodzivnost in diagnozo intracerebralne krvavitve, ima največji vpliv na uspešno napovedovanje umrljivosti bolnikov s SB2. Z vključitvijo bigramov se uspešnost napovednih modelov ne izboljša signifikantno. Uporaba pogosto uporabljenega kriterija SAPS, ki temelji na fizioloških podatkih, ostaja primarno vodilo pri napovedovanju umrljivosti bolnikov s SB2. Theoretical basis: Type 2 diabetes mellitus (T2DM) is the most common form of diabetes, especially in developed countries around the world. More and more people are getting T2DM due to an unadapted lifestyle characterized by physical inactivity and an excessive caloric intake. Although most people see T2DMM as a self-evident illness that can occur in older age, many are unaware of its severity. T2DM is the main cause of stroke and heart disease. In addition, it can lead to blindness, kidney disease or ultimately to death. With age, the risk for T2D is rising, but we can, to a large extent, influence the increase in risk through our own life choices. The main purpose of this paper was to examine the impact of the most commonly-repeated words from the nursing notes on the accuracy of the predictive model for predicting the survival of patients with T2DM. Research methodology: The analyses were carried out on a filtered MIMIC-III database consisting a total of 4236 records of patients with T2D. The analyses were performed with the programming language R by using the following classifiers: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regression), XGBoost, and GBM. The results were evaluated with the Bootstrap method, repeated 100 times. Results: All predictive models built on male sample data were statistically significantly more successful in predicting the mortality of patients with T2DMM in comparison with models built on female sample data. By using bigrams, the results of predictive performance were not statistically different (p > 0,001). Regardless of gender, results of predictions including the SAPS criterion were better than results of predictions without the SAPS criterion (ΔAUCFemales = +0,0756, ΔAUCMales = +0,082). Conclusion: Results show that XGBoost predictive model is the most appropriate model for predicting mortality of patients with T2DM. The presence of words related to stimulation, age, movement, unresponsive and diagnosis of intracerebral haemorrhage have the greatest impact in the successful predictability of mortality of patients with T2D. By including bigrams, the performance of predictive models does not significantly improve. Master Thesis sami Digital Library of University of Maribor Kap ENVELOPE(23.567,23.567,65.533,65.533)
spellingShingle sladkorna bolezen tipa 2
napovedni modeli
zapisi medicinskih sester
Type 2 Diabetes
predictive modelling
nursing notes
info:eu-repo/classification/udc/616.379-008.64(043.2)
Kopitar, Leon
Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_full Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_fullStr Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_full_unstemmed Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_short Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_sort gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
topic sladkorna bolezen tipa 2
napovedni modeli
zapisi medicinskih sester
Type 2 Diabetes
predictive modelling
nursing notes
info:eu-repo/classification/udc/616.379-008.64(043.2)
topic_facet sladkorna bolezen tipa 2
napovedni modeli
zapisi medicinskih sester
Type 2 Diabetes
predictive modelling
nursing notes
info:eu-repo/classification/udc/616.379-008.64(043.2)
url https://dk.um.si/IzpisGradiva.php?id=67727
https://dk.um.si/Dokument.php?id=116442&dn=
https://plus.si.cobiss.net/opac7/bib/2355620?lang=sl