Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov

Teoretična izhodišča: Sladkorna bolezen tipa 2 (SB2) je najpogostejša oblika sladkorne bolezni, predvsem v razvitih državah sveta. Za SB2 zboleva vedno več ljudi, in to zaradi neprimernega življenjskega stila, predvsem premalo fizične dejavnosti in nepravilnega prehranjevanja. Čeprav večina ljudi SB...

Full description

Bibliographic Details
Main Author: Kopitar, Leon
Other Authors: Štiglic, Gregor
Format: Master Thesis
Language:Slovenian
Published: L. Kopitar 2017
Subjects:
Kap
Online Access:https://dk.um.si/IzpisGradiva.php?id=67727
https://dk.um.si/Dokument.php?id=116442&dn=
https://plus.si.cobiss.net/opac7/bib/2355620?lang=sl
Description
Summary:Teoretična izhodišča: Sladkorna bolezen tipa 2 (SB2) je najpogostejša oblika sladkorne bolezni, predvsem v razvitih državah sveta. Za SB2 zboleva vedno več ljudi, in to zaradi neprimernega življenjskega stila, predvsem premalo fizične dejavnosti in nepravilnega prehranjevanja. Čeprav večina ljudi SB2 vidi kot samoumevno bolezen, ki se lahko pojavi v poznih letih, se mnogi ne zavedajo njene resnosti. SB2 predstavlja glavni vzrok za možgansko kap in bolezni srca. Poleg tega lahko privede do slepote, bolezni ledvic oziroma, v skrajnem primeru, tudi do smrti. S starostjo se tveganje za SB2 razumljivo povečuje, vendar pa lahko v veliki meri na povečanje tveganja vplivamo predvsem sami. Smrtnemu izidu so najbolj podvrženi bolniki s SB2, ki so bili hospitalizirani na enoti intenzivnega oddelka. Glavni namen magistrskega dela je bil preveriti vpliv najpogosteje ponavljajočih se korenov besed iz zapisov o zdravljenju bolnika na točnost napovednega modela za napoved preživetja bolnikov s SB2. Metodologija raziskovanja: Analize smo opravili na filtrirani podatkovni zbirki MIMIC-III, ki hrani skupno 4236 zapisov o bolnikih s SB2. Analize so bile izvedene s programskim jezikom R s pomočjo naslednjih klasifikatorjev: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regresija), XGBoost ter GBM. Rezultate smo evalvirali z Bootstrap metodo, ponovljeno 100-krat. Rezultati: Vsi napovedni modeli, zgrajeni na podatkih moškega vzorca, so bili v primerjavi z modeli, zgrajenimi na podatkih ženskega vzorca, statistično signifikantno uspešnejši pri napovedovanju umrljivosti bolnikov s SB2 (ΔAUC = +0,049, p < 0,001). Z uporabo bigramov se rezultati napovedne uspešnosti statistično ne razlikujejo (p > 0,001). Ne glede na spol se rezultati pri napovedovanju z vključenim kriterijem SAPS izboljšajo v primerjavi z napovedovanjem, če kriterij SAPS ni prisoten (ΔAUCŽenske = +0,0756, ΔAUCMoški = +0,082). Sklep: Napovedni model XGBoost je najprimernejši model za napovedovanje umrljivosti bolnikov s SB2. Prisotnost besed, ki se navezujejo na stimulacijo oziroma spodbujanje, starost, gibanje, neodzivnost in diagnozo intracerebralne krvavitve, ima največji vpliv na uspešno napovedovanje umrljivosti bolnikov s SB2. Z vključitvijo bigramov se uspešnost napovednih modelov ne izboljša signifikantno. Uporaba pogosto uporabljenega kriterija SAPS, ki temelji na fizioloških podatkih, ostaja primarno vodilo pri napovedovanju umrljivosti bolnikov s SB2. Theoretical basis: Type 2 diabetes mellitus (T2DM) is the most common form of diabetes, especially in developed countries around the world. More and more people are getting T2DM due to an unadapted lifestyle characterized by physical inactivity and an excessive caloric intake. Although most people see T2DMM as a self-evident illness that can occur in older age, many are unaware of its severity. T2DM is the main cause of stroke and heart disease. In addition, it can lead to blindness, kidney disease or ultimately to death. With age, the risk for T2D is rising, but we can, to a large extent, influence the increase in risk through our own life choices. The main purpose of this paper was to examine the impact of the most commonly-repeated words from the nursing notes on the accuracy of the predictive model for predicting the survival of patients with T2DM. Research methodology: The analyses were carried out on a filtered MIMIC-III database consisting a total of 4236 records of patients with T2D. The analyses were performed with the programming language R by using the following classifiers: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regression), XGBoost, and GBM. The results were evaluated with the Bootstrap method, repeated 100 times. Results: All predictive models built on male sample data were statistically significantly more successful in predicting the mortality of patients with T2DMM in comparison with models built on female sample data. By using bigrams, the results of predictive performance were not statistically different (p > 0,001). Regardless of gender, results of predictions including the SAPS criterion were better than results of predictions without the SAPS criterion (ΔAUCFemales = +0,0756, ΔAUCMales = +0,082). Conclusion: Results show that XGBoost predictive model is the most appropriate model for predicting mortality of patients with T2DM. The presence of words related to stimulation, age, movement, unresponsive and diagnosis of intracerebral haemorrhage have the greatest impact in the successful predictability of mortality of patients with T2D. By including bigrams, the performance of predictive models does not significantly improve.