Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov

Teoretična izhodišča: Sladkorna bolezen tipa 2 (SB2) je najpogostejša oblika sladkorne bolezni, predvsem v razvitih državah sveta. Za SB2 zboleva vedno več ljudi, in to zaradi neprimernega življenjskega stila, predvsem premalo fizične dejavnosti in nepravilnega prehranjevanja. Čeprav večina ljudi SB...

Full description

Bibliographic Details
Main Author:	Kopitar, Leon
Other Authors:	Štiglic, Gregor
Format:	Master Thesis
Language:	Slovenian
Published:	L. Kopitar 2017
Subjects:	sladkorna bolezen tipa 2 napovedni modeli zapisi medicinskih sester Type 2 Diabetes predictive modelling nursing notes info:eu-repo/classification/udc/616.379-008.64(043.2) Kap sami
Online Access:	https://dk.um.si/IzpisGradiva.php?id=67727 https://dk.um.si/Dokument.php?id=116442&dn= https://plus.si.cobiss.net/opac7/bib/2355620?lang=sl

_version_	1821701876320567296
author	Kopitar, Leon
author2	Štiglic, Gregor
author_facet	Kopitar, Leon
author_sort	Kopitar, Leon
collection	Digital Library of University of Maribor
description	Teoretična izhodišča: Sladkorna bolezen tipa 2 (SB2) je najpogostejša oblika sladkorne bolezni, predvsem v razvitih državah sveta. Za SB2 zboleva vedno več ljudi, in to zaradi neprimernega življenjskega stila, predvsem premalo fizične dejavnosti in nepravilnega prehranjevanja. Čeprav večina ljudi SB2 vidi kot samoumevno bolezen, ki se lahko pojavi v poznih letih, se mnogi ne zavedajo njene resnosti. SB2 predstavlja glavni vzrok za možgansko kap in bolezni srca. Poleg tega lahko privede do slepote, bolezni ledvic oziroma, v skrajnem primeru, tudi do smrti. S starostjo se tveganje za SB2 razumljivo povečuje, vendar pa lahko v veliki meri na povečanje tveganja vplivamo predvsem sami. Smrtnemu izidu so najbolj podvrženi bolniki s SB2, ki so bili hospitalizirani na enoti intenzivnega oddelka. Glavni namen magistrskega dela je bil preveriti vpliv najpogosteje ponavljajočih se korenov besed iz zapisov o zdravljenju bolnika na točnost napovednega modela za napoved preživetja bolnikov s SB2. Metodologija raziskovanja: Analize smo opravili na filtrirani podatkovni zbirki MIMIC-III, ki hrani skupno 4236 zapisov o bolnikih s SB2. Analize so bile izvedene s programskim jezikom R s pomočjo naslednjih klasifikatorjev: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regresija), XGBoost ter GBM. Rezultate smo evalvirali z Bootstrap metodo, ponovljeno 100-krat. Rezultati: Vsi napovedni modeli, zgrajeni na podatkih moškega vzorca, so bili v primerjavi z modeli, zgrajenimi na podatkih ženskega vzorca, statistično signifikantno uspešnejši pri napovedovanju umrljivosti bolnikov s SB2 (ΔAUC = +0,049, p < 0,001). Z uporabo bigramov se rezultati napovedne uspešnosti statistično ne razlikujejo (p > 0,001). Ne glede na spol se rezultati pri napovedovanju z vključenim kriterijem SAPS izboljšajo v primerjavi z napovedovanjem, če kriterij SAPS ni prisoten (ΔAUCŽenske = +0,0756, ΔAUCMoški = +0,082). Sklep: Napovedni model XGBoost je najprimernejši model za napovedovanje umrljivosti bolnikov s SB2. Prisotnost besed, ki se navezujejo na stimulacijo oziroma spodbujanje, starost, gibanje, neodzivnost in diagnozo intracerebralne krvavitve, ima največji vpliv na uspešno napovedovanje umrljivosti bolnikov s SB2. Z vključitvijo bigramov se uspešnost napovednih modelov ne izboljša signifikantno. Uporaba pogosto uporabljenega kriterija SAPS, ki temelji na fizioloških podatkih, ostaja primarno vodilo pri napovedovanju umrljivosti bolnikov s SB2. Theoretical basis: Type 2 diabetes mellitus (T2DM) is the most common form of diabetes, especially in developed countries around the world. More and more people are getting T2DM due to an unadapted lifestyle characterized by physical inactivity and an excessive caloric intake. Although most people see T2DMM as a self-evident illness that can occur in older age, many are unaware of its severity. T2DM is the main cause of stroke and heart disease. In addition, it can lead to blindness, kidney disease or ultimately to death. With age, the risk for T2D is rising, but we can, to a large extent, influence the increase in risk through our own life choices. The main purpose of this paper was to examine the impact of the most commonly-repeated words from the nursing notes on the accuracy of the predictive model for predicting the survival of patients with T2DM. Research methodology: The analyses were carried out on a filtered MIMIC-III database consisting a total of 4236 records of patients with T2D. The analyses were performed with the programming language R by using the following classifiers: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regression), XGBoost, and GBM. The results were evaluated with the Bootstrap method, repeated 100 times. Results: All predictive models built on male sample data were statistically significantly more successful in predicting the mortality of patients with T2DMM in comparison with models built on female sample data. By using bigrams, the results of predictive performance were not statistically different (p > 0,001). Regardless of gender, results of predictions including the SAPS criterion were better than results of predictions without the SAPS criterion (ΔAUCFemales = +0,0756, ΔAUCMales = +0,082). Conclusion: Results show that XGBoost predictive model is the most appropriate model for predicting mortality of patients with T2DM. The presence of words related to stimulation, age, movement, unresponsive and diagnosis of intracerebral haemorrhage have the greatest impact in the successful predictability of mortality of patients with T2D. By including bigrams, the performance of predictive models does not significantly improve.
format	Master Thesis
genre	sami
genre_facet	sami
geographic	Kap
geographic_facet	Kap
id	ftunivmaribor:oai:dk.um.si:IzpisGradiva.php-id-67727
institution	Open Polar
language	Slovenian
long_lat	ENVELOPE(23.567,23.567,65.533,65.533)
op_collection_id	ftunivmaribor
op_rights	http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess
op_rightsnorm	CC-BY-NC-ND
op_source	Maribor
publishDate	2017
publisher	L. Kopitar
record_format	openpolar
spelling	ftunivmaribor:oai:dk.um.si:IzpisGradiva.php-id-67727 2025-01-17T00:39:27+00:00 Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov Predictive modeling using structured and unstructured data Kopitar, Leon Štiglic, Gregor 2017-10-10 application/pdf https://dk.um.si/IzpisGradiva.php?id=67727 https://dk.um.si/Dokument.php?id=116442&dn= https://plus.si.cobiss.net/opac7/bib/2355620?lang=sl slv slv L. Kopitar http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess CC-BY-NC-ND Maribor sladkorna bolezen tipa 2 napovedni modeli zapisi medicinskih sester Type 2 Diabetes predictive modelling nursing notes info:eu-repo/classification/udc/616.379-008.64(043.2) info:eu-repo/semantics/masterThesis info:eu-repo/semantics/publishedVersion 2017 ftunivmaribor 2019-02-03T16:46:37Z Teoretična izhodišča: Sladkorna bolezen tipa 2 (SB2) je najpogostejša oblika sladkorne bolezni, predvsem v razvitih državah sveta. Za SB2 zboleva vedno več ljudi, in to zaradi neprimernega življenjskega stila, predvsem premalo fizične dejavnosti in nepravilnega prehranjevanja. Čeprav večina ljudi SB2 vidi kot samoumevno bolezen, ki se lahko pojavi v poznih letih, se mnogi ne zavedajo njene resnosti. SB2 predstavlja glavni vzrok za možgansko kap in bolezni srca. Poleg tega lahko privede do slepote, bolezni ledvic oziroma, v skrajnem primeru, tudi do smrti. S starostjo se tveganje za SB2 razumljivo povečuje, vendar pa lahko v veliki meri na povečanje tveganja vplivamo predvsem sami. Smrtnemu izidu so najbolj podvrženi bolniki s SB2, ki so bili hospitalizirani na enoti intenzivnega oddelka. Glavni namen magistrskega dela je bil preveriti vpliv najpogosteje ponavljajočih se korenov besed iz zapisov o zdravljenju bolnika na točnost napovednega modela za napoved preživetja bolnikov s SB2. Metodologija raziskovanja: Analize smo opravili na filtrirani podatkovni zbirki MIMIC-III, ki hrani skupno 4236 zapisov o bolnikih s SB2. Analize so bile izvedene s programskim jezikom R s pomočjo naslednjih klasifikatorjev: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regresija), XGBoost ter GBM. Rezultate smo evalvirali z Bootstrap metodo, ponovljeno 100-krat. Rezultati: Vsi napovedni modeli, zgrajeni na podatkih moškega vzorca, so bili v primerjavi z modeli, zgrajenimi na podatkih ženskega vzorca, statistično signifikantno uspešnejši pri napovedovanju umrljivosti bolnikov s SB2 (ΔAUC = +0,049, p < 0,001). Z uporabo bigramov se rezultati napovedne uspešnosti statistično ne razlikujejo (p > 0,001). Ne glede na spol se rezultati pri napovedovanju z vključenim kriterijem SAPS izboljšajo v primerjavi z napovedovanjem, če kriterij SAPS ni prisoten (ΔAUCŽenske = +0,0756, ΔAUCMoški = +0,082). Sklep: Napovedni model XGBoost je najprimernejši model za napovedovanje umrljivosti bolnikov s SB2. Prisotnost besed, ki se navezujejo na stimulacijo oziroma spodbujanje, starost, gibanje, neodzivnost in diagnozo intracerebralne krvavitve, ima največji vpliv na uspešno napovedovanje umrljivosti bolnikov s SB2. Z vključitvijo bigramov se uspešnost napovednih modelov ne izboljša signifikantno. Uporaba pogosto uporabljenega kriterija SAPS, ki temelji na fizioloških podatkih, ostaja primarno vodilo pri napovedovanju umrljivosti bolnikov s SB2. Theoretical basis: Type 2 diabetes mellitus (T2DM) is the most common form of diabetes, especially in developed countries around the world. More and more people are getting T2DM due to an unadapted lifestyle characterized by physical inactivity and an excessive caloric intake. Although most people see T2DMM as a self-evident illness that can occur in older age, many are unaware of its severity. T2DM is the main cause of stroke and heart disease. In addition, it can lead to blindness, kidney disease or ultimately to death. With age, the risk for T2D is rising, but we can, to a large extent, influence the increase in risk through our own life choices. The main purpose of this paper was to examine the impact of the most commonly-repeated words from the nursing notes on the accuracy of the predictive model for predicting the survival of patients with T2DM. Research methodology: The analyses were carried out on a filtered MIMIC-III database consisting a total of 4236 records of patients with T2D. The analyses were performed with the programming language R by using the following classifiers: Random Forest, Single C5.0 Ruleset, Glmnet (Lasso regression), XGBoost, and GBM. The results were evaluated with the Bootstrap method, repeated 100 times. Results: All predictive models built on male sample data were statistically significantly more successful in predicting the mortality of patients with T2DMM in comparison with models built on female sample data. By using bigrams, the results of predictive performance were not statistically different (p > 0,001). Regardless of gender, results of predictions including the SAPS criterion were better than results of predictions without the SAPS criterion (ΔAUCFemales = +0,0756, ΔAUCMales = +0,082). Conclusion: Results show that XGBoost predictive model is the most appropriate model for predicting mortality of patients with T2DM. The presence of words related to stimulation, age, movement, unresponsive and diagnosis of intracerebral haemorrhage have the greatest impact in the successful predictability of mortality of patients with T2D. By including bigrams, the performance of predictive models does not significantly improve. Master Thesis sami Digital Library of University of Maribor Kap ENVELOPE(23.567,23.567,65.533,65.533)
spellingShingle	sladkorna bolezen tipa 2 napovedni modeli zapisi medicinskih sester Type 2 Diabetes predictive modelling nursing notes info:eu-repo/classification/udc/616.379-008.64(043.2) Kopitar, Leon Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title	Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_full	Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_fullStr	Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_full_unstemmed	Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_short	Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
title_sort	gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov
topic	sladkorna bolezen tipa 2 napovedni modeli zapisi medicinskih sester Type 2 Diabetes predictive modelling nursing notes info:eu-repo/classification/udc/616.379-008.64(043.2)
topic_facet	sladkorna bolezen tipa 2 napovedni modeli zapisi medicinskih sester Type 2 Diabetes predictive modelling nursing notes info:eu-repo/classification/udc/616.379-008.64(043.2)
url	https://dk.um.si/IzpisGradiva.php?id=67727 https://dk.um.si/Dokument.php?id=116442&dn= https://plus.si.cobiss.net/opac7/bib/2355620?lang=sl

Gradnja napovednih modelov s pomočjo strukturiranih in nestrukturiranih podatkovnih virov

Similar Items