KATIHA-tilastosovellus : Väestötieteellisen tietokanta-aineiston tilastolliset vaatimukset

Opinnäytetyö tehtiin Karjala-tietokannan tilastosovelluksen ohjelmoinnin ja testauksen tueksi. Tilastosovelluksen laatimisen taustalla oli tarve tarjota luovutetun alueen väestötietoja tieteellisen tutkimuksen lähdeaineistoksi. Karjala-tietokantaan jo tallennetut 9 miljoonaa henkilömerkintää vuosilt...

Full description

Bibliographic Details
Main Author: Soivanen, Satu
Other Authors: Mikkelin ammattikorkeakoulu
Format: Other/Unknown Material
Language:Finnish
Published: Mikkelin ammattikorkeakoulu 2011
Subjects:
Online Access:http://www.theseus.fi/handle/10024/36955
Description
Summary:Opinnäytetyö tehtiin Karjala-tietokannan tilastosovelluksen ohjelmoinnin ja testauksen tueksi. Tilastosovelluksen laatimisen taustalla oli tarve tarjota luovutetun alueen väestötietoja tieteellisen tutkimuksen lähdeaineistoksi. Karjala-tietokantaan jo tallennetut 9 miljoonaa henkilömerkintää vuosilta 1680−1950 antoivat perustellun lähtökohdan tilastollisten laskelmien toteuttamiselle. KATIHA-tilastosovelluksen suunnitteluvaiheessa todettiin, että tietokanta-aineisto sisältää rippi- ja lastenkirjojen lisäksi 70 seurakunnan syntyneiden, kuolleiden, vihittyjen ja muuttaneiden luettelot. Samalla tiedostettiin, että kirkollisten luetteloiden tiedoista voidaan demografisia tutkimusmenetelmiä käyttäen tutkia sekä väestön määrää ja rakennetta että väestön muutoksia. Tiedon käsittelyssä tutkijoiden valittavana havaittiin olevan kolme tilastollista menetelmää: tilastollinen tiivistäminen, päättely ja mallintaminen. Opinnäytetyössä sovellettiin tilastolliseen päättelyyn sisältyvää hypoteesin menetelmän loogisen rekonstruktion mallia tietokanta-aineiston kuolinsyiden luokittelussa. Historiallisten kuolinsyiden luokittelun apuna käytettiin mm. digitoituja sanakirjoja vuosilta 1801 ja 1859. Manuaalisen 120 tuntia kestäneen kuolinsyiden koodaamisen lisäksi toteutettiin ohjelmallinen luokitus sekä ammattien että kuolinsyiden osalta. Ammattinimikkeitä oli jo aiemmin luokiteltu kansainvälisen HISCO-luokituksen mukaisesti. Kuolinsyiden luokituksen perustaksi oli 10 vuotta sitten valittu kuolemansyynimistö vuodelta 1935. Luokituksissa käytetyistä koodistoista dokumentoitiin metatiedot JHS Koodistot ja luokitukset –suositusluonnoksen mukaisesti. Lisäksi luokituksille ja koodistoille määriteltiin laatuvaatimukset. Lopuksi todettiin, että tilastosovelluksen tietokanta-aineiston luokittelua täytyy vielä täydentää ja kehittää esim. hierarkkisten koodistojen suuntaan. Ammattien osalta mallia voisi ottaa EU:n tilastoviranomaisten ohjeistuksen mukaan laaditusta JHS 150 Ammattiluokitus –suosituksesta. Kuolinsyiden koodistoa voitaisiin puolestaan kehittää WHO:n julkaiseman ICD-10 –tautinimistön ryhmittelyn pohjalta. This master’s thesis was drawn up to support the programming and testing of the statistics program of Karelian Database due to the need to offer demographic data of the Karelia for researchers’ use. The 9 million already recorded person data records from the years between 1680 and 1950 gave a reason and a starting point for producing the statistical calculations of Karelian Database. During the planning of the KATIHA Statistics Program three relevant aspects came up. First, the database material besides catechetical registers and children books also consisted of parish registers on births, deaths, marriages and the migration of 70 parishes. Second, the demographic methods could be used to study parish registers for finding out quantities and structures of the population and its demographic events. Third, three statistical products could be found after processing the data i.e. summaries, conclusions and models. The method used in this master’s thesis was the logical reconstruction of hypothesis in which the conclusion had to be drawn up before the process of analyzing the data. This method was applied to practice in the classification of causes of death. Historical causes of death were classified by using, for instance, digitalized dictionaries from the years 1801 and 1859. The manual classification took about 120 hours after which also an automatic classification for causes of death and occupations was planned and tested. The occupations in the database material were coded by using the international HISCO classification. Ten years earlier the disease terminology from the year 1935 was chosen to be the basis for coding the causes of death. The metadata of the classifications of Karelian Database were documented by following the instructions of the JHS Classification and Codes. The quality requirements of classifications were also determined. Finally, when completing this work it appeared that the classification work had to be continued and developed further. One method to progress to this direction is the idea to make the codes more useful by creating new groups within them. The models of hierarchic codes could be found e.g. either in JHS Number 150 which consists of the references of the classification of occupations or in ICD-10 which is the international classification of diseases published by WHO.