Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation

Þessi lokaritgerð lýsir aðferðafræði sem beita má við rannsóknir á stafrænum samskiptagögnum milli einstaklinga. Tilgangur þessa ramma er að gefa aðilum réttarrannsókna betra yfirlit yfir það gríðarmikla magn samskiptagagna sem jafnan er safnað fyrir réttarrannsóknir. Kveikjan að þessari vinnu er þa...

Full description

Bibliographic Details
Main Author: Sæmundur Óskar Haraldsson 1981-
Other Authors: Háskóli Íslands
Format: Thesis
Language:English
Published: 2012
Subjects:
Online Access:http://hdl.handle.net/1946/12785
id ftskemman:oai:skemman.is:1946/12785
record_format openpolar
spelling ftskemman:oai:skemman.is:1946/12785 2023-05-15T16:51:30+02:00 Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation Hálfsjálfvirk greining á stórum gagnasöfnum textaskjala fyrir sakarannsókn Sæmundur Óskar Haraldsson 1981- Háskóli Íslands 2012-09 application/pdf http://hdl.handle.net/1946/12785 en eng http://notendur.hi.is/~soh9 http://hdl.handle.net/1946/12785 Iðnaðarverkfræði Rafræn gögn Aðferðafræði Sakamálaréttarfar Klasagreining Thesis Master's 2012 ftskemman 2022-12-11T06:54:53Z Þessi lokaritgerð lýsir aðferðafræði sem beita má við rannsóknir á stafrænum samskiptagögnum milli einstaklinga. Tilgangur þessa ramma er að gefa aðilum réttarrannsókna betra yfirlit yfir það gríðarmikla magn samskiptagagna sem jafnan er safnað fyrir réttarrannsóknir. Kveikjan að þessari vinnu er það magn gagna sem safnað hefur verið á Íslandi frá falli bankanna. Ramminn kallast SALTeD og er samsettur af þremur hlutum, forvinnu gagna og einkennavali,klasagreiningu og að lokum virkri samfélags netgreiningu. Þessum hlutum er fléttað saman á einstakan máta til að aðstoða við rannsókn á samskiptanetum og uppgötva nýstárleg samskiptamynstur. Aðferðafræðin er prófuð á raunverulegum gögnum, þar á meðal vefpóstasafni Enron Corp. sem gert var upptækt við rannsókn á fjármálamisferli stjórnenda þess. This thesis establishes a framework for investigating digital communication between individuals in a semi-automatic manner. The purpose of this framework is to give forensics investigators a better oversight over the vast amount of communication data commonly confiscated in a crime investigation. The motivation for this work is the vast amount of data collected in Iceland with the fall of their banks. The framework established, termed SALTeD, is composed of 3 main components; data pre-processing and feature selection, cluster analysis, and finally dynamic social network analysis. These components are integrated in a unique manner to give the investigator a semi-automated way of investigating communication networks and discover new and novel patterns of communication. The framework is tested on collected real world data, including the Enron Corp. emails, confiscated by detectives investigating the Enron fraud case. Thesis Iceland Skemman (Iceland) Vinnu ENVELOPE(8.669,8.669,62.665,62.665)
institution Open Polar
collection Skemman (Iceland)
op_collection_id ftskemman
language English
topic Iðnaðarverkfræði
Rafræn gögn
Aðferðafræði
Sakamálaréttarfar
Klasagreining
spellingShingle Iðnaðarverkfræði
Rafræn gögn
Aðferðafræði
Sakamálaréttarfar
Klasagreining
Sæmundur Óskar Haraldsson 1981-
Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation
topic_facet Iðnaðarverkfræði
Rafræn gögn
Aðferðafræði
Sakamálaréttarfar
Klasagreining
description Þessi lokaritgerð lýsir aðferðafræði sem beita má við rannsóknir á stafrænum samskiptagögnum milli einstaklinga. Tilgangur þessa ramma er að gefa aðilum réttarrannsókna betra yfirlit yfir það gríðarmikla magn samskiptagagna sem jafnan er safnað fyrir réttarrannsóknir. Kveikjan að þessari vinnu er það magn gagna sem safnað hefur verið á Íslandi frá falli bankanna. Ramminn kallast SALTeD og er samsettur af þremur hlutum, forvinnu gagna og einkennavali,klasagreiningu og að lokum virkri samfélags netgreiningu. Þessum hlutum er fléttað saman á einstakan máta til að aðstoða við rannsókn á samskiptanetum og uppgötva nýstárleg samskiptamynstur. Aðferðafræðin er prófuð á raunverulegum gögnum, þar á meðal vefpóstasafni Enron Corp. sem gert var upptækt við rannsókn á fjármálamisferli stjórnenda þess. This thesis establishes a framework for investigating digital communication between individuals in a semi-automatic manner. The purpose of this framework is to give forensics investigators a better oversight over the vast amount of communication data commonly confiscated in a crime investigation. The motivation for this work is the vast amount of data collected in Iceland with the fall of their banks. The framework established, termed SALTeD, is composed of 3 main components; data pre-processing and feature selection, cluster analysis, and finally dynamic social network analysis. These components are integrated in a unique manner to give the investigator a semi-automated way of investigating communication networks and discover new and novel patterns of communication. The framework is tested on collected real world data, including the Enron Corp. emails, confiscated by detectives investigating the Enron fraud case.
author2 Háskóli Íslands
format Thesis
author Sæmundur Óskar Haraldsson 1981-
author_facet Sæmundur Óskar Haraldsson 1981-
author_sort Sæmundur Óskar Haraldsson 1981-
title Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation
title_short Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation
title_full Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation
title_fullStr Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation
title_full_unstemmed Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation
title_sort semi-automatic analysis of large textfile datasets for forensic investigation
publishDate 2012
url http://hdl.handle.net/1946/12785
long_lat ENVELOPE(8.669,8.669,62.665,62.665)
geographic Vinnu
geographic_facet Vinnu
genre Iceland
genre_facet Iceland
op_relation http://notendur.hi.is/~soh9
http://hdl.handle.net/1946/12785
_version_ 1766041628026339328