Semi-Automatic Analysis of Large Textfile Datasets for Forensic Investigation

Þessi lokaritgerð lýsir aðferðafræði sem beita má við rannsóknir á stafrænum samskiptagögnum milli einstaklinga. Tilgangur þessa ramma er að gefa aðilum réttarrannsókna betra yfirlit yfir það gríðarmikla magn samskiptagagna sem jafnan er safnað fyrir réttarrannsóknir. Kveikjan að þessari vinnu er þa...

Full description

Bibliographic Details
Main Author: Sæmundur Óskar Haraldsson 1981-
Other Authors: Háskóli Íslands
Format: Thesis
Language:English
Published: 2012
Subjects:
Online Access:http://hdl.handle.net/1946/12785
Description
Summary:Þessi lokaritgerð lýsir aðferðafræði sem beita má við rannsóknir á stafrænum samskiptagögnum milli einstaklinga. Tilgangur þessa ramma er að gefa aðilum réttarrannsókna betra yfirlit yfir það gríðarmikla magn samskiptagagna sem jafnan er safnað fyrir réttarrannsóknir. Kveikjan að þessari vinnu er það magn gagna sem safnað hefur verið á Íslandi frá falli bankanna. Ramminn kallast SALTeD og er samsettur af þremur hlutum, forvinnu gagna og einkennavali,klasagreiningu og að lokum virkri samfélags netgreiningu. Þessum hlutum er fléttað saman á einstakan máta til að aðstoða við rannsókn á samskiptanetum og uppgötva nýstárleg samskiptamynstur. Aðferðafræðin er prófuð á raunverulegum gögnum, þar á meðal vefpóstasafni Enron Corp. sem gert var upptækt við rannsókn á fjármálamisferli stjórnenda þess. This thesis establishes a framework for investigating digital communication between individuals in a semi-automatic manner. The purpose of this framework is to give forensics investigators a better oversight over the vast amount of communication data commonly confiscated in a crime investigation. The motivation for this work is the vast amount of data collected in Iceland with the fall of their banks. The framework established, termed SALTeD, is composed of 3 main components; data pre-processing and feature selection, cluster analysis, and finally dynamic social network analysis. These components are integrated in a unique manner to give the investigator a semi-automated way of investigating communication networks and discover new and novel patterns of communication. The framework is tested on collected real world data, including the Enron Corp. emails, confiscated by detectives investigating the Enron fraud case.