Detekce Malware v HTTPS komunikaci

V posledních letech lze zaznamenat nárůst malware, kteří ke své komunikaci používají HTTPS protokol. Tato situace s sebou přináší pro bezpečnostní analytiky řadu nových výzev, protože přenos je šifrován a je těžko rozlišitelný od běžné síťové komunikace. Z tohoto důvodu je potřeba najít nové metody...

Full description

Bibliographic Details
Main Author: Střasák František
Other Authors: García Sebastián, Bartoš Karel
Format: Bachelor Thesis
Language:English
Published: České vysoké učení technické v Praze. Vypočetní a informační centrum. 2017
Subjects:
Online Access:http://hdl.handle.net/10467/68528
Description
Summary:V posledních letech lze zaznamenat nárůst malware, kteří ke své komunikaci používají HTTPS protokol. Tato situace s sebou přináší pro bezpečnostní analytiky řadu nových výzev, protože přenos je šifrován a je těžko rozlišitelný od běžné síťové komunikace. Z tohoto důvodu je potřeba najít nové metody pro detekci malware bez nutnosti dešifrovat síťovou komunikaci. Metoda, která nepotřebuje k detekci malware dešifrovat síťovou komunikaci, je levnější (protože není potřeba žádný dešifrovací přerušovač sítě), rychlejší a zajišťuje uchování soukromí, což je podstata šifrované komunikace v HTTPS. Cílem této práce je detekovat malware v síťové komunikaci vytvořením nových parametrů pro strojové učení a pou- žitím dat, které zpracovává program Bro IDS. Jelikož není lehké získat data pro takovýto výzkum, použili jsme datasety, které jsou součástí projektu Stratosphere, a některé další jsme si vytvořili sami. Základní jednotkou pro náš datový model jsou informace, které lze získat z šifrované komunikace, jsou to flow, SSL data a x509 certifikáty, které generuje Bro program. Všechna tato data, jsou získána bez nutnosti jakéhokoliv dešifrování. Pro rozpoznání malware komunikace používáme několik algoritmů pro strojové učení, jako např.: Neuronové sítě, XGBoost a Random Forest. Výsledky výzkumu ukazují, že chování malware v síťové komunikaci se liší od běžné komunikace a že naší metodou jsme schopni detekovat malware s přesností až 96.64%. In the last years there has been an increase in the amount of malware using HTTPS traffic for their communications. This situation pose a challenge for the security analysts because the traffic is encrypted and because it mostly looks like normal traffic. Therefore, there is a need to discover new features and methods to detect malware without decrypting the traffic. A detection method that does not need to unencrypt the traffic is cheaper (because no traffic interceptor is needed), faster and private, respecting the original idea of HTTPS. The goal of this thesis is to detect HTTPS malware connections by extracting new features and using data from the Bro IDS program. Since the data for the research is hard to come by, we used data from the Stratosphere project and we created, by hand, our own datasets. Our unit of analysis is an aggregation of all the information that is possible to obtain without decrypting the data. We group together flows, SSL data and X.509 certificates data as they are generated by Bro. To classify the HTTPS malware traffic we used several algorithms, such as Neural Networks, XGBoost and Random Forest. Our results show that the HTTPS malware behaviour is distinct from normal HTTPS behaviour and that our methods are able to separate them with an accuracy of at least 96.64%.