Strojno učenje za analizu sentimenta temeljenu na aspektima

Tema ovoga rada je analiza sentimenta temeljena na aspektima. Korišten je skup podataka s natjecanja Semeval iz 2015. godine za zadatak 12. Prva tri modela ovoga rada omogućila su nam bolji uvid u sami problem i dodatne informacije o skupu podataka. U njma su isprobani pristupi koji koriste koeficij...

Full description

Bibliographic Details
Main Author: Zec, Mario
Other Authors: Šnajder, Jan
Format: Bachelor Thesis
Language:Croatian
Published: Sveučilište u Zagrebu. Fakultet elektrotehnike i računarstva. 2020
Subjects:
CRF
Online Access:https://zir.nsk.hr/islandora/object/fer:9698
https://urn.nsk.hr/urn:nbn:hr:168:693800
https://repozitorij.unizg.hr/islandora/object/fer:9698
https://repozitorij.unizg.hr/islandora/object/fer:9698/datastream/PDF
Description
Summary:Tema ovoga rada je analiza sentimenta temeljena na aspektima. Korišten je skup podataka s natjecanja Semeval iz 2015. godine za zadatak 12. Prva tri modela ovoga rada omogućila su nam bolji uvid u sami problem i dodatne informacije o skupu podataka. U njma su isprobani pristupi koji koriste koeficijent Sørensen-Dice, te jednoslojni i dvoslojni modeli modela CRF. Konačno rješenje temeljili smo na pretpostavci da svakome aspektu mora biti pripisan jedan dio rečenice. Ako to nije slučaj, onda dolazimo do problema s označavanjem skupa podataka jer ako jedna jednostavna rečenica sadrži dva različita aspekta onda nije jasno koji aspekt se odnosi na koji dio rečenice. Analizom skupa podataka i algoritamskim rastavljanjem rečenica uvjerili smo se da je moguće samo veznicima i interpunkcijskim znakovima rastvljati rečenice s uspješnošću od 98%, gdje broj dijelova rastavljene rečenice odgovara broju aspekata iz skupa podataka. Temeljem ove ideje izgrađen je model koji je rastavljao rečenice algoritamski te koristio strojno učenje za predviđanje aspekata na temelju dijelova rečenica. Uspješnost modela je zadovoljavajuća, ali ostaje velik prostor za poboljšanje modela. This thesis is about aspect-based sentiment analysis (ABSA). The dataset of Semeval 2015 for task 12 was used. First three models gave us better view of the task and additional informations about dataset. Approaches that were used are: Sørensen-Dice coefficient and one and two layers CRF models. The fourth model was based on an assumption that every aspect belongs to one part of the sentence. If that is not true then we come to the problem that annotations are fuzzy. Based on dataset analysis and algorithmic partitioning of sentences we get that we can partition 98% of sentences correct using conjunctions and punctuation marks so that number of aspects is equal to the number of sentence parts. Based on this idea we build a model that algorithmically partitions sentences and then using machine learning predicts aspects based on sentence parts. Success of ...