Oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami

V magistrskem delu se ukvarjamo z oblikoskladenjskim označevanjem slovenskega jezika. Pri tej nalogi s področja obdelave naravnega jezika povedim priredimo ustrezno zaporedje oznak, ki opisujejo oblikoskladenjske lastnosti besed. Za razliko od tipičnih pristopov, ki vhodne povedi obravnavajo na nivo...

Full description

Bibliographic Details
Main Author: Belej, Primož
Other Authors: Robnik Šikonja, Marko
Format: Master Thesis
Language:Slovenian
Published: 2018
Subjects:
Online Access:https://repozitorij.uni-lj.si/IzpisGradiva.php?id=105266
https://repozitorij.uni-lj.si/Dokument.php?id=115884&dn=
id ftuniljubljanair:oai:repozitorij.uni-lj.si:IzpisGradiva.php-id-105266
record_format openpolar
spelling ftuniljubljanair:oai:repozitorij.uni-lj.si:IzpisGradiva.php-id-105266 2023-05-15T18:13:02+02:00 Oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami Part of speech tagging of slovene language using deep neural networks Belej, Primož Robnik Šikonja, Marko 2018-11-16 application/pdf https://repozitorij.uni-lj.si/IzpisGradiva.php?id=105266 https://repozitorij.uni-lj.si/Dokument.php?id=115884&dn= slv slv https://repozitorij.uni-lj.si/IzpisGradiva.php?id=105266 https://repozitorij.uni-lj.si/Dokument.php?id=115884&dn= info:eu-repo/semantics/openAccess strojno učenje oblikoskladenjsko označevanje globoko učenje konvolucijske nevronske mreže rekurentne nevronske mreže ansambli klasifikatorjev machine learning part-of-speech tagging deep learning convolutional neural networks recurrent neural networks ensemble classifiers info:eu-repo/semantics/masterThesis info:eu-repo/semantics/publishedVersion 2018 ftuniljubljanair 2021-12-06T10:04:15Z V magistrskem delu se ukvarjamo z oblikoskladenjskim označevanjem slovenskega jezika. Pri tej nalogi s področja obdelave naravnega jezika povedim priredimo ustrezno zaporedje oznak, ki opisujejo oblikoskladenjske lastnosti besed. Za razliko od tipičnih pristopov, ki vhodne povedi obravnavajo na nivoju besed, naša rešitev obravnava vhodne povedi kot zaporedja znakov. Nalogo označevanja rešujemo s kombinacijo konvolucijskih in rekurentnih nevronskih mrež. Posebnost našega pristopa je tudi v sami naravi označevanja, saj ga ne obravnavamo kot problem večrazredne klasifikacije, temveč kot večznačno klasifikacijo, kjer primerom dodeljujemo oznake. Z namenom izboljšave rezultatov našo rešitev združimo v ansambel treh označevalnikov, skupaj z dvema obstoječima označevalnikoma za slovenski jezik. Ob primerjavi naše rešitve z obstoječimi ugotovimo, da predlagana rešitev dosega najboljše rezultate pri reševanju zadanega problema. The thesis deals with part of speech tagging of Slovene language. Part of speech tagging is a process of matching sentences in natural language with a sequence of suitable tags, which contain information about parts of speech and morphological properties of words. Our solution uses character-level representation of words, which is different from typical solutions, which process input sentences as sequences of words. Our part of speech tagger is implemented using convolutional and recurrent neural networks. Unlike common approaches that address this problem as multi-class classification, our solution proposes a multi-label classification approach. In order to improve our results we implement an ensemble of three part of speech taggers. When comparing our solution with existing ones, we find that the proposed solution achieves the best results. Master Thesis sami Repository of the University of Ljubljana (RUL)
institution Open Polar
collection Repository of the University of Ljubljana (RUL)
op_collection_id ftuniljubljanair
language Slovenian
topic strojno učenje
oblikoskladenjsko označevanje
globoko učenje
konvolucijske nevronske mreže
rekurentne nevronske mreže
ansambli klasifikatorjev
machine learning
part-of-speech tagging
deep learning
convolutional neural networks
recurrent neural networks
ensemble classifiers
spellingShingle strojno učenje
oblikoskladenjsko označevanje
globoko učenje
konvolucijske nevronske mreže
rekurentne nevronske mreže
ansambli klasifikatorjev
machine learning
part-of-speech tagging
deep learning
convolutional neural networks
recurrent neural networks
ensemble classifiers
Belej, Primož
Oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami
topic_facet strojno učenje
oblikoskladenjsko označevanje
globoko učenje
konvolucijske nevronske mreže
rekurentne nevronske mreže
ansambli klasifikatorjev
machine learning
part-of-speech tagging
deep learning
convolutional neural networks
recurrent neural networks
ensemble classifiers
description V magistrskem delu se ukvarjamo z oblikoskladenjskim označevanjem slovenskega jezika. Pri tej nalogi s področja obdelave naravnega jezika povedim priredimo ustrezno zaporedje oznak, ki opisujejo oblikoskladenjske lastnosti besed. Za razliko od tipičnih pristopov, ki vhodne povedi obravnavajo na nivoju besed, naša rešitev obravnava vhodne povedi kot zaporedja znakov. Nalogo označevanja rešujemo s kombinacijo konvolucijskih in rekurentnih nevronskih mrež. Posebnost našega pristopa je tudi v sami naravi označevanja, saj ga ne obravnavamo kot problem večrazredne klasifikacije, temveč kot večznačno klasifikacijo, kjer primerom dodeljujemo oznake. Z namenom izboljšave rezultatov našo rešitev združimo v ansambel treh označevalnikov, skupaj z dvema obstoječima označevalnikoma za slovenski jezik. Ob primerjavi naše rešitve z obstoječimi ugotovimo, da predlagana rešitev dosega najboljše rezultate pri reševanju zadanega problema. The thesis deals with part of speech tagging of Slovene language. Part of speech tagging is a process of matching sentences in natural language with a sequence of suitable tags, which contain information about parts of speech and morphological properties of words. Our solution uses character-level representation of words, which is different from typical solutions, which process input sentences as sequences of words. Our part of speech tagger is implemented using convolutional and recurrent neural networks. Unlike common approaches that address this problem as multi-class classification, our solution proposes a multi-label classification approach. In order to improve our results we implement an ensemble of three part of speech taggers. When comparing our solution with existing ones, we find that the proposed solution achieves the best results.
author2 Robnik Šikonja, Marko
format Master Thesis
author Belej, Primož
author_facet Belej, Primož
author_sort Belej, Primož
title Oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami
title_short Oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami
title_full Oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami
title_fullStr Oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami
title_full_unstemmed Oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami
title_sort oblikoskladenjsko označevanje slovenskega jezika z globokimi nevronskimi mrežami
publishDate 2018
url https://repozitorij.uni-lj.si/IzpisGradiva.php?id=105266
https://repozitorij.uni-lj.si/Dokument.php?id=115884&dn=
genre sami
genre_facet sami
op_relation https://repozitorij.uni-lj.si/IzpisGradiva.php?id=105266
https://repozitorij.uni-lj.si/Dokument.php?id=115884&dn=
op_rights info:eu-repo/semantics/openAccess
_version_ 1766185513808560128