When grammar can't be trusted - Valency and semantic categories in North Sámi syntactic analysis and error detection

In this dissertation, I investigate valencies and syntactically relevant semantic categories in North Sámi. In addition, I develop three machine-readable grammars for the North Sámi grammar checker GoDivvun that have access to valencies and semantics. Like a human, a machine-readable grammar analyze...

Full description

Bibliographic Details
Main Author: Wiechetek, Linda
Format: Doctoral or Postdoctoral Thesis
Language:English
Published: UiT Norges arktiske universitet 2018
Subjects:
Online Access:https://hdl.handle.net/10037/12726
id ftunivtroemsoe:oai:munin.uit.no:10037/12726
record_format openpolar
institution Open Polar
collection University of Tromsø: Munin Open Research Archive
op_collection_id ftunivtroemsoe
language English
topic VDP::Humanities: 000::Linguistics: 010
VDP::Humaniora: 000::Språkvitenskapelige fag: 010
VDP::Humanities: 000::Linguistics: 010::Sami language: 031
VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Samisk språk: 031
VDP::Humanities: 000::Linguistics: 010::Applied linguistics: 012
VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Anvendt språkvitenskap: 012
VDP::Technology: 500::Information and communication technology: 550::Computer technology: 551
VDP::Teknologi: 500::Informasjons- og kommunikasjonsteknologi: 550::Datateknologi: 551
DOKTOR-001
spellingShingle VDP::Humanities: 000::Linguistics: 010
VDP::Humaniora: 000::Språkvitenskapelige fag: 010
VDP::Humanities: 000::Linguistics: 010::Sami language: 031
VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Samisk språk: 031
VDP::Humanities: 000::Linguistics: 010::Applied linguistics: 012
VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Anvendt språkvitenskap: 012
VDP::Technology: 500::Information and communication technology: 550::Computer technology: 551
VDP::Teknologi: 500::Informasjons- og kommunikasjonsteknologi: 550::Datateknologi: 551
DOKTOR-001
Wiechetek, Linda
When grammar can't be trusted - Valency and semantic categories in North Sámi syntactic analysis and error detection
topic_facet VDP::Humanities: 000::Linguistics: 010
VDP::Humaniora: 000::Språkvitenskapelige fag: 010
VDP::Humanities: 000::Linguistics: 010::Sami language: 031
VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Samisk språk: 031
VDP::Humanities: 000::Linguistics: 010::Applied linguistics: 012
VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Anvendt språkvitenskap: 012
VDP::Technology: 500::Information and communication technology: 550::Computer technology: 551
VDP::Teknologi: 500::Informasjons- og kommunikasjonsteknologi: 550::Datateknologi: 551
DOKTOR-001
description In this dissertation, I investigate valencies and syntactically relevant semantic categories in North Sámi. In addition, I develop three machine-readable grammars for the North Sámi grammar checker GoDivvun that have access to valencies and semantics. Like a human, a machine-readable grammar analyzes a sentence by putting together information from different linguistic levels and based on this, selects or discards certain interpretations. Grammatical errors and the extensive homonoymy of well-formed input complicate a reliable sentence analysis based on morphology and syntax alone. I therefore add valency tags to 500 North Sámi verbs and annotate semantic prototype categories to 71% of the noun lexicon. This adds a semantic layer to the sentence analysis that is used to identify governor- argument structures in the process of error detection. I evaluate the detection of a test set of local and global errors resulting in a precision above 98% for local errors and a precision above 77% for global errors. While semantic prototype tagging is the backbone of local error detection, valency annotation is the back- bone of global error detection. My approach shows that a deep syntactic and semantic sentence analysis is beneficial for local error detection and necessary for reliable global error detection. Dán doavttirgrádačállosis mun dutkkan valeanssaid ja semánttalaš kategoriijaid syntávssalaš váikkuhusaid. Lean ovttas huksen Divvun-joavkkuin davvisámi grammatihkkadivvunprográmma, man gohčodan GoDivvun. Dasa lean ráhkadan golbma mášenlogahahtti grammatihka, main valeanssat ja semantihkka leat olámuttus. Mášenlogahahtti grammatihkka doaibmá dego olmmoš: dat bidjá oktii dieđuid iešguđet giellaoahpalaš dásis ja dan vuođul analysere cealkaga ja vállje muhtun dulkomiid ovdal earáid. Homonymiija ja giellaoahpalaš meattáhusat dahket luohttevaš cealkkaanalysa váttisin, jus dušše atná morfologiija ja syntávssa vuođđun. Čoavddusin lean lasihan valeansagilkoriid 500 davvisámi verbii ja semánttalaš prototyhpaid substantiivvaide. Dáinna lágiin lasihuvvo cealkkaanalysii semánttalaš geardi, mii geavahuvvo argumeantaráhkadusaid gávdnamis, ja mii lea dehálaš grammatihkkadivvunprográmma oassi. Mun árvvoštalan sihke lokála ja globála grammatihkalaš meattáhusaid gávdnama. Lokála meattáhusa deaivilvuohta lea badjel 98% ja globála meattáhusa deaivilvuohta fas lea badjel 77%. Semánttalaš prototyhpat leat vuođđun lokála meattáhusdeaivamis ja valeanssat fas leat vuođđun globála meattáhusdeaivamis. Mu lahkonanvuohki čájeha ahte čiek­ŋalis syntávssalaš ja semánttalaš analysa lea ávkin lokála meattáhusdeaivamii ja dárbbašlaš globála meattáhusdeaivamii. I avhandlinga mi undersøker eg valensar og syntaktisk relevante semantiske kategoriar i nordsamisk. I tillegg utviklar eg tre maskinlesbare grammatikkar for den samiske grammatikkontrollen GoDivvun, som har tilgang til valensar og semantiske kategoriar. På same måten som eit menneske analyserer maskinlesbare grammatikkar ei setning ved å sette saman informasjon frå forskjellige lingvistiske nivå og basert på dette vel eller aviser den spesifikke lesingar. Grammatiske feil og homonymi blant ordformer gjør det vanskeleg å stole på setningsanalyse basert berre på morfologi og syntaks. Derfor legg eg valenstaggar til 500 nordsamiske verb og annoterer 71% av substantivleksikonet med semantiske prototypkategoriar. Dette semantiske nivået i setningsanalysen blir brukt for å identifisere argumentstrukturar i feilfinningsprosessen. Evalueringa av feilfinningsreglane for eit testsett av lokale og globale feil viser at presisjonen for lokale feil er over 98% og presisjonen for globale feil er over 77%. Mens tagginga av semantiske prototypar er ein føresetnad for å oppdage lokale feil, er valensannotasjonen ein føresetnad for å oppdage globale feil. Tilnærmingsmåten min viser at djup syntaktisk og semantisk setningsanalyse er nyttig for lokal feilfinning og nødvendig for global feilfinning.
format Doctoral or Postdoctoral Thesis
author Wiechetek, Linda
author_facet Wiechetek, Linda
author_sort Wiechetek, Linda
title When grammar can't be trusted - Valency and semantic categories in North Sámi syntactic analysis and error detection
title_short When grammar can't be trusted - Valency and semantic categories in North Sámi syntactic analysis and error detection
title_full When grammar can't be trusted - Valency and semantic categories in North Sámi syntactic analysis and error detection
title_fullStr When grammar can't be trusted - Valency and semantic categories in North Sámi syntactic analysis and error detection
title_full_unstemmed When grammar can't be trusted - Valency and semantic categories in North Sámi syntactic analysis and error detection
title_sort when grammar can't be trusted - valency and semantic categories in north sámi syntactic analysis and error detection
publisher UiT Norges arktiske universitet
publishDate 2018
url https://hdl.handle.net/10037/12726
long_lat ENVELOPE(28.350,28.350,70.827,70.827)
geographic Dego
geographic_facet Dego
genre North Sámi
sami
Sámi
samisk
genre_facet North Sámi
sami
Sámi
samisk
op_relation https://hdl.handle.net/10037/12726
op_rights openAccess
Copyright 2018 The Author(s)
_version_ 1766140930442657792
spelling ftunivtroemsoe:oai:munin.uit.no:10037/12726 2023-05-15T17:40:07+02:00 When grammar can't be trusted - Valency and semantic categories in North Sámi syntactic analysis and error detection Wiechetek, Linda 2018-05-23 https://hdl.handle.net/10037/12726 eng eng UiT Norges arktiske universitet UiT The Arctic University of Norway https://hdl.handle.net/10037/12726 openAccess Copyright 2018 The Author(s) VDP::Humanities: 000::Linguistics: 010 VDP::Humaniora: 000::Språkvitenskapelige fag: 010 VDP::Humanities: 000::Linguistics: 010::Sami language: 031 VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Samisk språk: 031 VDP::Humanities: 000::Linguistics: 010::Applied linguistics: 012 VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Anvendt språkvitenskap: 012 VDP::Technology: 500::Information and communication technology: 550::Computer technology: 551 VDP::Teknologi: 500::Informasjons- og kommunikasjonsteknologi: 550::Datateknologi: 551 DOKTOR-001 Doctoral thesis Doktorgradsavhandling 2018 ftunivtroemsoe 2021-06-25T17:55:56Z In this dissertation, I investigate valencies and syntactically relevant semantic categories in North Sámi. In addition, I develop three machine-readable grammars for the North Sámi grammar checker GoDivvun that have access to valencies and semantics. Like a human, a machine-readable grammar analyzes a sentence by putting together information from different linguistic levels and based on this, selects or discards certain interpretations. Grammatical errors and the extensive homonoymy of well-formed input complicate a reliable sentence analysis based on morphology and syntax alone. I therefore add valency tags to 500 North Sámi verbs and annotate semantic prototype categories to 71% of the noun lexicon. This adds a semantic layer to the sentence analysis that is used to identify governor- argument structures in the process of error detection. I evaluate the detection of a test set of local and global errors resulting in a precision above 98% for local errors and a precision above 77% for global errors. While semantic prototype tagging is the backbone of local error detection, valency annotation is the back- bone of global error detection. My approach shows that a deep syntactic and semantic sentence analysis is beneficial for local error detection and necessary for reliable global error detection. Dán doavttirgrádačállosis mun dutkkan valeanssaid ja semánttalaš kategoriijaid syntávssalaš váikkuhusaid. Lean ovttas huksen Divvun-joavkkuin davvisámi grammatihkkadivvunprográmma, man gohčodan GoDivvun. Dasa lean ráhkadan golbma mášenlogahahtti grammatihka, main valeanssat ja semantihkka leat olámuttus. Mášenlogahahtti grammatihkka doaibmá dego olmmoš: dat bidjá oktii dieđuid iešguđet giellaoahpalaš dásis ja dan vuođul analysere cealkaga ja vállje muhtun dulkomiid ovdal earáid. Homonymiija ja giellaoahpalaš meattáhusat dahket luohttevaš cealkkaanalysa váttisin, jus dušše atná morfologiija ja syntávssa vuođđun. Čoavddusin lean lasihan valeansagilkoriid 500 davvisámi verbii ja semánttalaš prototyhpaid substantiivvaide. Dáinna lágiin lasihuvvo cealkkaanalysii semánttalaš geardi, mii geavahuvvo argumeantaráhkadusaid gávdnamis, ja mii lea dehálaš grammatihkkadivvunprográmma oassi. Mun árvvoštalan sihke lokála ja globála grammatihkalaš meattáhusaid gávdnama. Lokála meattáhusa deaivilvuohta lea badjel 98% ja globála meattáhusa deaivilvuohta fas lea badjel 77%. Semánttalaš prototyhpat leat vuođđun lokála meattáhusdeaivamis ja valeanssat fas leat vuođđun globála meattáhusdeaivamis. Mu lahkonanvuohki čájeha ahte čiek­ŋalis syntávssalaš ja semánttalaš analysa lea ávkin lokála meattáhusdeaivamii ja dárbbašlaš globála meattáhusdeaivamii. I avhandlinga mi undersøker eg valensar og syntaktisk relevante semantiske kategoriar i nordsamisk. I tillegg utviklar eg tre maskinlesbare grammatikkar for den samiske grammatikkontrollen GoDivvun, som har tilgang til valensar og semantiske kategoriar. På same måten som eit menneske analyserer maskinlesbare grammatikkar ei setning ved å sette saman informasjon frå forskjellige lingvistiske nivå og basert på dette vel eller aviser den spesifikke lesingar. Grammatiske feil og homonymi blant ordformer gjør det vanskeleg å stole på setningsanalyse basert berre på morfologi og syntaks. Derfor legg eg valenstaggar til 500 nordsamiske verb og annoterer 71% av substantivleksikonet med semantiske prototypkategoriar. Dette semantiske nivået i setningsanalysen blir brukt for å identifisere argumentstrukturar i feilfinningsprosessen. Evalueringa av feilfinningsreglane for eit testsett av lokale og globale feil viser at presisjonen for lokale feil er over 98% og presisjonen for globale feil er over 77%. Mens tagginga av semantiske prototypar er ein føresetnad for å oppdage lokale feil, er valensannotasjonen ein føresetnad for å oppdage globale feil. Tilnærmingsmåten min viser at djup syntaktisk og semantisk setningsanalyse er nyttig for lokal feilfinning og nødvendig for global feilfinning. Doctoral or Postdoctoral Thesis North Sámi sami Sámi samisk University of Tromsø: Munin Open Research Archive Dego ENVELOPE(28.350,28.350,70.827,70.827)