Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil

Machine learning is the dominating paradigm in natural language processing nowadays. It requires vast amounts of manually annotated or synthetically generated text data. In the GiellaLT infrastructure, on the other hand, we have worked with rule-based methods, where the linguistis have full control...

Full description

Bibliographic Details
Published in:Nordlyd
Main Authors: Wiechetek, Linda, Pirinen, Flammie, Gaup, Børre, Argese, Chiara, Omma, Thomas
Format: Article in Journal/Newspaper
Language:Norwegian
Published: Septentrio Academic Publishing 2022
Subjects:
nlp
Bak
Online Access:https://septentrio.uit.no/index.php/nordlyd/article/view/6346
https://doi.org/10.7557/12.6346
id ftunitroemsoe:oai:ojs.henry.ub.uit.no:article/6346
record_format openpolar
spelling ftunitroemsoe:oai:ojs.henry.ub.uit.no:article/6346 2023-05-15T18:14:48+02:00 Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil Mii *eai leat gal vuollánan -- Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil Wiechetek, Linda Pirinen, Flammie Gaup, Børre Argese, Chiara Omma, Thomas 2022-08-30 application/pdf https://septentrio.uit.no/index.php/nordlyd/article/view/6346 https://doi.org/10.7557/12.6346 nor nor Septentrio Academic Publishing https://septentrio.uit.no/index.php/nordlyd/article/view/6346/6660 https://septentrio.uit.no/index.php/nordlyd/article/view/6346 doi:10.7557/12.6346 Copyright (c) 2022 Linda Wiechetek, Flammie Pirinen, Børre Gaup, Chiara Argese, Thomas Omma https://creativecommons.org/licenses/by-nc/4.0 CC-BY-NC Nordlyd; Vol. 46 No. 1 (2022): Morfologi, målstrev og maskinar – Trond Trosterud {fyller | täyttää | deavdá | turns} 60! 285–297 Nordlyd; Vol 46 Nr. 1 (2022): Morfologi, målstrev og maskinar – Trond Trosterud {fyller | täyttää | deavdá | turns} 60! 1503-8599 10.7557/12.461 Sámi language grammar checking neural networks nlp rule-based agreement info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion 2022 ftunitroemsoe https://doi.org/10.7557/12.6346 https://doi.org/10.7557/12.461 2023-02-02T00:03:58Z Machine learning is the dominating paradigm in natural language processing nowadays. It requires vast amounts of manually annotated or synthetically generated text data. In the GiellaLT infrastructure, on the other hand, we have worked with rule-based methods, where the linguistis have full control over the development the tools. In this article we uncover the myth of machine learning being cheaper than a rule-based approach by showing how much work there is behind data generation, either via corpus annotation or creating tools that automatically mark-up the corpus. Earlier we have shown that the correction of grammatical errors, in particular compound errors, benefit from hybrid methods. Agreement errors, on the other other hand, are to a higher degree dependent on the larger grammatical context. Our experiments show that machine learning methods for this error type, even when supplemented by rule-based methods generating massive data, can not compete with the state-of-the-art rule-based approach. Maskinlæringsteknikker der lingvistisk ekspertise ikke brukes dominerer språkteknologi nå til dags. Dette krever at man merker opp en stor datamengde manuelt på forhånd. I GiellaLT-infrastrukturen har man der- imot jobbet med regelbaserte metoder der lingvisten har kontroll over hvordan verktøyene fungerer. Det er ikke bare tekniske årsaker for metodevalget. Kunnskapsøkning om samisk grammatikk, kvalitetssikring og kontrollerbarhet (verktøyene gjør det de skal gjøre også ifølge menneskelige standard) ligger bak preferansen om å jobbe regelbasert. I denne artikkelen vil vi forsøke å avdekke myten om at maskinlæring blir billigere enn regelbaserte metoder. Likevel tror vi at maskinlæringsmetoder kan være nyttige der vi ønsker større dekning av feilretting. Vi viser at maskinlæringsmodeller som har tilgang til små datameng- der (i dette tilfelle for små språk) er avhengig av gode regelbaserte verktøy som erstatning for manuell oppmerking. Article in Journal/Newspaper Sámi samisk University of Tromsø: Septentrio Academic Publishing Bak ENVELOPE(9.783,9.783,63.250,63.250) Nordlyd 46 1
institution Open Polar
collection University of Tromsø: Septentrio Academic Publishing
op_collection_id ftunitroemsoe
language Norwegian
topic Sámi language
grammar checking
neural networks
nlp
rule-based
agreement
spellingShingle Sámi language
grammar checking
neural networks
nlp
rule-based
agreement
Wiechetek, Linda
Pirinen, Flammie
Gaup, Børre
Argese, Chiara
Omma, Thomas
Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil
topic_facet Sámi language
grammar checking
neural networks
nlp
rule-based
agreement
description Machine learning is the dominating paradigm in natural language processing nowadays. It requires vast amounts of manually annotated or synthetically generated text data. In the GiellaLT infrastructure, on the other hand, we have worked with rule-based methods, where the linguistis have full control over the development the tools. In this article we uncover the myth of machine learning being cheaper than a rule-based approach by showing how much work there is behind data generation, either via corpus annotation or creating tools that automatically mark-up the corpus. Earlier we have shown that the correction of grammatical errors, in particular compound errors, benefit from hybrid methods. Agreement errors, on the other other hand, are to a higher degree dependent on the larger grammatical context. Our experiments show that machine learning methods for this error type, even when supplemented by rule-based methods generating massive data, can not compete with the state-of-the-art rule-based approach. Maskinlæringsteknikker der lingvistisk ekspertise ikke brukes dominerer språkteknologi nå til dags. Dette krever at man merker opp en stor datamengde manuelt på forhånd. I GiellaLT-infrastrukturen har man der- imot jobbet med regelbaserte metoder der lingvisten har kontroll over hvordan verktøyene fungerer. Det er ikke bare tekniske årsaker for metodevalget. Kunnskapsøkning om samisk grammatikk, kvalitetssikring og kontrollerbarhet (verktøyene gjør det de skal gjøre også ifølge menneskelige standard) ligger bak preferansen om å jobbe regelbasert. I denne artikkelen vil vi forsøke å avdekke myten om at maskinlæring blir billigere enn regelbaserte metoder. Likevel tror vi at maskinlæringsmetoder kan være nyttige der vi ønsker større dekning av feilretting. Vi viser at maskinlæringsmodeller som har tilgang til små datameng- der (i dette tilfelle for små språk) er avhengig av gode regelbaserte verktøy som erstatning for manuell oppmerking.
format Article in Journal/Newspaper
author Wiechetek, Linda
Pirinen, Flammie
Gaup, Børre
Argese, Chiara
Omma, Thomas
author_facet Wiechetek, Linda
Pirinen, Flammie
Gaup, Børre
Argese, Chiara
Omma, Thomas
author_sort Wiechetek, Linda
title Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil
title_short Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil
title_full Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil
title_fullStr Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil
title_full_unstemmed Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil
title_sort mii *eai leat gal vuollánan – vi *ha neimen ikke gitt opp: en hybrid grammatikkontroll for å rette kongruensfeil
publisher Septentrio Academic Publishing
publishDate 2022
url https://septentrio.uit.no/index.php/nordlyd/article/view/6346
https://doi.org/10.7557/12.6346
long_lat ENVELOPE(9.783,9.783,63.250,63.250)
geographic Bak
geographic_facet Bak
genre Sámi
samisk
genre_facet Sámi
samisk
op_source Nordlyd; Vol. 46 No. 1 (2022): Morfologi, målstrev og maskinar – Trond Trosterud {fyller | täyttää | deavdá | turns} 60!
285–297
Nordlyd; Vol 46 Nr. 1 (2022): Morfologi, målstrev og maskinar – Trond Trosterud {fyller | täyttää | deavdá | turns} 60!
1503-8599
10.7557/12.461
op_relation https://septentrio.uit.no/index.php/nordlyd/article/view/6346/6660
https://septentrio.uit.no/index.php/nordlyd/article/view/6346
doi:10.7557/12.6346
op_rights Copyright (c) 2022 Linda Wiechetek, Flammie Pirinen, Børre Gaup, Chiara Argese, Thomas Omma
https://creativecommons.org/licenses/by-nc/4.0
op_rightsnorm CC-BY-NC
op_doi https://doi.org/10.7557/12.6346
https://doi.org/10.7557/12.461
container_title Nordlyd
container_volume 46
container_issue 1
_version_ 1766187788521177088