Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil
Machine learning is the dominating paradigm in natural language processing nowadays. It requires vast amounts of manually annotated or synthetically generated text data. In the GiellaLT infrastructure, on the other hand, we have worked with rule-based methods, where the linguistis have full control...
Published in: | Nordlyd |
---|---|
Main Authors: | , , , , |
Format: | Article in Journal/Newspaper |
Language: | Norwegian |
Published: |
Septentrio Academic Publishing
2022
|
Subjects: | |
Online Access: | https://septentrio.uit.no/index.php/nordlyd/article/view/6346 https://doi.org/10.7557/12.6346 |
id |
ftunitroemsoe:oai:ojs.henry.ub.uit.no:article/6346 |
---|---|
record_format |
openpolar |
spelling |
ftunitroemsoe:oai:ojs.henry.ub.uit.no:article/6346 2023-05-15T18:14:48+02:00 Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil Mii *eai leat gal vuollánan -- Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil Wiechetek, Linda Pirinen, Flammie Gaup, Børre Argese, Chiara Omma, Thomas 2022-08-30 application/pdf https://septentrio.uit.no/index.php/nordlyd/article/view/6346 https://doi.org/10.7557/12.6346 nor nor Septentrio Academic Publishing https://septentrio.uit.no/index.php/nordlyd/article/view/6346/6660 https://septentrio.uit.no/index.php/nordlyd/article/view/6346 doi:10.7557/12.6346 Copyright (c) 2022 Linda Wiechetek, Flammie Pirinen, Børre Gaup, Chiara Argese, Thomas Omma https://creativecommons.org/licenses/by-nc/4.0 CC-BY-NC Nordlyd; Vol. 46 No. 1 (2022): Morfologi, målstrev og maskinar – Trond Trosterud {fyller | täyttää | deavdá | turns} 60! 285–297 Nordlyd; Vol 46 Nr. 1 (2022): Morfologi, målstrev og maskinar – Trond Trosterud {fyller | täyttää | deavdá | turns} 60! 1503-8599 10.7557/12.461 Sámi language grammar checking neural networks nlp rule-based agreement info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion 2022 ftunitroemsoe https://doi.org/10.7557/12.6346 https://doi.org/10.7557/12.461 2023-02-02T00:03:58Z Machine learning is the dominating paradigm in natural language processing nowadays. It requires vast amounts of manually annotated or synthetically generated text data. In the GiellaLT infrastructure, on the other hand, we have worked with rule-based methods, where the linguistis have full control over the development the tools. In this article we uncover the myth of machine learning being cheaper than a rule-based approach by showing how much work there is behind data generation, either via corpus annotation or creating tools that automatically mark-up the corpus. Earlier we have shown that the correction of grammatical errors, in particular compound errors, benefit from hybrid methods. Agreement errors, on the other other hand, are to a higher degree dependent on the larger grammatical context. Our experiments show that machine learning methods for this error type, even when supplemented by rule-based methods generating massive data, can not compete with the state-of-the-art rule-based approach. Maskinlæringsteknikker der lingvistisk ekspertise ikke brukes dominerer språkteknologi nå til dags. Dette krever at man merker opp en stor datamengde manuelt på forhånd. I GiellaLT-infrastrukturen har man der- imot jobbet med regelbaserte metoder der lingvisten har kontroll over hvordan verktøyene fungerer. Det er ikke bare tekniske årsaker for metodevalget. Kunnskapsøkning om samisk grammatikk, kvalitetssikring og kontrollerbarhet (verktøyene gjør det de skal gjøre også ifølge menneskelige standard) ligger bak preferansen om å jobbe regelbasert. I denne artikkelen vil vi forsøke å avdekke myten om at maskinlæring blir billigere enn regelbaserte metoder. Likevel tror vi at maskinlæringsmetoder kan være nyttige der vi ønsker større dekning av feilretting. Vi viser at maskinlæringsmodeller som har tilgang til små datameng- der (i dette tilfelle for små språk) er avhengig av gode regelbaserte verktøy som erstatning for manuell oppmerking. Article in Journal/Newspaper Sámi samisk University of Tromsø: Septentrio Academic Publishing Bak ENVELOPE(9.783,9.783,63.250,63.250) Nordlyd 46 1 |
institution |
Open Polar |
collection |
University of Tromsø: Septentrio Academic Publishing |
op_collection_id |
ftunitroemsoe |
language |
Norwegian |
topic |
Sámi language grammar checking neural networks nlp rule-based agreement |
spellingShingle |
Sámi language grammar checking neural networks nlp rule-based agreement Wiechetek, Linda Pirinen, Flammie Gaup, Børre Argese, Chiara Omma, Thomas Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil |
topic_facet |
Sámi language grammar checking neural networks nlp rule-based agreement |
description |
Machine learning is the dominating paradigm in natural language processing nowadays. It requires vast amounts of manually annotated or synthetically generated text data. In the GiellaLT infrastructure, on the other hand, we have worked with rule-based methods, where the linguistis have full control over the development the tools. In this article we uncover the myth of machine learning being cheaper than a rule-based approach by showing how much work there is behind data generation, either via corpus annotation or creating tools that automatically mark-up the corpus. Earlier we have shown that the correction of grammatical errors, in particular compound errors, benefit from hybrid methods. Agreement errors, on the other other hand, are to a higher degree dependent on the larger grammatical context. Our experiments show that machine learning methods for this error type, even when supplemented by rule-based methods generating massive data, can not compete with the state-of-the-art rule-based approach. Maskinlæringsteknikker der lingvistisk ekspertise ikke brukes dominerer språkteknologi nå til dags. Dette krever at man merker opp en stor datamengde manuelt på forhånd. I GiellaLT-infrastrukturen har man der- imot jobbet med regelbaserte metoder der lingvisten har kontroll over hvordan verktøyene fungerer. Det er ikke bare tekniske årsaker for metodevalget. Kunnskapsøkning om samisk grammatikk, kvalitetssikring og kontrollerbarhet (verktøyene gjør det de skal gjøre også ifølge menneskelige standard) ligger bak preferansen om å jobbe regelbasert. I denne artikkelen vil vi forsøke å avdekke myten om at maskinlæring blir billigere enn regelbaserte metoder. Likevel tror vi at maskinlæringsmetoder kan være nyttige der vi ønsker større dekning av feilretting. Vi viser at maskinlæringsmodeller som har tilgang til små datameng- der (i dette tilfelle for små språk) er avhengig av gode regelbaserte verktøy som erstatning for manuell oppmerking. |
format |
Article in Journal/Newspaper |
author |
Wiechetek, Linda Pirinen, Flammie Gaup, Børre Argese, Chiara Omma, Thomas |
author_facet |
Wiechetek, Linda Pirinen, Flammie Gaup, Børre Argese, Chiara Omma, Thomas |
author_sort |
Wiechetek, Linda |
title |
Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil |
title_short |
Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil |
title_full |
Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil |
title_fullStr |
Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil |
title_full_unstemmed |
Mii *eai leat gal vuollánan – Vi *ha neimen ikke gitt opp: En hybrid grammatikkontroll for å rette kongruensfeil |
title_sort |
mii *eai leat gal vuollánan – vi *ha neimen ikke gitt opp: en hybrid grammatikkontroll for å rette kongruensfeil |
publisher |
Septentrio Academic Publishing |
publishDate |
2022 |
url |
https://septentrio.uit.no/index.php/nordlyd/article/view/6346 https://doi.org/10.7557/12.6346 |
long_lat |
ENVELOPE(9.783,9.783,63.250,63.250) |
geographic |
Bak |
geographic_facet |
Bak |
genre |
Sámi samisk |
genre_facet |
Sámi samisk |
op_source |
Nordlyd; Vol. 46 No. 1 (2022): Morfologi, målstrev og maskinar – Trond Trosterud {fyller | täyttää | deavdá | turns} 60! 285–297 Nordlyd; Vol 46 Nr. 1 (2022): Morfologi, målstrev og maskinar – Trond Trosterud {fyller | täyttää | deavdá | turns} 60! 1503-8599 10.7557/12.461 |
op_relation |
https://septentrio.uit.no/index.php/nordlyd/article/view/6346/6660 https://septentrio.uit.no/index.php/nordlyd/article/view/6346 doi:10.7557/12.6346 |
op_rights |
Copyright (c) 2022 Linda Wiechetek, Flammie Pirinen, Børre Gaup, Chiara Argese, Thomas Omma https://creativecommons.org/licenses/by-nc/4.0 |
op_rightsnorm |
CC-BY-NC |
op_doi |
https://doi.org/10.7557/12.6346 https://doi.org/10.7557/12.461 |
container_title |
Nordlyd |
container_volume |
46 |
container_issue |
1 |
_version_ |
1766187788521177088 |