Weighted Finite-State Methods for Spell-Checking and Correction

This dissertation is a large-scale study of spell-checking and correction using finite-state technology. Finite-state spell-checking is a key method for handling morphologically complex languages in a computationally efficient manner. This dissertation discusses the technological and practical consi...

Full description

Bibliographic Details
Main Author: Pirinen, Tommi
Other Authors: Borin, Lars, University of Helsinki, Faculty of Arts, Department of Modern Languages, Helsingin yliopisto, humanistinen tiedekunta, nykykielten laitos, Helsingfors universitet, humanistiska fakulteten, institutionen för moderna språk, Lindén, Krister
Format: Doctoral or Postdoctoral Thesis
Language:English
Published: Helsingin yliopisto 2014
Subjects:
Online Access:http://hdl.handle.net/10138/42526
id ftunivhelsihelda:oai:helda.helsinki.fi:10138/42526
record_format openpolar
spelling ftunivhelsihelda:oai:helda.helsinki.fi:10138/42526 2023-08-20T04:07:00+02:00 Weighted Finite-State Methods for Spell-Checking and Correction Painolliset äärellistilaiset menetelmät oikaisulukuun Pirinen, Tommi Borin, Lars University of Helsinki, Faculty of Arts, Department of Modern Languages Helsingin yliopisto, humanistinen tiedekunta, nykykielten laitos Helsingfors universitet, humanistiska fakulteten, institutionen för moderna språk Lindén, Krister 2014-01-14T12:57:24Z application/pdf http://hdl.handle.net/10138/42526 eng eng Helsingin yliopisto Helsingfors universitet University of Helsinki URN:ISBN:978-952-10-9694-5 Helsinki: 2014 http://hdl.handle.net/10138/42526 URN:ISBN:978-952-10-9695-2 Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited. Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden. kieliteknologia Text Doctoral dissertation (article-based) Artikkeliväitöskirja Artikelavhandling doctoralThesis 2014 ftunivhelsihelda 2023-07-28T06:19:55Z This dissertation is a large-scale study of spell-checking and correction using finite-state technology. Finite-state spell-checking is a key method for handling morphologically complex languages in a computationally efficient manner. This dissertation discusses the technological and practical considerations that are required for finite-state spell-checkers to be at the same level as state-of-the-art non-finite-state spell-checkers. Three aspects of spell-checking are considered in the thesis: modelling of correctly written words and word-forms with finite-state language models, applying statistical information to finite-state language models with a specific focus on morphologically complex languages, and modelling misspellings and typing errors using finite-state automata-based error models. The usability of finite-state spell-checkers as a viable alternative to traditional non-finite-state solutions is demonstrated in a large-scale evaluation of spell-checking speed and the quality using languages with morphologically different natures. The selected languages display a full range of typological complexity, from isolating English to polysynthetic Greenlandic with agglutinative Finnish and the Saami languages somewhere in between. Tässä väitöskirjassa tutkin äärellistilaisten menetelmien käyttöä oikaisuluvussa. Äärellistilaiset menetelmät mahdollistavat sananmuodostukseltaan monimutkaisempien kielten, kuten suomen tai grönlannin, sanaston sujuvan käsittelyn oikaisulukusovelluksissa. Käsittelen tutkielmassani tieteellisiä ja käytännöllisiä toteutuksia, jotka ovat tarpeen, jotta tällaisia sananmuodostukseltaan monimutkallisempia kieliä voisi käsitellä oikaisuluvussa yhtä tehokkaasti kuin yksinkertaisempia kieliä, kuten englantia tai muita indo-eurooppalaisia kieliä nyt käsitellään. Tutkielmassa esitellään kolme keskeistä tutkimusongelmaa, jotka koskevat oikaisuluvun toteuttamista sanarakenteeltaan monimutkaisemmille kielille: miten mallintaa oikeinkirjoitetut sanamuodot äärellistilaisin mallein, miten soveltaa ... Doctoral or Postdoctoral Thesis greenlandic saami Helsingfors Universitet: HELDA – Helsingin yliopiston digitaalinen arkisto
institution Open Polar
collection Helsingfors Universitet: HELDA – Helsingin yliopiston digitaalinen arkisto
op_collection_id ftunivhelsihelda
language English
topic kieliteknologia
spellingShingle kieliteknologia
Pirinen, Tommi
Weighted Finite-State Methods for Spell-Checking and Correction
topic_facet kieliteknologia
description This dissertation is a large-scale study of spell-checking and correction using finite-state technology. Finite-state spell-checking is a key method for handling morphologically complex languages in a computationally efficient manner. This dissertation discusses the technological and practical considerations that are required for finite-state spell-checkers to be at the same level as state-of-the-art non-finite-state spell-checkers. Three aspects of spell-checking are considered in the thesis: modelling of correctly written words and word-forms with finite-state language models, applying statistical information to finite-state language models with a specific focus on morphologically complex languages, and modelling misspellings and typing errors using finite-state automata-based error models. The usability of finite-state spell-checkers as a viable alternative to traditional non-finite-state solutions is demonstrated in a large-scale evaluation of spell-checking speed and the quality using languages with morphologically different natures. The selected languages display a full range of typological complexity, from isolating English to polysynthetic Greenlandic with agglutinative Finnish and the Saami languages somewhere in between. Tässä väitöskirjassa tutkin äärellistilaisten menetelmien käyttöä oikaisuluvussa. Äärellistilaiset menetelmät mahdollistavat sananmuodostukseltaan monimutkaisempien kielten, kuten suomen tai grönlannin, sanaston sujuvan käsittelyn oikaisulukusovelluksissa. Käsittelen tutkielmassani tieteellisiä ja käytännöllisiä toteutuksia, jotka ovat tarpeen, jotta tällaisia sananmuodostukseltaan monimutkallisempia kieliä voisi käsitellä oikaisuluvussa yhtä tehokkaasti kuin yksinkertaisempia kieliä, kuten englantia tai muita indo-eurooppalaisia kieliä nyt käsitellään. Tutkielmassa esitellään kolme keskeistä tutkimusongelmaa, jotka koskevat oikaisuluvun toteuttamista sanarakenteeltaan monimutkaisemmille kielille: miten mallintaa oikeinkirjoitetut sanamuodot äärellistilaisin mallein, miten soveltaa ...
author2 Borin, Lars
University of Helsinki, Faculty of Arts, Department of Modern Languages
Helsingin yliopisto, humanistinen tiedekunta, nykykielten laitos
Helsingfors universitet, humanistiska fakulteten, institutionen för moderna språk
Lindén, Krister
format Doctoral or Postdoctoral Thesis
author Pirinen, Tommi
author_facet Pirinen, Tommi
author_sort Pirinen, Tommi
title Weighted Finite-State Methods for Spell-Checking and Correction
title_short Weighted Finite-State Methods for Spell-Checking and Correction
title_full Weighted Finite-State Methods for Spell-Checking and Correction
title_fullStr Weighted Finite-State Methods for Spell-Checking and Correction
title_full_unstemmed Weighted Finite-State Methods for Spell-Checking and Correction
title_sort weighted finite-state methods for spell-checking and correction
publisher Helsingin yliopisto
publishDate 2014
url http://hdl.handle.net/10138/42526
genre greenlandic
saami
genre_facet greenlandic
saami
op_relation URN:ISBN:978-952-10-9694-5
Helsinki: 2014
http://hdl.handle.net/10138/42526
URN:ISBN:978-952-10-9695-2
op_rights Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.
_version_ 1774718388344455168