ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА

В данной статье рассматривается вопрос идентификации якутского языка для текстового документа. Идентификация языка текстового документа производится с помощью метода триграмм, который является частным случаем метода N-грамм. Применяется база данных триграмм на основе газетного корпуса якутского язык...

Full description

Bibliographic Details
Main Authors: ЛЕОНТЬЕВ НЬУРГУН АНАТОЛЬЕВИЧ, СЛЕПЦОВ ИННОКЕНТИЙ АЛЕКСЕЕВИЧ
Format: Text
Language:unknown
Published: Федеральное государственное автономное образовательное учреждение высшего профессионального образования Северо-Восточный федеральный университет им. М.К. Аммосова 2015
Subjects:
Online Access:http://cyberleninka.ru/article/n/identifikatsiya-tekstovogo-dokumenta-s-pomoschyu-trigramm-na-materialah-yakutskogo-yazyka
http://cyberleninka.ru/article_covers/16376447.png
id ftcyberleninka:oai:cyberleninka.ru:article/16376447
record_format openpolar
spelling ftcyberleninka:oai:cyberleninka.ru:article/16376447 2023-05-15T18:08:23+02:00 ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА ЛЕОНТЬЕВ НЬУРГУН АНАТОЛЬЕВИЧ СЛЕПЦОВ ИННОКЕНТИЙ АЛЕКСЕЕВИЧ 2015 text/html http://cyberleninka.ru/article/n/identifikatsiya-tekstovogo-dokumenta-s-pomoschyu-trigramm-na-materialah-yakutskogo-yazyka http://cyberleninka.ru/article_covers/16376447.png unknown Федеральное государственное автономное образовательное учреждение высшего профессионального образования Северо-Восточный федеральный университет им. М.К. Аммосова CC BY CC-BY ТРИГРАММЫ,БАЗА ТРИГРАММ,МЕТОД N-ГРАММ,КОДИРОВКА UTF-8,ТРАНСКРИПЦИОННАЯ ЗАПИСЬ,ИДЕНТИФИКАЦИЯ ЯЗЫКА,ТОЧНОСТЬ ИДЕНТИФИКАЦИИ,АЛГОРИТМ ИДЕНТИФИКАЦИИ,ТЕКСТОВЫЙ ДОКУМЕНТ,ИНТЕРНЕТ-ГАЗЕТА text 2015 ftcyberleninka 2016-06-06T23:30:41Z В данной статье рассматривается вопрос идентификации якутского языка для текстового документа. Идентификация языка текстового документа производится с помощью метода триграмм, который является частным случаем метода N-грамм. Применяется база данных триграмм на основе газетного корпуса якутского языка. Разработана программа для автоматической идентификации текста в кодировке UTF-8 стандарта Unicode. Для проверки точности идентификации языка был собран материал из сайтов республиканских газет «Кыым», «Саха Сирэ» и «Аартык.ру» на якутском языке и из интернет-газеты «Sakhalife.ru» на русском языке с небольшим содержанием статей на якутском языке. Общий объем обработанных материалов составил более 100 тыс. газетных статей на русском и якутском языках. Получены графики зависимости точности вероятности идентификации с помощью триграмм от длины сообщения для текстов на якутском и русском языках. Определены причины отклонения вероятности идентификации от значения определения языка. Рассмотрены документы, имеющие транскрипционную запись графических аналогов якутских национальных символов. Выявлены документы, имеющие ошибки в кодировке якутских национальных символов. Метод триграмм показал устойчивость к незначительным транскрипционным ошибкам и позволил определить также документы со смешанным языковым составом. The article describes the issue of identification of the Yakut language for text documents. Identification of the language of a text document produced by the method of trigrams, which is a special case of the method of N-grams. Database is used trigrams based on the corpus of the Yakut language newspapers. A program for automatical identification of text in UTF-8 encoding Unicode standard is developed. For the verification of the accuracy of the language identification there was collected material from the websites of national newspapers «Kyym», «Sakha Sire» and «Aartyk.ru» in the Yakut language and from the Internet-newspaper «Sakhalife.ru» in Russian with a small amount of articles in the Yakut language. The total volume of processed materials amounted more than 100 thousand articles in the Russian and Yakut languages. Trigrams helped to obtain dependency graphs of accuracy of the identification probability on the length of the message for the Yakut and Russian texts. Authors determined the rejection reason of identification probability from identifying the language definition. The documents with transcriptional record made by graphic analogues of the Yakut national symbols were considered. Documents that have errors in the coding of the Yakut national symbols were revealed. Trigrams method showed resistance to minor transcription errors and allowed us to determine the documents with mixed language structure. Text Sakha Yakut Саха CyberLeninka (Scientific Electronic Library) Sakha
institution Open Polar
collection CyberLeninka (Scientific Electronic Library)
op_collection_id ftcyberleninka
language unknown
topic ТРИГРАММЫ,БАЗА ТРИГРАММ,МЕТОД N-ГРАММ,КОДИРОВКА UTF-8,ТРАНСКРИПЦИОННАЯ ЗАПИСЬ,ИДЕНТИФИКАЦИЯ ЯЗЫКА,ТОЧНОСТЬ ИДЕНТИФИКАЦИИ,АЛГОРИТМ ИДЕНТИФИКАЦИИ,ТЕКСТОВЫЙ ДОКУМЕНТ,ИНТЕРНЕТ-ГАЗЕТА
spellingShingle ТРИГРАММЫ,БАЗА ТРИГРАММ,МЕТОД N-ГРАММ,КОДИРОВКА UTF-8,ТРАНСКРИПЦИОННАЯ ЗАПИСЬ,ИДЕНТИФИКАЦИЯ ЯЗЫКА,ТОЧНОСТЬ ИДЕНТИФИКАЦИИ,АЛГОРИТМ ИДЕНТИФИКАЦИИ,ТЕКСТОВЫЙ ДОКУМЕНТ,ИНТЕРНЕТ-ГАЗЕТА
ЛЕОНТЬЕВ НЬУРГУН АНАТОЛЬЕВИЧ
СЛЕПЦОВ ИННОКЕНТИЙ АЛЕКСЕЕВИЧ
ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА
topic_facet ТРИГРАММЫ,БАЗА ТРИГРАММ,МЕТОД N-ГРАММ,КОДИРОВКА UTF-8,ТРАНСКРИПЦИОННАЯ ЗАПИСЬ,ИДЕНТИФИКАЦИЯ ЯЗЫКА,ТОЧНОСТЬ ИДЕНТИФИКАЦИИ,АЛГОРИТМ ИДЕНТИФИКАЦИИ,ТЕКСТОВЫЙ ДОКУМЕНТ,ИНТЕРНЕТ-ГАЗЕТА
description В данной статье рассматривается вопрос идентификации якутского языка для текстового документа. Идентификация языка текстового документа производится с помощью метода триграмм, который является частным случаем метода N-грамм. Применяется база данных триграмм на основе газетного корпуса якутского языка. Разработана программа для автоматической идентификации текста в кодировке UTF-8 стандарта Unicode. Для проверки точности идентификации языка был собран материал из сайтов республиканских газет «Кыым», «Саха Сирэ» и «Аартык.ру» на якутском языке и из интернет-газеты «Sakhalife.ru» на русском языке с небольшим содержанием статей на якутском языке. Общий объем обработанных материалов составил более 100 тыс. газетных статей на русском и якутском языках. Получены графики зависимости точности вероятности идентификации с помощью триграмм от длины сообщения для текстов на якутском и русском языках. Определены причины отклонения вероятности идентификации от значения определения языка. Рассмотрены документы, имеющие транскрипционную запись графических аналогов якутских национальных символов. Выявлены документы, имеющие ошибки в кодировке якутских национальных символов. Метод триграмм показал устойчивость к незначительным транскрипционным ошибкам и позволил определить также документы со смешанным языковым составом. The article describes the issue of identification of the Yakut language for text documents. Identification of the language of a text document produced by the method of trigrams, which is a special case of the method of N-grams. Database is used trigrams based on the corpus of the Yakut language newspapers. A program for automatical identification of text in UTF-8 encoding Unicode standard is developed. For the verification of the accuracy of the language identification there was collected material from the websites of national newspapers «Kyym», «Sakha Sire» and «Aartyk.ru» in the Yakut language and from the Internet-newspaper «Sakhalife.ru» in Russian with a small amount of articles in the Yakut language. The total volume of processed materials amounted more than 100 thousand articles in the Russian and Yakut languages. Trigrams helped to obtain dependency graphs of accuracy of the identification probability on the length of the message for the Yakut and Russian texts. Authors determined the rejection reason of identification probability from identifying the language definition. The documents with transcriptional record made by graphic analogues of the Yakut national symbols were considered. Documents that have errors in the coding of the Yakut national symbols were revealed. Trigrams method showed resistance to minor transcription errors and allowed us to determine the documents with mixed language structure.
format Text
author ЛЕОНТЬЕВ НЬУРГУН АНАТОЛЬЕВИЧ
СЛЕПЦОВ ИННОКЕНТИЙ АЛЕКСЕЕВИЧ
author_facet ЛЕОНТЬЕВ НЬУРГУН АНАТОЛЬЕВИЧ
СЛЕПЦОВ ИННОКЕНТИЙ АЛЕКСЕЕВИЧ
author_sort ЛЕОНТЬЕВ НЬУРГУН АНАТОЛЬЕВИЧ
title ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА
title_short ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА
title_full ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА
title_fullStr ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА
title_full_unstemmed ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА
title_sort идентификация текстового документа с помощью триграмм на материалах якутского языка
publisher Федеральное государственное автономное образовательное учреждение высшего профессионального образования Северо-Восточный федеральный университет им. М.К. Аммосова
publishDate 2015
url http://cyberleninka.ru/article/n/identifikatsiya-tekstovogo-dokumenta-s-pomoschyu-trigramm-na-materialah-yakutskogo-yazyka
http://cyberleninka.ru/article_covers/16376447.png
geographic Sakha
geographic_facet Sakha
genre Sakha
Yakut
Саха
genre_facet Sakha
Yakut
Саха
op_rights CC BY
op_rightsnorm CC-BY
_version_ 1766180669867687936