ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА

В данной статье рассматривается вопрос идентификации якутского языка для текстового документа. Идентификация языка текстового документа производится с помощью метода триграмм, который является частным случаем метода N-грамм. Применяется база данных триграмм на основе газетного корпуса якутского язык...

Full description

Bibliographic Details
Main Authors:	ЛЕОНТЬЕВ НЬУРГУН АНАТОЛЬЕВИЧ, СЛЕПЦОВ ИННОКЕНТИЙ АЛЕКСЕЕВИЧ
Format:	Text
Language:	unknown
Published:	Федеральное государственное автономное образовательное учреждение высшего профессионального образования Северо-Восточный федеральный университет им. М.К. Аммосова 2015
Subjects:	ТРИГРАММЫ,БАЗА ТРИГРАММ,МЕТОД N-ГРАММ,КОДИРОВКА UTF-8,ТРАНСКРИПЦИОННАЯ ЗАПИСЬ,ИДЕНТИФИКАЦИЯ ЯЗЫКА,ТОЧНОСТЬ ИДЕНТИФИКАЦИИ,АЛГОРИТМ ИДЕНТИФИКАЦИИ,ТЕКСТОВЫЙ ДОКУМЕНТ,ИНТЕРНЕТ-ГАЗЕТА Sakha Yakut Саха
Online Access:	http://cyberleninka.ru/article/n/identifikatsiya-tekstovogo-dokumenta-s-pomoschyu-trigramm-na-materialah-yakutskogo-yazyka http://cyberleninka.ru/article_covers/16376447.png

Description
Summary:	В данной статье рассматривается вопрос идентификации якутского языка для текстового документа. Идентификация языка текстового документа производится с помощью метода триграмм, который является частным случаем метода N-грамм. Применяется база данных триграмм на основе газетного корпуса якутского языка. Разработана программа для автоматической идентификации текста в кодировке UTF-8 стандарта Unicode. Для проверки точности идентификации языка был собран материал из сайтов республиканских газет «Кыым», «Саха Сирэ» и «Аартык.ру» на якутском языке и из интернет-газеты «Sakhalife.ru» на русском языке с небольшим содержанием статей на якутском языке. Общий объем обработанных материалов составил более 100 тыс. газетных статей на русском и якутском языках. Получены графики зависимости точности вероятности идентификации с помощью триграмм от длины сообщения для текстов на якутском и русском языках. Определены причины отклонения вероятности идентификации от значения определения языка. Рассмотрены документы, имеющие транскрипционную запись графических аналогов якутских национальных символов. Выявлены документы, имеющие ошибки в кодировке якутских национальных символов. Метод триграмм показал устойчивость к незначительным транскрипционным ошибкам и позволил определить также документы со смешанным языковым составом. The article describes the issue of identification of the Yakut language for text documents. Identification of the language of a text document produced by the method of trigrams, which is a special case of the method of N-grams. Database is used trigrams based on the corpus of the Yakut language newspapers. A program for automatical identification of text in UTF-8 encoding Unicode standard is developed. For the verification of the accuracy of the language identification there was collected material from the websites of national newspapers «Kyym», «Sakha Sire» and «Aartyk.ru» in the Yakut language and from the Internet-newspaper «Sakhalife.ru» in Russian with a small amount of articles in the Yakut language. The total volume of processed materials amounted more than 100 thousand articles in the Russian and Yakut languages. Trigrams helped to obtain dependency graphs of accuracy of the identification probability on the length of the message for the Yakut and Russian texts. Authors determined the rejection reason of identification probability from identifying the language definition. The documents with transcriptional record made by graphic analogues of the Yakut national symbols were considered. Documents that have errors in the coding of the Yakut national symbols were revealed. Trigrams method showed resistance to minor transcription errors and allowed us to determine the documents with mixed language structure.

ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА

Similar Items