ОБЛАЧНЫЕ СЕРВИСЫ ДЛЯ ОБРАБОТКИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ : CLOUD SERVICES FOR NATURAL LANGUAGE PROCESSING

В работе приведены результаты экспериментов, проведенных с целью сравнительного анализа качества работы существующих облачных сервисов по обработке текстов на русском языке. В статье приводится обзор 10-ти облачных сервисов: TextRazor, RosetteTextAnalytics, EurekaEngine, CloudNaturalLanguage, Texter...

Full description

Bibliographic Details
Main Authors: Mukhamediev, R.I., Symagulov, A., Kuchin, Y.I., Abdullayeva, S., Abdoldina, F.N.
Format: Text
Language:Russian
Published: Международный научный журнал “Современные информационные технологии и ИТ-образование” 2018
Subjects:
Ner
Online Access:https://dx.doi.org/10.25559/sitito.14.201804.872-880
http://sitito.cs.msu.ru/index.php/SITITO/article/view/453
Description
Summary:В работе приведены результаты экспериментов, проведенных с целью сравнительного анализа качества работы существующих облачных сервисов по обработке текстов на русском языке. В статье приводится обзор 10-ти облачных сервисов: TextRazor, RosetteTextAnalytics, EurekaEngine, CloudNaturalLanguage, Texterra, Pullenti, NER-ru, UDPipe, AOT, DeepPavlov. Количественные исследования качества работы выполнены для 6-ти из них. В процессе оценки сервисов анализировалось выполнение таких функций, как частеречная разметка, анализ тональности, распознавание именованных сущностей и категоризация текстов. Для сравнительной оценки качества работы сервисов были использованы материалы соревнований: factRuEval-2016 (выявление именованных сущностей), AlemResearch (тональность) и корпуса текстов, Taiga и OpenCorpora (морфологическая разметка). Качество распознавания именованных сущностей оценивалось путем расчета параметров Accuracy, Precision, Recall и F1. В результате проведенного исследования показано, что при решении задач обработки текста на русском языке для распознавания именованных сущностей и определения тональности текста наилучший результат показывает сервис EurekaEngine, а для частеречной разметки текста – сервис RosetteTextAnalytics, для категоризации текста – сервис TextRazor. : The paper presents the results of experiments conducted with the aim of a comparative analysis of the performance of the existing cloud services for natural language processing in Russian. The article provides an overview of 10 cloud services: TextRazor, RosetteTextAnalytics, EurekaEngine, CloudNaturalLanguage, Texterra, Pullenti, NER-ru, UDPipe, AOT, DeepPavlov. Quantitative studies of their performance were made for 6 of them. In the process of evaluating services, the execution of such functions as the part of speech tagging, sentiment analysis, named entity recognition and the categorization of texts were analyzed. For a comparative assessment of the quality of the services, the following competition materials were used: factRuEval-2016 (named entities), AlemResearch (sentiment) and the corpora, Taiga and OpenCorpora (part of speech). The named entities recognition quality was evaluated by calculating Accuracy, Precision, Recall, and F1 parameters. As a result of the study, it was shown that when solving natural language text processing tasks in Russian, the best result is shown by the EurekaEngine service for recognizing named entities and sentiment analysis of the text, RosetteTextAnalytics service proved best in part of speech tagging the and TextRazor service in text categorization. : №4 (2019)