Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга

Автор статьи использовал открытые корпусы NewsRu и Taiga, собирающие тексты интерет-новостей, для создания N-граммных языковых моделей для систем автоматического распознавания речи. Модели подверглись комплексной оценке (perplexity, WER, распознавание имен собственных, сравнение с базовой моделью и...

Full description

Bibliographic Details
Published in:	Przegląd Rusycystyczny
Main Author:	Borysowski, Daniel
Format:	Article in Journal/Newspaper
Language:	Polish
Published:	Polskie Towarzystwo Rusycystyczne 2022
Subjects:	lang litt taiga
Online Access:	https://doi.org/10.31261/pr.12741 https://bibliotekanauki.pl/articles/2085252.pdf https://bibliotekanauki.pl/articles/2085252

id	fttriple:oai:gotriple.eu:oai:bibliotekanauki.pl:2085252
record_format	openpolar
spelling	fttriple:oai:gotriple.eu:oai:bibliotekanauki.pl:2085252 2023-05-15T18:30:30+02:00 Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга The use of Russian-language internet news corpora for the purposes of automatic speech recognition systems in the area of the media monitoring Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów Borysowski, Daniel 2022-03-14 https://doi.org/10.31261/pr.12741 https://bibliotekanauki.pl/articles/2085252.pdf https://bibliotekanauki.pl/articles/2085252 pl pol Polskie Towarzystwo Rusycystyczne doi:10.31261/pr.12741 https://bibliotekanauki.pl/articles/2085252.pdf https://bibliotekanauki.pl/articles/2085252 lic_creative-commons Przegląd Rusycystyczny; 2022, 1(177); 31-54 0137-298X lang litt Journal Article https://vocabularies.coar-repositories.org/resource_types/c_6501/ 2022 fttriple https://doi.org/10.31261/pr.12741 2023-01-22T16:56:47Z Автор статьи использовал открытые корпусы NewsRu и Taiga, собирающие тексты интерет-новостей, для создания N-граммных языковых моделей для систем автоматического распознавания речи. Модели подверглись комплексной оценке (perplexity, WER, распознавание имен собственных, сравнение с базовой моделью и Google ASR). Автор использовал также рекурсивные нейронные сети для так называемого рескорина N-граммных моделей. Эффективность моделей оценивалась путем распознавания речи с новостного канала Россия 24 (оценке подверглись 37 файлов общей продолжительностью 1,5 часа). Выбор тестовых данных связан с основной целью статьи – распознаванием речи в рамках так называемого медиа-мониторинга. The author of the article used open Internet-news corpuses (NewsRu and Taiga) to create N-gram language models for the needs of automatic speech recognition systems. The models were comprehensively evaluated (perplexity, WER, proper name recognition, comparison with the base model and Google ASR). The author also rescored N-gram models, using recursive neural networks. The effectiveness of the models was assessed by recognizing speech from the news channel Россия 24 (37 files with a total length of 1.5 hours were tested). The selection of test data is related to the main goal of the article – speech recognition for the needs of the so-called media monitoring. Autor artykułu wykorzystał otwarte zasoby korpusowe (NewsRu oraz Taiga), gromadzące newsy internetowe, do stworzenia N-gramowych modeli języka na potrzeby systemów automatycznego rozpoznawania mowy. Modele zostały poddane wszechstronnej ewaluacji (perplexity, word error rate, rozpoznawanie nazw własnych, porównanie z modelem bazowym oraz Google ASR). Autor dokonał także rescoringu modeli N-gramowych, wykorzystując w tym celu rekurencyjne sieci neuronowe. Skuteczność modeli oceniono w drodze rozpoznawania mowy z kanału informacyjnego Россия 24 (przetestowano 37 plików o łącznej długości 1,5 godziny). Dobór danych testowych wiąże się z zasadniczym celem artykułu – rozpoznawaniem ... Article in Journal/Newspaper taiga Unknown Przegląd Rusycystyczny 1(177)
institution	Open Polar
collection	Unknown
op_collection_id	fttriple
language	Polish
topic	lang litt
spellingShingle	lang litt Borysowski, Daniel Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга
topic_facet	lang litt
description	Автор статьи использовал открытые корпусы NewsRu и Taiga, собирающие тексты интерет-новостей, для создания N-граммных языковых моделей для систем автоматического распознавания речи. Модели подверглись комплексной оценке (perplexity, WER, распознавание имен собственных, сравнение с базовой моделью и Google ASR). Автор использовал также рекурсивные нейронные сети для так называемого рескорина N-граммных моделей. Эффективность моделей оценивалась путем распознавания речи с новостного канала Россия 24 (оценке подверглись 37 файлов общей продолжительностью 1,5 часа). Выбор тестовых данных связан с основной целью статьи – распознаванием речи в рамках так называемого медиа-мониторинга. The author of the article used open Internet-news corpuses (NewsRu and Taiga) to create N-gram language models for the needs of automatic speech recognition systems. The models were comprehensively evaluated (perplexity, WER, proper name recognition, comparison with the base model and Google ASR). The author also rescored N-gram models, using recursive neural networks. The effectiveness of the models was assessed by recognizing speech from the news channel Россия 24 (37 files with a total length of 1.5 hours were tested). The selection of test data is related to the main goal of the article – speech recognition for the needs of the so-called media monitoring. Autor artykułu wykorzystał otwarte zasoby korpusowe (NewsRu oraz Taiga), gromadzące newsy internetowe, do stworzenia N-gramowych modeli języka na potrzeby systemów automatycznego rozpoznawania mowy. Modele zostały poddane wszechstronnej ewaluacji (perplexity, word error rate, rozpoznawanie nazw własnych, porównanie z modelem bazowym oraz Google ASR). Autor dokonał także rescoringu modeli N-gramowych, wykorzystując w tym celu rekurencyjne sieci neuronowe. Skuteczność modeli oceniono w drodze rozpoznawania mowy z kanału informacyjnego Россия 24 (przetestowano 37 plików o łącznej długości 1,5 godziny). Dobór danych testowych wiąże się z zasadniczym celem artykułu – rozpoznawaniem ...
format	Article in Journal/Newspaper
author	Borysowski, Daniel
author_facet	Borysowski, Daniel
author_sort	Borysowski, Daniel
title	Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга
title_short	Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга
title_full	Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга
title_fullStr	Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга
title_full_unstemmed	Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга
title_sort	использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга
publisher	Polskie Towarzystwo Rusycystyczne
publishDate	2022
url	https://doi.org/10.31261/pr.12741 https://bibliotekanauki.pl/articles/2085252.pdf https://bibliotekanauki.pl/articles/2085252
genre	taiga
genre_facet	taiga
op_source	Przegląd Rusycystyczny; 2022, 1(177); 31-54 0137-298X
op_relation	doi:10.31261/pr.12741 https://bibliotekanauki.pl/articles/2085252.pdf https://bibliotekanauki.pl/articles/2085252
op_rights	lic_creative-commons
op_doi	https://doi.org/10.31261/pr.12741
container_title	Przegląd Rusycystyczny
container_issue	1(177)
_version_	1766214009677152256

Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга

Similar Items