Semantic Annotation of Mathematical Formulas in PDF-Documents

This article provides an overview of existing solutions for semantic analysis of mathematical documents, and also presents a method for automatic semantic analysis of documents in PDF format. This method searches for local variables in the text of the article, extracts their definitions and connects...

Full description

Bibliographic Details
Main Authors: Невзорова, Ольга Авенировна, Николаев, Константин Сергеевич
Format: Article in Journal/Newspaper
Language:Russian
Published: Kazan Federal University 2023
Subjects:
PDF
DML
Online Access:https://rdl-journal.ru/article/view/759
id ftkazanunivojs:oai:ojs.elbib.ru:article/759
record_format openpolar
spelling ftkazanunivojs:oai:ojs.elbib.ru:article/759 2023-05-15T16:01:34+02:00 Semantic Annotation of Mathematical Formulas in PDF-Documents Cемантическое аннотирование математических формул в PDF-документах Невзорова, Ольга Авенировна Николаев, Константин Сергеевич 2023-01-20 application/pdf https://rdl-journal.ru/article/view/759 rus rus Kazan Federal University https://rdl-journal.ru/article/view/759/837 https://rdl-journal.ru/article/view/759 Copyright (c) 2023 Ольга Авенировна Невзорова, Константин Сергеевич Николаев https://creativecommons.org/licenses/by/4.0 CC-BY Russian Digital Libraries Journal; Vol. 25 No. 6 (2022): Special issue «Scientific Services & Internet». Part 1; 616-639 Электронные библиотеки; Том 25 № 6 (2022): Тематический выпуск по материалам XXIV Всероссийской научной конференции «Научный сервис в сети Интернет», 19–23 сентября 2022 года. Часть 1.; 616-639 1562-5419 семантический анализ PDF обработка документов научные журналы Lobachevskii-DML УДК 004.021 УДК 004.42 semantic analysis document processing scientific journals UDC 004.021 UDC 004.42 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion 2023 ftkazanunivojs 2023-02-21T17:37:38Z This article provides an overview of existing solutions for semantic analysis of mathematical documents, and also presents a method for automatic semantic analysis of documents in PDF format. This method searches for local variables in the text of the article, extracts their definitions and connects concepts with formulas. The advantage of the method over the existing ones is independence from the markup of the original PDF document, which expands the scope of the method. We provide estimates of recall, precision and F-measure for algorithms for finding variables and linking local variables with formulas. The resulting semantic markup of the document will be used to create a collection of documents suitable for the semantic formula search service, which is part of the set of services of the Lobachevskii-DML digital publishing system. Дан обзор существующих решений по семантическому анализу математических документов, а также описан метод автоматического семантического анализа документов, представленных в формате PDF. Разработанный метод позволяет выделять математические формулы внутри документа, анализировать их структуру, выполнять поиск локальных переменных формулы и их определений в документе, а также связывать переменные формулы и понятия из онтологии. Преимуществом разработанного метода перед другими существующими является независимость от разметки исходного PDF-документа, что расширяет область применения метода. Приведены оценки полноты, точности и F-меры для алгоритмов поиска переменных и связывания локальных переменных с формулами. Полученная семантическая разметка документа позволяет создавать коллекции документов, пригодных для сервиса семантического поиска формул, который является одним из сервисов цифровой библиотеки Lobachevskii-DML. Article in Journal/Newspaper DML Kazan Federal University Science Tatarstan
institution Open Polar
collection Kazan Federal University Science Tatarstan
op_collection_id ftkazanunivojs
language Russian
topic семантический анализ
PDF
обработка документов
научные журналы
Lobachevskii-DML
УДК 004.021
УДК 004.42
semantic analysis
document processing
scientific journals
UDC 004.021
UDC 004.42
spellingShingle семантический анализ
PDF
обработка документов
научные журналы
Lobachevskii-DML
УДК 004.021
УДК 004.42
semantic analysis
document processing
scientific journals
UDC 004.021
UDC 004.42
Невзорова, Ольга Авенировна
Николаев, Константин Сергеевич
Semantic Annotation of Mathematical Formulas in PDF-Documents
topic_facet семантический анализ
PDF
обработка документов
научные журналы
Lobachevskii-DML
УДК 004.021
УДК 004.42
semantic analysis
document processing
scientific journals
UDC 004.021
UDC 004.42
description This article provides an overview of existing solutions for semantic analysis of mathematical documents, and also presents a method for automatic semantic analysis of documents in PDF format. This method searches for local variables in the text of the article, extracts their definitions and connects concepts with formulas. The advantage of the method over the existing ones is independence from the markup of the original PDF document, which expands the scope of the method. We provide estimates of recall, precision and F-measure for algorithms for finding variables and linking local variables with formulas. The resulting semantic markup of the document will be used to create a collection of documents suitable for the semantic formula search service, which is part of the set of services of the Lobachevskii-DML digital publishing system. Дан обзор существующих решений по семантическому анализу математических документов, а также описан метод автоматического семантического анализа документов, представленных в формате PDF. Разработанный метод позволяет выделять математические формулы внутри документа, анализировать их структуру, выполнять поиск локальных переменных формулы и их определений в документе, а также связывать переменные формулы и понятия из онтологии. Преимуществом разработанного метода перед другими существующими является независимость от разметки исходного PDF-документа, что расширяет область применения метода. Приведены оценки полноты, точности и F-меры для алгоритмов поиска переменных и связывания локальных переменных с формулами. Полученная семантическая разметка документа позволяет создавать коллекции документов, пригодных для сервиса семантического поиска формул, который является одним из сервисов цифровой библиотеки Lobachevskii-DML.
format Article in Journal/Newspaper
author Невзорова, Ольга Авенировна
Николаев, Константин Сергеевич
author_facet Невзорова, Ольга Авенировна
Николаев, Константин Сергеевич
author_sort Невзорова, Ольга Авенировна
title Semantic Annotation of Mathematical Formulas in PDF-Documents
title_short Semantic Annotation of Mathematical Formulas in PDF-Documents
title_full Semantic Annotation of Mathematical Formulas in PDF-Documents
title_fullStr Semantic Annotation of Mathematical Formulas in PDF-Documents
title_full_unstemmed Semantic Annotation of Mathematical Formulas in PDF-Documents
title_sort semantic annotation of mathematical formulas in pdf-documents
publisher Kazan Federal University
publishDate 2023
url https://rdl-journal.ru/article/view/759
genre DML
genre_facet DML
op_source Russian Digital Libraries Journal; Vol. 25 No. 6 (2022): Special issue «Scientific Services & Internet». Part 1; 616-639
Электронные библиотеки; Том 25 № 6 (2022): Тематический выпуск по материалам XXIV Всероссийской научной конференции «Научный сервис в сети Интернет», 19–23 сентября 2022 года. Часть 1.; 616-639
1562-5419
op_relation https://rdl-journal.ru/article/view/759/837
https://rdl-journal.ru/article/view/759
op_rights Copyright (c) 2023 Ольга Авенировна Невзорова, Константин Сергеевич Николаев
https://creativecommons.org/licenses/by/4.0
op_rightsnorm CC-BY
_version_ 1766397366710042624