Semantic Annotation of Mathematical Formulas in PDF-Documents
This article provides an overview of existing solutions for semantic analysis of mathematical documents, and also presents a method for automatic semantic analysis of documents in PDF format. This method searches for local variables in the text of the article, extracts their definitions and connects...
Main Authors: | , |
---|---|
Format: | Article in Journal/Newspaper |
Language: | Russian |
Published: |
Kazan Federal University
2023
|
Subjects: | |
Online Access: | https://rdl-journal.ru/article/view/759 |
id |
ftkazanunivojs:oai:ojs.elbib.ru:article/759 |
---|---|
record_format |
openpolar |
spelling |
ftkazanunivojs:oai:ojs.elbib.ru:article/759 2023-05-15T16:01:34+02:00 Semantic Annotation of Mathematical Formulas in PDF-Documents Cемантическое аннотирование математических формул в PDF-документах Невзорова, Ольга Авенировна Николаев, Константин Сергеевич 2023-01-20 application/pdf https://rdl-journal.ru/article/view/759 rus rus Kazan Federal University https://rdl-journal.ru/article/view/759/837 https://rdl-journal.ru/article/view/759 Copyright (c) 2023 Ольга Авенировна Невзорова, Константин Сергеевич Николаев https://creativecommons.org/licenses/by/4.0 CC-BY Russian Digital Libraries Journal; Vol. 25 No. 6 (2022): Special issue «Scientific Services & Internet». Part 1; 616-639 Электронные библиотеки; Том 25 № 6 (2022): Тематический выпуск по материалам XXIV Всероссийской научной конференции «Научный сервис в сети Интернет», 19–23 сентября 2022 года. Часть 1.; 616-639 1562-5419 семантический анализ PDF обработка документов научные журналы Lobachevskii-DML УДК 004.021 УДК 004.42 semantic analysis document processing scientific journals UDC 004.021 UDC 004.42 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion 2023 ftkazanunivojs 2023-02-21T17:37:38Z This article provides an overview of existing solutions for semantic analysis of mathematical documents, and also presents a method for automatic semantic analysis of documents in PDF format. This method searches for local variables in the text of the article, extracts their definitions and connects concepts with formulas. The advantage of the method over the existing ones is independence from the markup of the original PDF document, which expands the scope of the method. We provide estimates of recall, precision and F-measure for algorithms for finding variables and linking local variables with formulas. The resulting semantic markup of the document will be used to create a collection of documents suitable for the semantic formula search service, which is part of the set of services of the Lobachevskii-DML digital publishing system. Дан обзор существующих решений по семантическому анализу математических документов, а также описан метод автоматического семантического анализа документов, представленных в формате PDF. Разработанный метод позволяет выделять математические формулы внутри документа, анализировать их структуру, выполнять поиск локальных переменных формулы и их определений в документе, а также связывать переменные формулы и понятия из онтологии. Преимуществом разработанного метода перед другими существующими является независимость от разметки исходного PDF-документа, что расширяет область применения метода. Приведены оценки полноты, точности и F-меры для алгоритмов поиска переменных и связывания локальных переменных с формулами. Полученная семантическая разметка документа позволяет создавать коллекции документов, пригодных для сервиса семантического поиска формул, который является одним из сервисов цифровой библиотеки Lobachevskii-DML. Article in Journal/Newspaper DML Kazan Federal University Science Tatarstan |
institution |
Open Polar |
collection |
Kazan Federal University Science Tatarstan |
op_collection_id |
ftkazanunivojs |
language |
Russian |
topic |
семантический анализ обработка документов научные журналы Lobachevskii-DML УДК 004.021 УДК 004.42 semantic analysis document processing scientific journals UDC 004.021 UDC 004.42 |
spellingShingle |
семантический анализ обработка документов научные журналы Lobachevskii-DML УДК 004.021 УДК 004.42 semantic analysis document processing scientific journals UDC 004.021 UDC 004.42 Невзорова, Ольга Авенировна Николаев, Константин Сергеевич Semantic Annotation of Mathematical Formulas in PDF-Documents |
topic_facet |
семантический анализ обработка документов научные журналы Lobachevskii-DML УДК 004.021 УДК 004.42 semantic analysis document processing scientific journals UDC 004.021 UDC 004.42 |
description |
This article provides an overview of existing solutions for semantic analysis of mathematical documents, and also presents a method for automatic semantic analysis of documents in PDF format. This method searches for local variables in the text of the article, extracts their definitions and connects concepts with formulas. The advantage of the method over the existing ones is independence from the markup of the original PDF document, which expands the scope of the method. We provide estimates of recall, precision and F-measure for algorithms for finding variables and linking local variables with formulas. The resulting semantic markup of the document will be used to create a collection of documents suitable for the semantic formula search service, which is part of the set of services of the Lobachevskii-DML digital publishing system. Дан обзор существующих решений по семантическому анализу математических документов, а также описан метод автоматического семантического анализа документов, представленных в формате PDF. Разработанный метод позволяет выделять математические формулы внутри документа, анализировать их структуру, выполнять поиск локальных переменных формулы и их определений в документе, а также связывать переменные формулы и понятия из онтологии. Преимуществом разработанного метода перед другими существующими является независимость от разметки исходного PDF-документа, что расширяет область применения метода. Приведены оценки полноты, точности и F-меры для алгоритмов поиска переменных и связывания локальных переменных с формулами. Полученная семантическая разметка документа позволяет создавать коллекции документов, пригодных для сервиса семантического поиска формул, который является одним из сервисов цифровой библиотеки Lobachevskii-DML. |
format |
Article in Journal/Newspaper |
author |
Невзорова, Ольга Авенировна Николаев, Константин Сергеевич |
author_facet |
Невзорова, Ольга Авенировна Николаев, Константин Сергеевич |
author_sort |
Невзорова, Ольга Авенировна |
title |
Semantic Annotation of Mathematical Formulas in PDF-Documents |
title_short |
Semantic Annotation of Mathematical Formulas in PDF-Documents |
title_full |
Semantic Annotation of Mathematical Formulas in PDF-Documents |
title_fullStr |
Semantic Annotation of Mathematical Formulas in PDF-Documents |
title_full_unstemmed |
Semantic Annotation of Mathematical Formulas in PDF-Documents |
title_sort |
semantic annotation of mathematical formulas in pdf-documents |
publisher |
Kazan Federal University |
publishDate |
2023 |
url |
https://rdl-journal.ru/article/view/759 |
genre |
DML |
genre_facet |
DML |
op_source |
Russian Digital Libraries Journal; Vol. 25 No. 6 (2022): Special issue «Scientific Services & Internet». Part 1; 616-639 Электронные библиотеки; Том 25 № 6 (2022): Тематический выпуск по материалам XXIV Всероссийской научной конференции «Научный сервис в сети Интернет», 19–23 сентября 2022 года. Часть 1.; 616-639 1562-5419 |
op_relation |
https://rdl-journal.ru/article/view/759/837 https://rdl-journal.ru/article/view/759 |
op_rights |
Copyright (c) 2023 Ольга Авенировна Невзорова, Константин Сергеевич Николаев https://creativecommons.org/licenses/by/4.0 |
op_rightsnorm |
CC-BY |
_version_ |
1766397366710042624 |