Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering

Dans le contexte où les données sont de plus en plus abondamment disponibles, les Séries Temporelles sont essentielles pour extraire et comprendre l’évolution des phénomènes naturels, artificiels, socio-économiques sous-jacents. La littérature dans ce domaine a largement démontré que l’algorithme de...

Full description

Bibliographic Details
Main Author: Salaou, Abdoul-Djawadou
Other Authors: Strasbourg, University of Victoria (British Columbia, Canada), Gançarski, Pierre, Damian, Daniela
Format: Thesis
Language:English
Published: 2020
Subjects:
005
DML
Online Access:http://www.theses.fr/2020STRAD044
id ftstarfr:2020STRAD044
record_format openpolar
institution Open Polar
collection theses.fr
op_collection_id ftstarfr
language English
topic Séries temporelles
Multivariées
Apprentissage métrique
Contraintes
Classification
Dynamic time warping
Télédétection
Génie logiciel
Time series
Multivariate
Metric learning
Constraints
Remote sensing
Software engineering
005
spellingShingle Séries temporelles
Multivariées
Apprentissage métrique
Contraintes
Classification
Dynamic time warping
Télédétection
Génie logiciel
Time series
Multivariate
Metric learning
Constraints
Remote sensing
Software engineering
005
Salaou, Abdoul-Djawadou
Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering
topic_facet Séries temporelles
Multivariées
Apprentissage métrique
Contraintes
Classification
Dynamic time warping
Télédétection
Génie logiciel
Time series
Multivariate
Metric learning
Constraints
Remote sensing
Software engineering
005
description Dans le contexte où les données sont de plus en plus abondamment disponibles, les Séries Temporelles sont essentielles pour extraire et comprendre l’évolution des phénomènes naturels, artificiels, socio-économiques sous-jacents. La littérature dans ce domaine a largement démontré que l’algorithme de déformation dynamique du temps (Dtw), associée à une certaine distance locale/de base δ (par exemple, la distance euclidienne), est une mesure de similarité efficace pour analyser des ST univariées. Cependant, le couplage statistique possible entre les différentes dimensions rend la généralisation de cette mesure au cas multivarié tout sauf évidente. En pratique, les ST multivariées sont décrites par des attributs hétérogènes qui mettent généralement en évidence différents motifs relationnels (attributs corrélés, bruités, manquants ou non pertinents). Par conséquent, pour obtenir une comparaison « adéquate » des données, DTW a besoin d’un δ qui « comprend » l’espace des données. En effet, à mesure que la complexité des données augmente, il devient très difficile de définir une telle distance de base satisfaisante δ. Il semble totalement irréaliste de définir δ manuellement ou sur la seule base d’un avis d’expert. Cela a suscité notre intérêt pour la définition d’une nouvelle distance capable de saisir de telles dépendances inter-dimensionnelles par le biais de l’Apprentissage Métrique de Distance. L’AMD consiste à apprendre une métrique pour mieux discriminer les données en accentuant la relation de distance entre des objets considérés comme (fortement) similaires, ou à l’inverse (fortement) dissimilaires. Cette information sur la (dis)similarité est souvent fournie au moyen de contraintes must-link et cannot-link entre les objets. Toutefois, dans le cas de données volumineuses et complexes, fournir de telles contraintes reste un problème ouvert. Aussi, nous proposons une méthode, basée sur canopy clustering, pour extraire automatiquement les contraintes du jeu de données. In the context of growing availability of data, Time Series are essential for extracting and understanding the evolution of underlying natural, artificial, social or economic phenomena. The related literature has extensively shown that the Dynamic Time Warping, in conjunction with some local/base distance δ (e.g. Euclidean distance ), is an effective similarity measure when univariate TS are considered. However, possible statistical coupling among different dimensions make the generalization of this metric to the multivariate case all but obvious. In practice, multivariate TS are describe by heterogeneous features which usually highlight different patterns (correlated, noisy, missing or irrelevant features). Therefore, to obtain a « fair » comparison of the data, DTW needs a δ which « understands » the space of the data. Indeed, as the complexity of the data increases, defining such a « satisfactory » base distance/similarity δ becomes very difficult. It seems totally unrealistic to define δ manually or on the sole basis of an expert opinion. This has ignited our interest in new distance definition capable of capturing such inter-dimension dependencies by leveraging Distance Metric Learning. DML is to learn a distance metric to better discriminate the data by accentuating the distance relation among objects that are considered as (strongly) similar, or conversely (strongly) dissimilar. This information about (dis)similarity is often provided using must-link and cannot-link constraints between objects. However, in the case of voluminous and complex data, providing such constraints remains an open problem. Therefore, we propose a method, based on canopy clustering, to automatically extract the constraints from the dataset.
author2 Strasbourg
University of Victoria (British Columbia, Canada)
Gançarski, Pierre
Damian, Daniela
format Thesis
author Salaou, Abdoul-Djawadou
author_facet Salaou, Abdoul-Djawadou
author_sort Salaou, Abdoul-Djawadou
title Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering
title_short Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering
title_full Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering
title_fullStr Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering
title_full_unstemmed Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering
title_sort metric learning for multivariate time series analysis using dtw : application to remote sensing and software engineering
publishDate 2020
url http://www.theses.fr/2020STRAD044
genre DML
genre_facet DML
op_relation http://www.theses.fr/2020STRAD044
op_rights Restricted Access
http://purl.org/eprint/accessRights/RestrictedAccess
_version_ 1766397780665827328
spelling ftstarfr:2020STRAD044 2023-05-15T16:02:11+02:00 Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering Apprentissage métrique pour l'analyse des séries temporelles multivariées utilisant DTW : application à la télédétection et au génie logiciel Salaou, Abdoul-Djawadou Strasbourg University of Victoria (British Columbia, Canada) Gançarski, Pierre Damian, Daniela 2020-12-17 http://www.theses.fr/2020STRAD044 en eng http://www.theses.fr/2020STRAD044 Restricted Access http://purl.org/eprint/accessRights/RestrictedAccess Séries temporelles Multivariées Apprentissage métrique Contraintes Classification Dynamic time warping Télédétection Génie logiciel Time series Multivariate Metric learning Constraints Remote sensing Software engineering 005 Electronic Thesis or Dissertation Text 2020 ftstarfr 2022-04-12T22:47:25Z Dans le contexte où les données sont de plus en plus abondamment disponibles, les Séries Temporelles sont essentielles pour extraire et comprendre l’évolution des phénomènes naturels, artificiels, socio-économiques sous-jacents. La littérature dans ce domaine a largement démontré que l’algorithme de déformation dynamique du temps (Dtw), associée à une certaine distance locale/de base δ (par exemple, la distance euclidienne), est une mesure de similarité efficace pour analyser des ST univariées. Cependant, le couplage statistique possible entre les différentes dimensions rend la généralisation de cette mesure au cas multivarié tout sauf évidente. En pratique, les ST multivariées sont décrites par des attributs hétérogènes qui mettent généralement en évidence différents motifs relationnels (attributs corrélés, bruités, manquants ou non pertinents). Par conséquent, pour obtenir une comparaison « adéquate » des données, DTW a besoin d’un δ qui « comprend » l’espace des données. En effet, à mesure que la complexité des données augmente, il devient très difficile de définir une telle distance de base satisfaisante δ. Il semble totalement irréaliste de définir δ manuellement ou sur la seule base d’un avis d’expert. Cela a suscité notre intérêt pour la définition d’une nouvelle distance capable de saisir de telles dépendances inter-dimensionnelles par le biais de l’Apprentissage Métrique de Distance. L’AMD consiste à apprendre une métrique pour mieux discriminer les données en accentuant la relation de distance entre des objets considérés comme (fortement) similaires, ou à l’inverse (fortement) dissimilaires. Cette information sur la (dis)similarité est souvent fournie au moyen de contraintes must-link et cannot-link entre les objets. Toutefois, dans le cas de données volumineuses et complexes, fournir de telles contraintes reste un problème ouvert. Aussi, nous proposons une méthode, basée sur canopy clustering, pour extraire automatiquement les contraintes du jeu de données. In the context of growing availability of data, Time Series are essential for extracting and understanding the evolution of underlying natural, artificial, social or economic phenomena. The related literature has extensively shown that the Dynamic Time Warping, in conjunction with some local/base distance δ (e.g. Euclidean distance ), is an effective similarity measure when univariate TS are considered. However, possible statistical coupling among different dimensions make the generalization of this metric to the multivariate case all but obvious. In practice, multivariate TS are describe by heterogeneous features which usually highlight different patterns (correlated, noisy, missing or irrelevant features). Therefore, to obtain a « fair » comparison of the data, DTW needs a δ which « understands » the space of the data. Indeed, as the complexity of the data increases, defining such a « satisfactory » base distance/similarity δ becomes very difficult. It seems totally unrealistic to define δ manually or on the sole basis of an expert opinion. This has ignited our interest in new distance definition capable of capturing such inter-dimension dependencies by leveraging Distance Metric Learning. DML is to learn a distance metric to better discriminate the data by accentuating the distance relation among objects that are considered as (strongly) similar, or conversely (strongly) dissimilar. This information about (dis)similarity is often provided using must-link and cannot-link constraints between objects. However, in the case of voluminous and complex data, providing such constraints remains an open problem. Therefore, we propose a method, based on canopy clustering, to automatically extract the constraints from the dataset. Thesis DML theses.fr