Metric learning for multivariate time series analysis using Dtw : application to remote sensing and software engineering

Dans le contexte où les données sont de plus en plus abondamment disponibles, les Séries Temporelles sont essentielles pour extraire et comprendre l’évolution des phénomènes naturels, artificiels, socio-économiques sous-jacents. La littérature dans ce domaine a largement démontré que l’algorithme de...

Full description

Bibliographic Details
Main Author: Salaou, Abdoul-Djawadou
Other Authors: Strasbourg, University of Victoria (British Columbia, Canada), Gançarski, Pierre, Damian, Daniela
Format: Thesis
Language:English
Published: 2020
Subjects:
005
DML
Online Access:http://www.theses.fr/2020STRAD044
Description
Summary:Dans le contexte où les données sont de plus en plus abondamment disponibles, les Séries Temporelles sont essentielles pour extraire et comprendre l’évolution des phénomènes naturels, artificiels, socio-économiques sous-jacents. La littérature dans ce domaine a largement démontré que l’algorithme de déformation dynamique du temps (Dtw), associée à une certaine distance locale/de base δ (par exemple, la distance euclidienne), est une mesure de similarité efficace pour analyser des ST univariées. Cependant, le couplage statistique possible entre les différentes dimensions rend la généralisation de cette mesure au cas multivarié tout sauf évidente. En pratique, les ST multivariées sont décrites par des attributs hétérogènes qui mettent généralement en évidence différents motifs relationnels (attributs corrélés, bruités, manquants ou non pertinents). Par conséquent, pour obtenir une comparaison « adéquate » des données, DTW a besoin d’un δ qui « comprend » l’espace des données. En effet, à mesure que la complexité des données augmente, il devient très difficile de définir une telle distance de base satisfaisante δ. Il semble totalement irréaliste de définir δ manuellement ou sur la seule base d’un avis d’expert. Cela a suscité notre intérêt pour la définition d’une nouvelle distance capable de saisir de telles dépendances inter-dimensionnelles par le biais de l’Apprentissage Métrique de Distance. L’AMD consiste à apprendre une métrique pour mieux discriminer les données en accentuant la relation de distance entre des objets considérés comme (fortement) similaires, ou à l’inverse (fortement) dissimilaires. Cette information sur la (dis)similarité est souvent fournie au moyen de contraintes must-link et cannot-link entre les objets. Toutefois, dans le cas de données volumineuses et complexes, fournir de telles contraintes reste un problème ouvert. Aussi, nous proposons une méthode, basée sur canopy clustering, pour extraire automatiquement les contraintes du jeu de données. In the context of growing availability of data, Time Series are essential for extracting and understanding the evolution of underlying natural, artificial, social or economic phenomena. The related literature has extensively shown that the Dynamic Time Warping, in conjunction with some local/base distance δ (e.g. Euclidean distance ), is an effective similarity measure when univariate TS are considered. However, possible statistical coupling among different dimensions make the generalization of this metric to the multivariate case all but obvious. In practice, multivariate TS are describe by heterogeneous features which usually highlight different patterns (correlated, noisy, missing or irrelevant features). Therefore, to obtain a « fair » comparison of the data, DTW needs a δ which « understands » the space of the data. Indeed, as the complexity of the data increases, defining such a « satisfactory » base distance/similarity δ becomes very difficult. It seems totally unrealistic to define δ manually or on the sole basis of an expert opinion. This has ignited our interest in new distance definition capable of capturing such inter-dimension dependencies by leveraging Distance Metric Learning. DML is to learn a distance metric to better discriminate the data by accentuating the distance relation among objects that are considered as (strongly) similar, or conversely (strongly) dissimilar. This information about (dis)similarity is often provided using must-link and cannot-link constraints between objects. However, in the case of voluminous and complex data, providing such constraints remains an open problem. Therefore, we propose a method, based on canopy clustering, to automatically extract the constraints from the dataset.