DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations ... : DeCLUTR: التعلم المتباين العميق للتمثيلات النصية غير الخاضعة للإشراف ...

Sentence embeddings are an important component of many natural language processing (NLP) systems.Like word embeddings, sentence embeddings are typically learned on large text corpora and then transferred to various downstream tasks, such as clustering and retrieval.Unlike word embeddings, the highes...

Full description

Bibliographic Details
Main Authors: John Giorgi, Osvald Nitski, Bo Wang, Gary D. Bader
Format: Text
Language:English
Published: OpenAlex 2021
Subjects:
DML
Online Access:https://dx.doi.org/10.60692/tr6ct-kqt66
https://gresis.osc.int//doi/10.60692/tr6ct-kqt66
Description
Summary:Sentence embeddings are an important component of many natural language processing (NLP) systems.Like word embeddings, sentence embeddings are typically learned on large text corpora and then transferred to various downstream tasks, such as clustering and retrieval.Unlike word embeddings, the highest performing solutions for learning sentence embeddings require labelled data, limiting their usefulness to languages and domains where labelled data is abundant.In this paper, we present DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations.Inspired by recent advances in deep metric learning (DML), we carefully design a self-supervised objective for learning universal sentence embeddings that does not require labelled training data.When used to extend the pretraining of transformer-based language models, our approach closes the performance gap between unsupervised and supervised pretraining for universal sentence encoders.Importantly, our experiments suggest that the quality of the learned ... : تعد تضمينات الجمل مكونًا مهمًا في العديد من أنظمة معالجة اللغة الطبيعية. مثل تضمينات الكلمات، يتم تعلم تضمينات الجمل عادةً على مجموعات نصية كبيرة ثم يتم نقلها إلى مهام مختلفة في المراحل النهائية، مثل التجميع والاسترجاع. على عكس تضمينات الكلمات، تتطلب الحلول الأعلى أداءً لتعلم تضمينات الجمل بيانات موسومة، مما يحد من فائدتها للغات والمجالات التي تكون فيها البيانات المسماة وفيرة. في هذه الورقة، نقدم DeCLUTR: التعلم المتباين العميق للتمثيلات النصية غير الخاضعة للإشراف. مستوحاة من التطورات الحديثة في التعلم المتري العميق (DML)، نقوم بتصميم هدف ذاتي الإشراف بعناية لتعلم تضمينات الجملة العالمية التي لا تتطلب بيانات تدريب موسومة وكمية البيانات غير القابلة للتدريب. عند استخدامها لتوسيع نطاق التدريب المسبق لنماذج اللغة القائمة على المحولات، فإن نهجنا يغلق فجوة الأداء بين التدريب المسبق غير الخاضع للإشراف والإشراف لمشفرات الجملة العالمية. بشكل مهم، تشير تجاربنا إلى أن جودة التضمينات المكتسبة مع كل من عدد المعلمات القابلة للتدريب وكمية البيانات غير القابلة للتدريب. يمكن أن تكون نماذج التدريب غير المبرمجة ونماذج التدريب ...