云数据库中基于MapReduce的范围相似连接的设计与实现

采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注和研究,云计算已经成为当前一种热点技术。其中基于云计算的云数据管理系统也已成为当前学术界和各大数据厂商普遍关注的热点问题。<br> 在传统的关系型数据库中,连接查询是最主要的查询之一,同时也是查询代价很高的一种查询。同样在云数据管理系统中,连接查询依然是代价很高的查询操作。连接查询作为可以实现对多数据源进行查询的操作,有许多的实际应用需求,但同时MapReduce等计算框架又没有提供对连接操作的直接支持。...

Full description

Bibliographic Details
Main Author: 赵鹏
Other Authors: 北京大学
Format: Thesis
Language:Chinese
Published: 2013
Subjects:
Online Access:https://hdl.handle.net/20.500.11897/363994
_version_ 1821499642475446272
author 赵鹏
author2 北京大学
author_facet 赵鹏
author_sort 赵鹏
collection Peking University Institutional Repository (PKU IR)
description 采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注和研究,云计算已经成为当前一种热点技术。其中基于云计算的云数据管理系统也已成为当前学术界和各大数据厂商普遍关注的热点问题。<br> 在传统的关系型数据库中,连接查询是最主要的查询之一,同时也是查询代价很高的一种查询。同样在云数据管理系统中,连接查询依然是代价很高的查询操作。连接查询作为可以实现对多数据源进行查询的操作,有许多的实际应用需求,但同时MapReduce等计算框架又没有提供对连接操作的直接支持。因此,如何解决连接查询问题成为云数据管理系统中的核心问题之一。<br> 本文针对该问题,基于当前主流的MapReduce计算框架和Hadoop云计算平台,探讨了连接查询中的范围相似连接的实现方法,并在研制的Muldas云数据管理系统中实现了对连接查询的支持,最终通过实验对各方法进行了验证。具体包含以下几个方面:<br> 设计并实现了针对范围相似连接的多种连接查询算法,包括Map IndexSimilarity Join、Reduce Index Similarity Join和Bucket SimilarityJoin算法。其中,前两种算法仅针对连接属性上存在索引的情况,而BucketSimilarity Join算法则同时还支持普通属性上的范围相似连接。<br> 在核高基课题组研究开发的非结构化数据管理系统Muldas上,设计了类SQL查询语言——MQL查询语言,实现了查询处理部件,提供了对常见的DDL和DML语句的支持,其中包括对范围相似连接的支持。<br> 在Muldas系统上实现了上述范围相似连接算法,并通过实验验证了其在真实气象数据上的正确性及有效性。<br> 0
format Thesis
genre DML
genre_facet DML
id ftpekinguniv:oai:localhost:20.500.11897/363994
institution Open Polar
language Chinese
op_collection_id ftpekinguniv
op_doi https://doi.org/20.500.11897/363994
op_relation 北京大学.
726542
http://hdl.handle.net/20.500.11897/363994
op_source 万方
http://d.g.wanfangdata.com.cn/Thesis_Y2499394.aspx
publishDate 2013
record_format openpolar
spelling ftpekinguniv:oai:localhost:20.500.11897/363994 2025-01-16T21:39:19+00:00 云数据库中基于MapReduce的范围相似连接的设计与实现 赵鹏 北京大学 2013 https://hdl.handle.net/20.500.11897/363994 zh chi 北京大学. 726542 http://hdl.handle.net/20.500.11897/363994 万方 http://d.g.wanfangdata.com.cn/Thesis_Y2499394.aspx MapReduce 云数据库 连接查询 范围相似连接 分布式算框架 SQL查询语言 Thesis 2013 ftpekinguniv https://doi.org/20.500.11897/363994 2021-08-01T10:02:16Z 采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注和研究,云计算已经成为当前一种热点技术。其中基于云计算的云数据管理系统也已成为当前学术界和各大数据厂商普遍关注的热点问题。<br> 在传统的关系型数据库中,连接查询是最主要的查询之一,同时也是查询代价很高的一种查询。同样在云数据管理系统中,连接查询依然是代价很高的查询操作。连接查询作为可以实现对多数据源进行查询的操作,有许多的实际应用需求,但同时MapReduce等计算框架又没有提供对连接操作的直接支持。因此,如何解决连接查询问题成为云数据管理系统中的核心问题之一。<br> 本文针对该问题,基于当前主流的MapReduce计算框架和Hadoop云计算平台,探讨了连接查询中的范围相似连接的实现方法,并在研制的Muldas云数据管理系统中实现了对连接查询的支持,最终通过实验对各方法进行了验证。具体包含以下几个方面:<br> 设计并实现了针对范围相似连接的多种连接查询算法,包括Map IndexSimilarity Join、Reduce Index Similarity Join和Bucket SimilarityJoin算法。其中,前两种算法仅针对连接属性上存在索引的情况,而BucketSimilarity Join算法则同时还支持普通属性上的范围相似连接。<br> 在核高基课题组研究开发的非结构化数据管理系统Muldas上,设计了类SQL查询语言——MQL查询语言,实现了查询处理部件,提供了对常见的DDL和DML语句的支持,其中包括对范围相似连接的支持。<br> 在Muldas系统上实现了上述范围相似连接算法,并通过实验验证了其在真实气象数据上的正确性及有效性。<br> 0 Thesis DML Peking University Institutional Repository (PKU IR)
spellingShingle MapReduce
云数据库
连接查询
范围相似连接
分布式算框架
SQL查询语言
赵鹏
云数据库中基于MapReduce的范围相似连接的设计与实现
title 云数据库中基于MapReduce的范围相似连接的设计与实现
title_full 云数据库中基于MapReduce的范围相似连接的设计与实现
title_fullStr 云数据库中基于MapReduce的范围相似连接的设计与实现
title_full_unstemmed 云数据库中基于MapReduce的范围相似连接的设计与实现
title_short 云数据库中基于MapReduce的范围相似连接的设计与实现
title_sort 云数据库中基于mapreduce的范围相似连接的设计与实现
topic MapReduce
云数据库
连接查询
范围相似连接
分布式算框架
SQL查询语言
topic_facet MapReduce
云数据库
连接查询
范围相似连接
分布式算框架
SQL查询语言
url https://hdl.handle.net/20.500.11897/363994