云数据库中基于MapReduce的范围相似连接的设计与实现

采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注和研究,云计算已经成为当前一种热点技术。其中基于云计算的云数据管理系统也已成为当前学术界和各大数据厂商普遍关注的热点问题。<br> 在传统的关系型数据库中,连接查询是最主要的查询之一,同时也是查询代价很高的一种查询。同样在云数据管理系统中,连接查询依然是代价很高的查询操作。连接查询作为可以实现对多数据源进行查询的操作,有许多的实际应用需求,但同时MapReduce等计算框架又没有提供对连接操作的直接支持。...

Full description

Bibliographic Details
Main Author: 赵鹏
Other Authors: 北京大学
Format: Thesis
Language:Chinese
Published: 2013
Subjects:
DML
Online Access:https://hdl.handle.net/20.500.11897/363994
Description
Summary:采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注和研究,云计算已经成为当前一种热点技术。其中基于云计算的云数据管理系统也已成为当前学术界和各大数据厂商普遍关注的热点问题。<br> 在传统的关系型数据库中,连接查询是最主要的查询之一,同时也是查询代价很高的一种查询。同样在云数据管理系统中,连接查询依然是代价很高的查询操作。连接查询作为可以实现对多数据源进行查询的操作,有许多的实际应用需求,但同时MapReduce等计算框架又没有提供对连接操作的直接支持。因此,如何解决连接查询问题成为云数据管理系统中的核心问题之一。<br> 本文针对该问题,基于当前主流的MapReduce计算框架和Hadoop云计算平台,探讨了连接查询中的范围相似连接的实现方法,并在研制的Muldas云数据管理系统中实现了对连接查询的支持,最终通过实验对各方法进行了验证。具体包含以下几个方面:<br> 设计并实现了针对范围相似连接的多种连接查询算法,包括Map IndexSimilarity Join、Reduce Index Similarity Join和Bucket SimilarityJoin算法。其中,前两种算法仅针对连接属性上存在索引的情况,而BucketSimilarity Join算法则同时还支持普通属性上的范围相似连接。<br> 在核高基课题组研究开发的非结构化数据管理系统Muldas上,设计了类SQL查询语言——MQL查询语言,实现了查询处理部件,提供了对常见的DDL和DML语句的支持,其中包括对范围相似连接的支持。<br> 在Muldas系统上实现了上述范围相似连接算法,并通过实验验证了其在真实气象数据上的正确性及有效性。<br> 0