统一资源检索平台中数据映射与处理子系统的设计与实现

CALIS统一资源检索平台的主要目的是汇总分布在各图书馆的数据资源,并提供一站式检索服务,以实现各图书馆间的数据资源共享与发布。数据映射与处理子系统是统一资源检索平台中的重要组成部分。目的是为了实现各种异构资源到统一平台标准格式的映射,以达到良好的数据清洗效果。<br> CALIS统一资源检索平台收取了众多图书馆的大量异构资源,如何整合、规范化这些资源是数据映射与处理子系统需要解决的问题。<br> 为实现异构数据在统一资源检索平台的检索发布服务,本文首先定义了平台使用的标准元数据格式,并定义了其他格式数据到此标准的映射文件。&lt...

Full description

Bibliographic Details
Main Author: 陈金莉
Other Authors: 北京大学
Format: Thesis
Language:Chinese
Published: 2012
Subjects:
DML
Online Access:https://hdl.handle.net/20.500.11897/354259
Description
Summary:CALIS统一资源检索平台的主要目的是汇总分布在各图书馆的数据资源,并提供一站式检索服务,以实现各图书馆间的数据资源共享与发布。数据映射与处理子系统是统一资源检索平台中的重要组成部分。目的是为了实现各种异构资源到统一平台标准格式的映射,以达到良好的数据清洗效果。<br> CALIS统一资源检索平台收取了众多图书馆的大量异构资源,如何整合、规范化这些资源是数据映射与处理子系统需要解决的问题。<br> 为实现异构数据在统一资源检索平台的检索发布服务,本文首先定义了平台使用的标准元数据格式,并定义了其他格式数据到此标准的映射文件。<br> 本文通过对图书馆界常用的元数据MARC与DC的发展历程回顾,分析了数据映射中常见的MARC、EXCEL、CSV及XML等格式的数据结构,得出了数据映射的本质即是不同层次树形结构之间数据节点的映射的结论。<br> 在映射实现中,本文设计了一种树形递归结构的中间数据程序对象,各种来源格式数据通过文件解析均可映射到此对象,因此,来源数据到标准格式之间的映射即转换为两个中间对象之间的节点映射。也因为此,系统不仅支持多种格式到标准格式的转换,还可支持多种格式之间的相关转换。<br> 数据映射只解决数据统一存储的问题,数据规范化是统一资源检索平台数据查重与清洗的前提,如何对大量质量参差不齐的MARC数据进行规范化处理是本系统需解决的另一个问题。减少开发人员投入,数据处理人员能够直接通过系统对MARC数据进行增、删、改是数据映射与处理子系统的目标之一。本文提出使用类DML语言的MARC数据处理方式,数据处理人员可模仿SQL方式通过配置处理文件实现对MARC数据的简单或复杂处理,大大节约了人员用工成本。<br> 本文还对系统的设计与实现技术进行了详细的阐述,系统基于JAVA富客户端技术开发,采用MVC3层框架,界面使用开源SWT组件。在实现过程中多处运用JAVA方法反映射机制,以实现配置文件与程序之间的自动匹配,确保了系统的可扩展性。<br> 最后,本文对系统的性能及功能测试结果进行了阐述和总结,并对基于RDF数据映射的前景进行了展望。 0