基于云的分布式机器学习框架

如今,数据挖掘在生活中也扮演着越来越重要的角色,不管是公共事业还是私人行业——银行业,保险业,医疗业,零售业大量的使用数据挖掘来发掘金融欺诈,评估金融风险,减少成本,加强研究,增加销售额等等 然而激增的数据为传统的数据挖掘方式提出了严重的挑战。商业巨头Google,Yahoo和Amazon需要浏览TB与PB级的数据来发掘哪些网站是最有吸引力的,哪些书籍是最受欢迎的,哪些广告应该呈现给浏览者。传统的工具面对这些情形越来越显无能为力。在这样的背景下,Google提出了MapReduce处理模型,DougCutting基于此开发了开源系统Hadoop,CMU提出了GraphLab处理模型——这些模....

Full description

Bibliographic Details
Main Author: 蒋文瑞
Other Authors: 倪子伟
Format: Thesis
Language:Chinese
Published: 2013
Subjects:
DML
Online Access:http://dspace.xmu.edu.cn/handle/2288/79493
Description
Summary:如今,数据挖掘在生活中也扮演着越来越重要的角色,不管是公共事业还是私人行业——银行业,保险业,医疗业,零售业大量的使用数据挖掘来发掘金融欺诈,评估金融风险,减少成本,加强研究,增加销售额等等 然而激增的数据为传统的数据挖掘方式提出了严重的挑战。商业巨头Google,Yahoo和Amazon需要浏览TB与PB级的数据来发掘哪些网站是最有吸引力的,哪些书籍是最受欢迎的,哪些广告应该呈现给浏览者。传统的工具面对这些情形越来越显无能为力。在这样的背景下,Google提出了MapReduce处理模型,DougCutting基于此开发了开源系统Hadoop,CMU提出了GraphLab处理模型——这些模. Today, Data mining is becoming increasingly common in both the private and public sectors. Industries such as banking, insurance, medicine, and retailing commonly use data mining to detect fraud, assess risk, reduce costs, enhance research, and increase sales. The exponential growth of data first presents challenges to traditional data mining tools. Businesses such as Google, Yahoo and Amazon. 学位:工程硕士 院系专业:信息科学与技术学院计算机科学系_计算机技术 学号:23020101153007