您好,匿名用户
随意问技术百科期待您的加入

使用hadoop分析大数据是否必须要将数据上传到hadoop系统中

0 投票

我有500G的数据,分别存储在机器A、B上,为了快速分析数据,我使用A,B,C,D四台机器做了一个hadoop集群。A是master。请问我是否需要将这500G的数据先上传到hadoop中?如果需要的话,那么我的系统中岂不是会存储两份?

用户头像 提问 2013年 9月17日 @ Shen 上等兵 (318 威望)
分享到:

1个回答

0 投票
  1. 是必须把这500G上传到你Hadoop的文件系统(HDFS)中
  2. HDFS中,默认是会存储3份(为了数据高可用和就近访问)的,也就是会在你的BCD三个节点中共占用1500G空间,你可以手工设置冗余的份数。你通过hdfs的命令只看到一个500G的文件,实际上它们被拆成64m大小的块了(块大小也可以设),每块都有3份

最后,再次建议你找相关的文档阅读、实践,反复钻研了百思不得其解的问题再来求助。你要做项目的,这点学习成本是应该付出的。你这一下就发了两个这么入门级的问题,虽然我都耐心回答了,但对你对我效率都太低了。

用户头像 回复 2013年 9月17日 @ Janna 下士 (667 威望)
提一个问题:

相关问题

0 投票
1 回复 38 阅读
0 投票
1 回复 37 阅读
用户头像 提问 2013年 12月15日 @ Olaf 上等兵 (366 威望)
+1 投票
1 回复 55 阅读
0 投票
1 回复 37 阅读

欢迎来到随意问技术百科, 这是一个面向专业开发者的IT问答网站,提供途径助开发者查找IT技术方案,解决程序bug和网站运维难题等。
温馨提示:本网站禁止用户发布与IT技术无关的、粗浅的、毫无意义的或者违法国家法规的等不合理内容,谢谢支持。

欢迎访问随意问技术百科,为了给您提供更好的服务,请及时反馈您的意见。
...