数据库和文件中贮存的数据量天天都在增加,因而我们需求构建可以贮存大量数据(“大数据”),而且便宜、可保护、可伸缩的情况。传统的关系数据库(RDBMS)系统在以后的需求下本钱太高而且不成伸缩,因而开发、运用可以知足需求的新技术正应时宜。
在这些标的目的中,云计算是此中一项抢先的技术。云计算有很多分歧的完成,我们选择的是Hadoop,这是一个具有Apache答应、基于Google Map Reduce的框架。
在本文中,我将测验考试阐明怎么构建一个可伸缩的Hadoop集群,以存储、索引、检索和保护实际上无限容量的数据。
本文将逐渐引见这些部分的装置和设置装备摆设:
收集架构
依据我们今朝可以拿到的文档,可以以为云内的节点越在物理上靠近,越能取得更好的功能。依据经历,收集延时越小,功能越好。
为了减少布景流量,我们为这个云创立了一个虚拟专用网。别的,还为使用Server们创立了一个子网,作为拜访云的进口点。
这个虚拟专用网的估计时延约莫是1-2毫秒。如许一来,物理邻近性就不再是一个问题,我们应当经过情况测试来验证这一点。
建议的收集架构:
图1 - Hadoop集群的收集架构
操作系统
我们选择Linux作为操作系统。Linux有很多分歧的刊行版,包含Ubuntu、RedHat和CentOS等,不管选择哪个都可以。基于支撑和答应用度的思索,我们终极选择了CentOS 5.7。最好是定制一个CentOS的映像,把那些需求的软件都预装出来,如许一切的机械可以包括类似的软件和Tools,这是一个很好的做法。
依据Cloudera的建议,OS层应当采取以下设置:
硬件请求
因为Hadoop集群中只要两种节点(Namenode/Jobtracker和Datanode/Tasktracker),因而集群内的硬件设置装备摆设不要超越两种或三种。
图2 - Hadoop集群Server脚色
硬件建议:
2KB项目(www.2kb.com,源码交易平台),提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务