开源的Apache Hadoop是一个使用简单编程模型的、跨集群的大规模数据分布式处理框架。换句话说,这是一个大数据,数据仓库和大数据分析工具。数据仓库研究所(TDWI)一个最佳实践调查报告中指出计划在生产中使用Hadoop集群的企业数量大幅增加。到2016年第一季度,受调查者在生产中使用Hadoop的数量将从今年早些时候报告的16%提升到60%。进一步加强Hadoop作为未来的一个企业级工具,排斥Hadoop的组织已经从2012年的27%下降到6%。
基于这样的速度,TDWI预测五年内Hadoop将成为主要的实践方法。根据Hadoop在企业中的应用汇总的调查结果,TDWI提出了一份包含10个重要事项的清单(他们称之为建议,要求或规则),它可以帮助新的企业从Hadoop中获得最大的利益。
1:要以开放的姿态对待Hadoop和其他新选择
企业应接受使用开放源代码,接受分析、数据结构和来源的新形式,以及利用大数据的新企业方法。TDWI写到:“你可以拥抱和引导变革并因此而进步,也可以保持现状与机会擦肩而过。”
2:在企业级Hadoop大数据的基础上创新
89%TDWI调查受访者认为Hadoop是一个创新的机会。该报告的作者建议使用Hadoop来扩大数据挖掘和统计分析数据样本,使用社交数据完善客户视图,并利用Hadoop的低成本来创新企业预算编制,基础设施配置和资金。
3:基于Hadoop在业务和技术需求上的应用
TDWI认为Hadoop的任意一个好处——先进的分析,大数据的利用,数据的探索,延长较旧的数据管理平台,归档,控制成本——都有足够的吸引力来认真考虑它。报告中他们还补充说:如果你的组织有这些需求,他们将引导你使用更深入的企业级Hadoop。
4:了解障碍,以便你可以跨越他们
报告中所描述的障碍包括:业务支撑薄弱,安全问题,以及过度手工编码。TDWI写道“永远不要让这些阻止你”。受访者有办法解决这些问题,并且Hadoop生态系统的持续发展正在努力解决这些障碍。
5:对Hadoop和大数据管理(也许是新职员)进行培训
公司应注重培训和招聘数据专家——数据分析师,数据科学家以及数据架构师——这些人可以开发数据探索,分析,归档和内容管理的应用程序。该报告的作者写道:“如果有疑问,雇佣和培训数据专家来进行大数据的管理,而不是应用专家。”当TDWI问到受访者如何配置Hadoop职员时,73%的受访者正在对现有的员工进行培训; 41%的受访者正在招聘有相关经验新员工; 36%的受访者正在使用咨询顾问。
6:增选Hadoop来重新考虑数据和内容架构的经济性
报告受访者描述了他们是如何在他们的环境中开发多平台的,每个平台都是特定工作负载和用户需求中同类最佳的。这也导致了新的成本模型,企业可以直接通过成本最低的平台完成数据处理工作。“Hadoop的低成本是在本企业范围内变更IT组合和架构的主要驱动力”,数据仓库研究所写道。
7:通过定义架构中Hadoop的位置来为混合数据生态系统做准备
TDWI认为Hadoop“企业价值”的应用案例将会越来越被新用户理解。较为成功的“启动器”使用案例包括:在数据仓库环境中分段运输,使用Hadoop作为大型数据集的共同位置点以促进广泛的数据探索,进行高级数据分析处理,以取代陈旧的档案,并作为内容管理系统的延伸。
8:考虑Hadoop在普遍的BI /DW和分析应用之外的使用情况
BI/DW代表商业智能和数据仓库。作者写道:“存档和备份系统在大多数公司已经变得过时和无效。”Hadoop的低成本和可扩展性使其使用案例有吸引力。根据调查的受访者反映,其他的使用案例包括:内容管理,文档管理和记录管理。
9:寻找使Hadoop数据呈现相关性的功能
包括基于SQL的分析,关系型功能是企业采用Hadoop的必不可少的功能,因为高配置的用例需要它们。很多厂商和开源组织正在开发改进使Hadoop对SQL有更好的支持,该报告的作者强调这些改进不会减损Hadoop作为一个NoSQL平台的“独特能力”。“Hadoop的强大之处是,它支持多种方法和多种类型数据的能力”,TDWI写道。并补充说,以这种方式“Hadoop几乎每天都在变得更加多样化。”
10:开发和应用企业级Hadoop策略
最后,对Hadoop不熟悉的组织应该从概念验证(POC)项目开始,该项目将评估多个用例的商业价值。其出发点可能包括探索,发现和分析大数据的具体形式。该POC团队还可以测试数据仓库扩展、归档、内容管理和存储配置的能力。作者写道该POC项目的最终目标是“创造基于Hadoop的应用程序并最终横跨整个企业。”