hadoop怎么解决即时交互需求

如题所述

推荐答案推荐于2016-10-11

Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop！实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择。对另一些问题来说，选择Hadoop甚至会是一个错误。对于数据转换的操作，或者更广泛意义上的抽取－转换－装载的操作（译者注：Extraction Transformation Load，ETL，数据仓库中对数据从初始状态到可用状态处理过程的经典定义)，使用Hadoop系统能够得到很多好处，但是如果你的问题是下面5类之中的一个的话，Hadoop可能会是一不合适的解决方案。

1.对于大数据的渴望
很多人相信他们拥有正真“大”的数据，但通常情况并非如此。当考虑数据容量和理解大多数人对“大数据”处理的想法的时候，我们应当参考这篇研究论文，没有人会因为买了一个集群的服务器而被辞退，它告诉了我们一些有趣的事实。 Hadoop是被设计成用来处理在TB或PB级别的数据的，而世界上大多数的计算任务处理的是100GB以下的输入数据。（Microsoft和Yahoo在这个数据统计上的中位数是14GB,而90% Facebook的任务处理的是100GB以下的数据）。对于这样的情况来说，纵向扩展的解决方案就会在性能上胜过横向扩展（scale-out）的解决方案。

（译者注：纵向扩展scale-up通常是指在一台机器上增加或更换内存、CPU、硬盘或网络设备等硬件来实现系统整体性能的提升, 横向扩展（scale-out）指的是通过在集群中增加机器来提升集群系统整体性能的提升。论文中比较了对Hadoop系统进行各种纵向扩展和横向扩展之后，在性能指标上进行评测的试验。结论是在某些情况下在一台机器上的纵向扩展会比在Hadoop集群中增加机器得到更高的系统性能，而且性价比会更好。这个结论打破了大多数人对Hadoop系统的简单认识，那就是一定要用若干廉价的机器组成集群才能到达最好的整体性能。）

所以你需要问自己：
我是否有超过几个TB的数据？
我是否有稳定、海量的输入数据？
我有多少数据要操作和处理？

2.你在队列中
当你在Hadoop系统中提交计算任务的时候，最小的延迟时间是1分钟。这意味系统对于客户的商品购买信息要花1分钟的时间才能响应并提供相关商品推荐。这要求系统有非常忠实和耐心的客户，盯着电脑屏幕超过60秒钟等待结果的出现。一种好的方案是将库存中的每一件商品都做一个预先的相关商品的计算，放在Hadoop上。然后提供一个网站，或者是移动应用来访问预先存储的结果，达到1秒或以下的即时响应。 Hadoop是一个非常好的做预先计算的大数据引擎。当然，随着需要返回的数据越来越复杂，完全的预先计算会变得越来越没有效率。

所以你需要问自己：
用户期望的系统响应时间大概在什么范围？
哪些计算任务是可以通过批处理的方式来运行的？

（译者注：原作者应该是用了B2C电子商务网站上经典的商品推荐功能作为用例，描述如何用Hadoop实现这个功能。）

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/DvipUiUn2in2psvU2D.html

相似回答

如何利用hadoop RPC框架实现和NameNode的交互答：1. 修改proto文件，定义message和service 假设我们现在要实现的是一个检查某个文件或文件夹权限是否符合755，并对客户端返回boolean值。这是一个属于Client和NameNode交互的一个方法，所以我们在Idea中ctrl+shift+N快速的找到ClientNamenodeProtocol.proto，添加对应的message（结构化数据被称为message）messag...

Druid:一个用于大数据实时处理的开源分布式系统答：Druid的初衷是解决查询延迟问题，起初尝试用Hadoop进行交互式查询分析，但无法满足实时需求。它提供了交互式数据访问能力，通过特殊的存储格式平衡了查询的灵活性和性能。Druid的功能介于PowerDrill和Dremel之间，支持单表查询、列式存储格式、索引服务以及实时数据摄取和查询等特性。Druid的特性包括：专为分析设计...

大数据对hadoop有什么需求答：大数据对hadoop有以下需求：大数据需要hadoop进行分布式存储，并且可以处理大量的数据。hadoop需要处理大数据的离线分析，包括数据挖掘、机器学习等。hadoop需要处理大数据的实时分析，包括实时数据挖掘、实时机器学习等。hadoop需要处理大数据的在线分析，包括在线数据挖掘、在线机器学习等。hadoop需要处理大数据的索引和...

Hadoop Studio简介答：通过Hadoop Studio，开发者能够体验到直观的工作流视图，这个视图实时展示了任务之间的独立输入输出关系以及它们之间的交互，而且这个特性使得视图能够即时响应代码的任何改动，极大地提高了开发效率。此外，Hadoop Studio的一大亮点是其一键生成功能，可以直接生成适用于Hadoop集群的运行Jar包，无需繁琐的手动配置...

hadoop是用来解决什么样的问题的?答：以适应数据量的增长或减少。同时，由于Hadoop是基于开源技术构建的，用户可以免费使用并根据自身需求进行定制，从而降低了成本。总之，Hadoop通过其分布式存储和计算的能力，为处理大规模数据集提供了有效的解决方案，使得企业和研究机构能够充分利用大数据的价值，推动业务创新和发展。

hadoop 的作用答：1、Hadoop的最常见用法之一是Web搜索。它将 Web爬行器检索到的文本 Web 页面作为输入，并且将这些页面上的单词的频率报告作为结果。然后可以在整个 Web 搜索过程中使用这个结果从已定义的搜索参数中识别内容。2、Hadoop的框架最核心的应用就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则...

大家正在搜

互联网产品用户体验的交互需求 hadoop怎么用 hadoop mapreduce 交互设计的用户需求分析交互设计的需求 hadoop hdfs hadoop和spark spark和hadoop哪个好怎样做交互分析