当前搜索：

spark on hive

spark on hive和hive on spark的区别答：spark on hive : 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd.（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息（2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据（3）接下来就可以通过spark sql来操作hive表中的数据 hive on...

hive on spark僵死问题分析答：在hivesiver2加载的时候会先加载hive-env.sh再加载hadoop-env.sh 的客户端参数HADOOP_CLIENT_OPTS，即然我们知道是加载的HADOOP_CLIENT_OPTS参数。我们只要更改hive-env.sh 增加如下配置。重启hiveserver2可以看到hiveserver2的heap大小已变为8192M,前台作业及hive on spark作业正常（经15天的运行再未出...

spark从hive数据仓库中读取的数据可以使用sparksql进行查询吗_百度知 ...答：1、为了让Spark能够连接到Hive的原有数据仓库，我们需要将Hive中的hive-site.xml文件拷贝到Spark的conf目录下，这样就可以通过这个配置文件找到Hive的元数据以及数据存放。在这里由于我的Spark是自动安装和部署的，因此需要知道CDH将hive-site.xml放在哪里。经过摸索。该文件默认所在的路径是：/etc/hive/conf...

如何解决spark写hive慢的问题答：result.rdd.saveAsTextFile(output_tmp_dir)由此可见，对hive的写入操作耗用了大量的时间。对此现象的优化可以是，将文件存为符合hive table文件的格式，然后使用hive load将产生的结果文件直接move到指定目录下。代码如下：result.rdd.map { r => r.mkString("\001") }.repartition(partitions).saveA...

Spark-sql读取hive分区表限制分区过滤条件及限制分区数量答：在开发过程中使用spark去读取hive分区表的过程中（或者使用hive on spark、nodepad开发工具），部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题 1、自定义规则CheckPartitionTable类，实现Rule 然后通过此种方法创建SparkSession 2、自定义规则Check...

spark SQL和hive到底什么关系答：Hive是一种基于HDFS的数据仓库，并且提供了基于SQL模型的，针对存储了大数据的数据仓库，进行分布式交互查询的查询引擎。SparkSQL并不能完全替代Hive，它替代的是Hive的查询引擎，SparkSQL由于其底层基于Spark自身的基于内存的特点，因此速度是Hive查询引擎的数倍以上，Spark本身是不提供存储的，所以不可能替代...

spark与hive查询得出的数据不同答：1、由于精度不一样导致的 2、更多的时候确实是由于元数据混乱导致的（就是说hive中能读到这个字段的值，但是在spark中却无法读取到该字段的值。很多时候可能还是由于大小写的混乱所导致的）同一条sql,hive能生成表,而spark却生成的一张空表,或者数据缺少,存在null值,与hive结果不一致设置 spark....

怎么将sparkr中的dataframe写入hive答：而在Spark中，正常计算结果就是RDD。而将RDD要实现注入到Hive表中，是需要进行转化的。关键的步骤，是将RDD转化为一个SchemaRDD，正常实现方式是定义一个case class.然后，关键转化代码就两行。data.toDF().registerTempTable("table1")sql("create table XXX as select * from table1")

spark sql依赖hive吗答：Spark SQL解决了这两个问题。第一，Spark SQL在Hive兼容层面仅依赖HQL parser、Hive Metastore和Hive SerDe。也就是说，从HQL被解析成抽象语法树（AST）起，就全部由Spark SQL接管了。执行计划生成和优化都由Catalyst负责。借助Scala的模式匹配等函数式语言特性，利用Catalyst开发执行计划优化策略比Hive要...

Hadoop,Hive,Spark 之间是什么关系答：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Spark 是一种与 Hadoop...

1 2 3 4 5 6 7 8 9 10 下一页

其他人还搜

hive on spark 30041 spark中hive怎么开 spark和hive的整合 spark对接多个hive spark使用别的机器上的hive 怎么用spark连接hive 保存hive on spark的session spark连接hive hive远程连接建库建表