spark SQL和hive到底什么关系

发布网友发布时间：2022-03-24 14:25

共4个回答

热心网友时间：2022-03-24 15:55

Hive是一种基于HDFS的数据仓库，并且提供了基于SQL模型的，针对存储了大数据的数据仓库，进行分布式交互查询的查询引擎。

SparkSQL并不能完全替代Hive，它替代的是Hive的查询引擎，SparkSQL由于其底层基于Spark自身的基于内存的特点，因此速度是Hive查询引擎的数倍以上，Spark本身是不提供存储的，所以不可能替代Hive作为数据仓库的这个功能。

SparkSQL相较于Hive的另外一个优点，是支持大量不同的数据源，包括hive、json、parquet、jdbc等等。SparkSQL由于身处Spark技术堆栈内，基于RDD来工作，因此可以与Spark的其他组件无缝整合使用，配合起来实现许多复杂的功能。比如SparkSQL支持可以直接针对hdfs文件执行sql语句。

热心网友时间：2022-03-24 17:13

Spark SQL解决了这两个问题。
第一，Spark SQL在Hive兼容层面仅依赖HQL parser、Hive Metastore和Hive SerDe。也就是说，从HQL被解析成抽象语法树（AST）起，就全部由Spark SQL接管了。执行计划生成和优化都由Catalyst负责。借助Scala的模式匹配等函数式语言特性，利用Catalyst开发执行计划优化策略比Hive要简洁得多。去年Spark summit上Catalyst的作者Michael Armbrust对Catalyst做了一个简要介绍：2013 | Spark Summit。
第二，相对于Shark，由于进一步削减了对Hive的依赖，Spark SQL不再需要自行维护打了patch的Hive分支。Shark后续将全面采用Spark SQL作为引擎，不仅仅是查询优化方面。

热心网友时间：2022-03-24 18:47

spark SQL和hive到底什么关系
Spark SQL解决了这两个问题。
第一，Spark SQL在Hive兼容层面仅依赖HQL parser、Hive Metastore和Hive SerDe。也就是说，从HQL被解析成抽象语法树（AST）起，就全部由Spark SQL接管了。执行计划生成和优化都由Catalyst负责。借助Scala的模式匹配等函数式语言特性，利用Catalyst开发执行计划优化策略比Hive要简洁得多。去年Spark summit上Catalyst的作者Michael Armbrust对Catalyst做了一个简要介绍：2013 | Spark Summit。
第二，相对于Shark，由于进一步削减了对Hive的依赖，Spark SQL不再需要自行维护打了patch的Hive分支。Shark后续将全面采用Spark SQL作为引擎，不仅仅是查询优化方面。

热心网友时间：2022-03-24 20:39

历史上存在的原理，以前都是使用hive来构建数据仓库，所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlSQL都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器，修改了执行器，使之物理执行过程是跑在spark上；而sparkSQL是使用了自身的语法解析器、优化器和执行器，同时sparkSQL还扩展了接口，不单单支持hive数据的查询，可以进行多种数据源的数据查询。

spark SQL和hive到底什么关系

Load Port、SMIF

威孚（苏州）半导体技术有限公司是一家专注生产、研发、销售晶圆传输设备整机模块（EFEM/SORTER）及核心零部件的高科技半导体公司。公司核心团队均拥有多年半导体行业从业经验，其中技术团队成员博士、硕士学历占比80%以上，依托丰富的软件底层...

spark SQL和hive到底什么关系

SparkSQL并不能完全替代Hive，它替代的是Hive的查询引擎，SparkSQL由于其底层基于Spark自身的基于内存的特点，因此速度是Hive查询引擎的数倍以上，Spark本身是不提供存储的，所以不可能替代Hive作为数据仓库的这个功能。SparkSQL相较于Hive的另外一个优点，是支持大量不同的数据源，包括hive、json、parquet、jd...

Spark-SQL、Hive on Spark、Spark on Hive

Spark-SQL是将SQL与SparkRDD引擎结合，用户可以直接编写SQL查询，然后由Spark进行分布式计算。它的主要用途在于简化代码编写和提高执行效率。Hive on Spark则是Hive SQL在Spark环境下的实现，Hive SQL的查询会通过Hive的语法解析后，转由Spark的RDD引擎执行。这种方式适合处理数仓查询任务，因为Hadoop生态系统中...

Spark SQL 和 Hive 数据类型

DataTypeToInspector将Catalyst的MapType映射到Hive的StandardMapObjectInspector，这是一种直观的对应关系。Hive的Objectlnspector通过ObjectinspectorFactory获取，同时，InspectorToDataType用于根据Hive的Objectlnspector确定Spark SQL的数据类型和解封装函数。例如，FloatType对应两种Objectlnspector：WritableFloatObject...

Hive on Spark、Spark on Hive,傻傻分不清楚

Hive on SparkHive on Spark是一种将Apache Hive的SQL查询能力整合到Apache Spark中的技术。它允许用户在Spark环境中运行Hive查询，同时利用Spark的高性能计算能力。Hive on Spark的出现，旨在解决Hive在处理大规模数据时性能瓶颈的问题。Spark on Hive相反，Spark on Hive是指在Hadoop生态系统中，通过Hive ...

Hadoop,Hive,Spark 之间是什么关系

用hadoop -> hive ->spark ->报表工具(brio)的架构打通数据通路之后，做数据分析会变得非常简单（just like 图形化开发-拖拉拽）。在构建spark离线数据分析平台之前，先简单说明传统的离线数据分析平台。传统离线数据分析工作，一般把数据结构化存储在RDBMS，可通过SQL代码、报表工具、挖掘工具快速对数据进行...

大数据运算的三种引擎是什么?有什么区别?

3)Shark/Spark：为了提高Map-Reduce的计算效率，Berkeley的AMPLab实验室开发了Spark，Spark可看做基于内存的Map-Reduce实现，此外，伯克利还在Spark基础上封装了一层SQL，产生了一个新的类似Hive的系统Shark。4) Stinger Initiative（Tez optimized Hive）：Hortonworks开源了一个DAG计算框架Tez，Tez可以理解为...

spark从hive数据仓库中读取的数据可以使用sparksql进行查询吗_百度知 ...

val sc=new SparkContext(conf)//create hivecontext val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ") //这里需要注意数据的间隔符 sqlContext....

数据仓库软件hive的计算引擎采用的是什么答案是什么

Hive是搭建在Hadoop之上的一个SQL引擎，它把SQL转换成MapReduce在Hadoop上执行，底层存储采用HDFS，计算引擎当然是MapReduce了。不过现在Hive也支持设置计算引擎为spark和tez。

kylin和hive的是什么关系 spark和hive的关系 spark为什么比hive快有spark为什么还要hive hive和hadoop的关系 sparkhive与hadoop hive和hdfs的关系 hive是关系型还是非关系型 spark和hive的整合