Spark SQL和Hive使用场景？

Question

Spark SQL和Hive使用场景？

都是为了用类sql语句查询结果，一个从hdfs读文件，一个从hive库读数据从生产上有什么区别么？我的理解是在已经有hive应用的时候用spark…

关注者

202

被浏览

134,635

23 个回答

Json 格式的数据处理

Json 数据格式是我们比较常用的的一种数据格式，例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式，所以我们很有必要学习一下这种数据格式的处理方法

准备数据

cat json.data

{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}
{"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"}
{"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"}
{"movie":"3408","rate":"4","timeStamp":"978300275","uid":"1"}
{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}
{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}
{"movie":"1287","rate":"5","timeStamp":"978302039","uid":"1"}
{"movie":"2804","rate":"5","timeStamp":"978300719","uid":"1"}
{"movie":"594","rate":"4","timeStamp":"978302268","uid":"1"}

创建hive表并且加载数据

create table ods.ods_json_data(text string);
load data local inpath "/Users/XXX/workspace/hive/json.data" overwrite into table ods.ods_json_data;

get_json_object 和 json_tuple 函数

json_tuple 不支持json 的嵌套处理，但是支持一次性获取多个顶级的key对应的值

get_json_object 不支持一次获取多个值，但是支持复杂json 的处理

get_json_object(）

用法：get_json_object(string json_string, string path) 前面我们介绍过如何查看函数的用法desc function get_json_object

返回值：String

说明：解析json的字符串json_string，返回path指定的内容。如果输入的json字符串无效，那么返回NUll，这个函数每次只能返回一个数据项。

具体示例： get_json_object(value,’$.id’)

select get_json_object(text,"$.movie") from ods.ods_json_data;

这个函数的不足之处是，它只能返回一个值，就是我们不能一次性从json 中提取多个值，如果要提取多个值的话，就要多次调用这个函数,但是我们下面介绍的json_tuple 就可以,但是这不是说这个函数不强或者怎么样，记住这个函数的api 可以帮你节约很多时间

json_tuple

用法：json_tuple(jsonStr, p1, p2, ..., pn) 整理的pn 就是我们要提取的键

返回值：tuple(v1,...vn) 这里的返回值v1 ... vn 和键p1 .... pn 是相对应的

select json_tuple(text,'movie','rate','timeStamp','uid') from ods.ods_json_data;

json_tuple相当于get_json_object的优势就是一次可以解析多个Json字段。

例子演示

1. 嵌套json 的处理

前面我们说了json_tuple不支持嵌套JSON 的处理

select get_json_object('{"movie":"594","rate":"4","timeStamp":"978302268","uid":"1","info":{"name":"天之骄子"}}',"$.info.name")
select json_tuple('{"movie":"594","rate":"4","timeStamp":"978302268","uid":"1","info":{"name":"天之骄子"}}',"info.name")

2. Json数组解析(get_json_object 实现)

SELECT get_json_object('[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]', '$.[0].website'), get_json_object('[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]', '$.[1].website');

这个时候时候你发现我提取的都是json 数组中的website,有没有什么简单的办法呢，理论上get_json_object 只能有一个返回值，无论如何都需要写多个，那你有没有想过一个问题，我要是这个数组里面有100个元素都是json,我需要每一个json 的website 那我是不是需要写100次了，这个时候你要是仔细阅读这个函数的api 的话，你就会发现了另外一个符号*

SELECT get_json_object('[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]', '$.[*].website')

这下你知道了，get_json_object 是只能返回一个元素，不是只能返回一个字符串，上面本来就是一个json 数组，那要是我们是从json 里面解析出来的数组怎么处理呢？

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info');

需要注意下面这样操作之后你拿到的就是一个json 字符串了，这下你就可以按照上面的方式再处理一次了

select get_json_object (get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info' ),'$.[1].website');

但是有时候我们希望直接获取，而不是通过这样嵌套的方式，这个时候其实就是将上面的嵌套的get_json_object函数的path 参数进行组合

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info[1].website');

这个时候如果我们再上 * 进行加持，那就很简单了

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info[*].website');

其实到这里我们学习了指定一个数组的某个下标获取一个元素，指定* 获取全部元素，那就如我就想获取前三个或者偶数个或者奇数个呢，哈哈，如果你回过头去看api 你就是知道了提供了一个Union operator，指定任意你想组合的下标即可,获取

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info[0,1].website');

下面我们尝试获取一下偶数个，或者奇数个或者是一定范围内的奇数个或者偶数个,其实就是上面提供的数组切片，你可以参考api 进行使用

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"},{"website":"www.ikeguang2.com","name":"我的生活记忆"}]}', '$.info[0:2:2].website');

但是我尝试了一下，发现这个功能有bug，不能做到切片的效果，每次都是全部返回

SELECT get_json_object('{"info":[
    {"website":"www.ikeguang.com","name":"我的生活记忆"},
    {"website":"beian.ikeguang.com","name":"备案"},
    {"website":"www.ikeguang2.com","name":"我的生活记忆"}]}', '$.info[0:2:2].website');

加载JSON 数据

对于上面json.data 的数据，我们能不能在load 数据到hive 的时候就处理，而不是load 完之后再到使用的时候去处理，尤其是针对这种嵌套结构不是很复杂的这种json 格式

create table ods.ods_json_parse_data(
movie string,
rate string,
`timeStamp` string,
uid string)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;
load data local inpath "/Users/liuwenqiang/workspace/hive/json.data" overwrite into table ods.ods_json_parse_data;

这种方法需要注意的是你的数据类型和字段名称都要匹配，否则就会报错或者不能获取到值,那要是复杂一点的嵌套结构呢，其实也可以,在上面的数据基础上添加了一个嵌套的字段也是可以的

{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1","info":{"name":"天之骄子"}}
create table ods.ods_json_parse_data2(
movie string,
rate string,
`timeStamp` string,
uid string,
info map<string,string>)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;
load data local inpath "/Users/liuwenqiang/workspace/hive/json.data" overwrite into table ods.ods_json_parse_data2;

总结

get_json_object 和 json_tuple 函数的使用场景和其优缺点
如果json 格式比较简单，那么可以在建表加载数据的时候就可以将json 处理掉，如果比较复杂也可以再加载的时候解析一部分，然后再通过SQL 进行解析
也可以尝试写一些UDF 函数来处理JSON

编辑于 2021-12-01 23:35

狗叔 · Accepted Answer

这个要从两者产生的背景来看。

Hive是什么？一个建立在分布式存储系统（这里指HDFS）上的SQL引擎。

为什么要有Hive呢？因为有了Hadoop后，大家发现存储和计算都有了，但是用起来很困难。去厂商那里一看，清一色Oracle、DB2、TD啥啥的，客户被惯的只会用SQL来处理业务，难一点都交给乙方来做。

转头一想，劳资拿个项目，总不能搭一堆维护人员天天在局点给你们维护你们写的（也有可能是自己写的）超烂的MR代码吧？嗯，在MR上包一层，继续让你们用SQL，就好了嘛

Hive适合的是什么场景呢？数据仓库。基于Hadoop做一些数据清洗啊（ETL）、报表啊、数据分析啊什么的。

传统数据库的SQL03 SQL11标准、自定义函数、权限管理，支持！

JDBC、ODBC、REST接入，支持！

存储过程，支持！

分布式的scale out，支持！

事务处理、一致性、回滚，这个比较难，但是也努力支持！

基本上就是朝着替代传统数据库的方向去的，当然是在大数据背景下的替代。本质上来说，它还是一个面向读的、面向分析的SQL工具。

你问它有什么缺点？天天插入、更新、删除数据，还要求强一致性和毫秒级相应，这个不仅不是Hive的长处，当前的Hadoop框架就不适合这玩意儿。

好，回过头来再说Spark SQL。

SparkSQL是啥呢？这个首先要问Spark是啥。

Spark就是以RDD为核心的计算框架，它产生的背景就是MR难用！慢！

于是Spark搞了一个抽象概念RDD，把map过程都串起来，内存用起来，再做点流水线优化。嗯，快了10到100倍（官方宣称）！

RDD上面抽象一些高级操作，替代MR单纯的map和reduce，简化编程；加上Python、R、Java、Scala等等的接口，谁来用都能无缝切换。嗯，易用性大大增加！

那既然有了RDD这么牛逼的东西，总不能只让用户去写应用处理离线任务吧。流处理，上！机器学习，上！SQL，上！哈哈哈哈哈我一个Spark啥都能搞定，你们就不用费心去用别的东东了！

那SparkSQL对比Hive有啥缺点呢？

由于前者发展时间短，且大数据领域Hive、HBase等等都已经快形成了事实标准，所以SparkSQL一直在吹嘘自己的一栈式数据处理平台，试图从易用性上争取用户。但用户是不是真的需要这些呢？未必。从Spark发展的过程来看，SparkSQL的发展速度远远超过Core、Streaming、MLlib、GraphX等；从语言来看，对Scala的支持也远远超过了Java、R、Python的关注。这说明了一栈式处理虽然看起来很美，但用户未必有这样的场景。

单就SparkSQL来讲呢？由于已经有了Hive（而避免重复造差不多的轮子），所以像Metastore、权限、JDBC这些东东，SparkSQL要么直接复用Hive的，要么干脆不做。

那SparkSQL究竟重点在做什么呢？性能、稳定性、标准兼容性，这是社区2.0版本比较关注的东西，也是Hive从架构上（计算引擎是外部依赖，而不是内部开发）无法赶超的东西。

SparkSQL的应用场景？传统数据仓库我看SparkSQL可能不想大力发展了。Apache Spark是从U.C.Berkeley孵化出来的，和Hadoop、Hive等社区被几大巨头牵制不同，其社区也牢牢被U.C.Berkeley databricks把控。而databricks推出的产品显然是公有（企业）云性质的大数据统一处理平台（

Databricks makes Spark easy through a cloud-based integrated workspace.

）（不是广告），所以SQL层的很多特性，它们要么不需要（权限管理、多租户），要么不必对客户暴露（JDBC等），所以干脆在社区不care这部分的发展。走上云化的道路，这是时代背景决定的，也是databricks的利益决定的。

选择SparkSQL，要么企业自己定制成性能更好的Hive。要么也将其云化，跟着databricks的脚步走。

编辑于 2023-04-26 00:38