博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
SparkSQL基础
阅读量:5164 次
发布时间:2019-06-13

本文共 1797 字,大约阅读时间需要 5 分钟。

* SparkSQL基础

起源:

1、在三四年前,Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。

2、Shark即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。

3、Shark的最大特性就是快和与Hive的完全兼容,且可以在shell模式下使用rdd2sql()这样的API,把HQL得到的结果集,继续在scala环境下运算,支持自己编写简单的机器学习或简单分析处理函数,对HQL结果进一步分析计算。

历史:

1、在2014年7月1日的Spark Summit上,Databricks宣布终止对Shark的开发,将重点放到Spark SQL上。

2、Databricks表示,Spark SQL将涵盖Shark的所有特性,用户可以从Shark 0.9进行无缝的升级。

3、Databricks推广的Shark相关项目一共有两个,分别是Spark SQL和新的Hive on Spark(HIVE-7292)

4、Databricks表示,Shark更多是对Hive的改造,替换了Hive的物理执行引擎,因此会有一个很快的速度。然而,不容忽视的是,Shark继承了大量的Hive代码,因此给优化和维护带来了大量的麻烦。

SparkSQL与HIVE集成

1、拷贝hive-site.xml到spark-conf目录下

2、$ mkdir externaljars

3、拷贝hive下面的mysql驱动到spark的externaljars目录下

4、启动Spark-Shell

$ bin/spark-shell --master local[2] --jars externaljars/mysql-connector-java-5.1.27-bin.jar

在SparkSQL中读取表的两种方式:

方式一:

直接使用sqlContext对象执行sql语句,返回一个DataFrame对象,然后我们就可以show一下表中的内容了

scala> val df = sqlContext.sql("select * from track_log")

scala> df.show

方式二:

使用DSL(Domain specific language)语句

scala> val df = sqlContext.table("track_log")

scala> df.select("id", "sessionid").show

测试练习:

案例中涉及到的数据在之前的Hive章节中已经有所介绍,数据也提供了传送门下载地址,不再赘述,内容如下:

 
 

案例一:尝试使用sqlContext查询一张表,将部门编号相同的信息统一join到一起。

 
 

案例二:尝试使用spark-sql运行如下命令

Step1、启动spark-sql

$ bin/spark-sql

Step2、将表直接缓存到内存中,在4040端口即可查看缓存到的表数据占用内存的大小,操作如下:

缓存表

spark-sql> cache table track_log

撤销缓存的表

spark-sql>uncache table track_log

案例三:每个部门的工资按照降序排列

可以使用SparkSQL执行如下代码:

 
 

如果我们只想展示出每个部门前三名的工资,可以这样操作:

 
 

当然了,求个平均什么的,再正常不过了。

* 总结

只要你的SQL语句用得好,sparkCore理解的通透,Hive玩的6,SparkSQL就会很简单。:)


个人微博:http://weibo.com/seal13

QQ大数据技术交流群(广告勿入):476966007

作者:Z尽际 链接:https://www.jianshu.com/p/7408b03a3c92 來源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

转载于:https://www.cnblogs.com/wzlbigdata/p/8277753.html

你可能感兴趣的文章
sql中not exists的用法
查看>>
【转】UGUI研究院之Mask裁切UI粒子特效或者3D模型(十七)
查看>>
PAT_B_1088_三人行
查看>>
05 数字 - 《Python 核心编程》
查看>>
HTML学习----------DAY2第四节
查看>>
摄影构图方式
查看>>
openjudge 1805碎纸机 解析报告
查看>>
机电传动控制第五,六周作业
查看>>
matlab小记(三)
查看>>
JQuery插件,轻量级表单模型验证(续 一)
查看>>
让你的JS更优雅的小技巧
查看>>
windows环境下 生成git公钥和私钥
查看>>
市妇幼出院以后要做的事情
查看>>
Mac通过type-c接口无法识别移动硬盘
查看>>
ngixn部署:无法启动,conf文件路径找不到
查看>>
快捷导航栏tagView
查看>>
常用工具大全
查看>>
veu——引入iconfont图标
查看>>
如何规划、建设你的数据库架构
查看>>
iOS.UIKit.05.UIScrollView
查看>>