您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 黄山分类信息网,免费分类信息发布

python有spark库么

2024/3/27 18:16:08发布4次查看
从这个名字pyspark就可以看出来,它是由python和spark组合使用的.
相信你此时已经电脑上已经装载了hadoop,spark,python3.
spark提供了一个python_shell,即pyspark,从而可以以交互的方式使用python编写spark程序。(推荐学习:python视频教程)
pyspark里最核心的模块是sparkcontext(简称sc),最重要的数据载体是rdd。rdd就像一个numpy array或者一个pandas series,可以视作一个有序的item集合。只不过这些item并不存在driver端的内存里,而是被分割成很多个partitions,每个partition的数据存在集群的executor的内存中。
引入python中pyspark工作模块
import pysparkfrom pyspark import sparkcontext as scfrom pyspark import sparkconfconf=sparkconf().setappname(miniproject).setmaster(local[*])sc=sparkcontext.getorcreate(conf)#任何spark程序都是sparkcontext开始的,sparkcontext的初始化需要一个sparkconf对象,sparkconf包含了spark集群配置的各种参数(比如主节点的url)。初始化后,就可以使用sparkcontext对象所包含的各种方法来创建和操作rdd和共享变量。spark shell会自动初始化一个sparkcontext(在scala和python下可以,但不支持java)。#getorcreate表明可以视情况新建session或利用已有的session
sparksession是spark 2.0引入的新概念。
sparksession为用户提供了统一的切入点,来让用户学习spark的各项功能。 在spark的早期版本中,sparkcontext是spark的主要切入点,由于rdd是主要的api,我们通过sparkcontext来创建和操作rdd。对于每个其他的api,我们需要使用不同的context。
例如,对于streming,我们需要使用streamingcontext;对于sql,使用sqlcontext;对于hive,使用hivecontext。但是随着dataset和dataframe的api逐渐成为标准的api,就需要为他们建立接入点。所以在spark2.0中,引入sparksession作为dataset和dataframe api的切入点。
sparksession实质上是sqlcontext和hivecontext的组合(未来可能还会加上streamingcontext),所以在sqlcontext和hivecontext上可用的api在sparksession上同样是可以使用的。sparksession内部封装了sparkcontext,所以计算实际上是由sparkcontext完成的。
更多python相关技术文章,请访问python教程栏目进行学习!
以上就是python有spark库么的详细内容。
黄山分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录