在wsl上搭建大数据Hadoop与Spark环境。
[TOC]
jdk安装
下载
首先在oracle官网下载jdk1.8,最好选这个版本,其他版本可能会出现问题。
版本支持信息如下:
解压
找到下载的文件进行解压:
sudo tar -zxvf jdk-*-linux-x64.tar.gz -C /usr/local #解压到/usr/local目录下 |
改名
sudo mv jdk* jdk8 |
添加环境变量
sudo vim ~/.zshrc # 不是用zsh就改成.bashrc |
在最后添加环境后,:x 保存退出
# jdk环境 |
使之生效
source ~/.zshrc |
检验
java -version |
Hadoop安装
下载
下载最新版的hadoop,当前为3.3.0:
解压
找到下载的文件进行解压:
sudo tar -zxvf hadoop*.tar.gz -C /usr/local #解压到/usr/local目录下 |
改名
cd /usr/local |
添加环境变量
sudo vim ~/.zshrc # 不是用zsh就改成.bashrc |
在最后添加环境后,:x 保存退出
# Hadoop环境 |
使之生效
source ~/.zshrc |
检验
hadoop version |
Hadoop伪分布式模式配置
文件配置
进到配置目录
cd /usr/local/hadoop/etc/hadoop |
修改hadoop-env.sh
添加hadoop_opts和jdk路径
export JAVA_HOME=/usr/local/jdk8 |
修改core-site.xml
sudo vim core-site.xml |
修改配置如下:
<configuration> |
修改hdfs-site.xml
sudo vim hdfs-site.xml |
修改如下:
<configuration> |
测试HDFS
启动ssh
sudo service ssh start |
NameNode格式化
/usr/local/hadoop/bin/hdfs namenode –format |
启动dfs
/usr/local/hadoop/sbin/start-dfs.sh |
jps |
启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”
查看hadoop页面
浏览器输入:
http://localhost:9870 |
YARN单机配置
修改mapred-site.xml
<configuration> |
修改yarn-site.xml
<configuration> |
查看资源管理页面
/usr/local/hadoop/sbin/start-all.sh |
打开网址:
http://localhost:8088/ |
Spark安装
下载spark
解压
sudo tar -zxvf spark*.gz -C /usr/local #解压到/usr/local目录下 |
改名
sudo mv spark* spark |
配置环境
sudo vim ~/.zshrc |
添加:
export SPARK_HOME=/usr/local/spark |
使之生效:
source ~/.zshrc |
配置Spark
cd /usr/local/spark/conf |
修改spark-env.sh
sudo vim spark-env.sh |
添加:
export LD_LIBRARY_PATH=$JAVA_LIBRARY_PATH |
启动
/usr/local/spark/sbin/start-all.sh |
打开网址:
http://localhost:8080/ |
启动pyspark
pyspark --master local[2] |
Enjoy it !