WSL搭建Hadoop与Spark环境

在wsl上搭建大数据Hadoop与Spark环境。


[TOC]

❤❤❤

jdk安装

下载

首先在oracle官网下载jdk1.8,最好选这个版本,其他版本可能会出现问题。

版本支持信息如下:

解压

找到下载的文件进行解压:

sudo tar -zxvf  jdk-*-linux-x64.tar.gz -C  /usr/local    #解压到/usr/local目录下

改名

sudo mv jdk* jdk8

添加环境变量

sudo vim ~/.zshrc # 不是用zsh就改成.bashrc

在最后添加环境后,:x 保存退出

# jdk环境
export JAVA_HOME=/usr/local/jdk8
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

使之生效

source ~/.zshrc

检验

java -version

❤❤❤

Hadoop安装

下载

下载最新版的hadoop,当前为3.3.0:

镜像下载

解压

找到下载的文件进行解压:

sudo tar -zxvf  hadoop*.tar.gz -C  /usr/local    #解压到/usr/local目录下

改名

cd /usr/local
sudo mv hadoop* hadoop

添加环境变量

sudo vim ~/.zshrc # 不是用zsh就改成.bashrc

在最后添加环境后,:x 保存退出

# Hadoop环境
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_LIBRAY_PATH=/usr/local/hadoop/lib/native

使之生效

source ~/.zshrc

检验

hadoop version

❤❤❤

Hadoop伪分布式模式配置

文件配置

进到配置目录

cd /usr/local/hadoop/etc/hadoop

修改hadoop-env.sh

添加hadoop_opts和jdk路径

export JAVA_HOME=/usr/local/jdk8
# 解决Unable to load native-hadoop library for your platform...
export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib/native"

修改core-site.xml

sudo vim core-site.xml

修改配置如下:

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

修改hdfs-site.xml

sudo vim hdfs-site.xml

修改如下:

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>

❤❤❤

测试HDFS

启动ssh

sudo service ssh start

NameNode格式化

/usr/local/hadoop/bin/hdfs namenode –format

启动dfs

/usr/local/hadoop/sbin/start-dfs.sh
jps

启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”

查看hadoop页面

浏览器输入:

http://localhost:9870

❤❤❤

YARN单机配置

修改mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
</configuration>

修改yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

查看资源管理页面

/usr/local/hadoop/sbin/start-all.sh

打开网址:

http://localhost:8088/

❤❤❤

Spark安装

下载spark

下载地址

解压

sudo tar -zxvf  spark*.gz  -C  /usr/local    #解压到/usr/local目录下

改名

sudo mv  spark*   spark

配置环境

sudo vim ~/.zshrc

添加:

export SPARK_HOME=/usr/local/spark
export PATH=$PATH: ${SPARK_HOME}/bin

使之生效:

source ~/.zshrc

❤❤❤

配置Spark

cd /usr/local/spark/conf

修改spark-env.sh

sudo vim spark-env.sh

添加:

export LD_LIBRARY_PATH=$JAVA_LIBRARY_PATH
export JAVA_HOME=/usr/local/jdk8
export SPARK_MASTER_IP=localhost
export SPARK_WORKER_MEMORY=4g

启动

/usr/local/spark/sbin/start-all.sh

打开网址:

http://localhost:8080/

启动pyspark

pyspark --master local[2]



Enjoy it !

-------------本文结束感谢您的阅读-------------