Part 1 - 配置开发环境

2024-02-26
4分钟阅读时长

【版本】

当前版本号v20240226

版本修改说明
v20240226初始化版本

任务1.1 - 导入虚拟机节点

【任务目的】

  • 掌握搭建 CentOS 模板镜像
  • 熟练掌握 Linux命令(vi、tar、mv等等)的使用
  • 掌握 VirtualBox、FinalShell 等客户端的使用

【任务环境】

  • 内存:至少4G
  • 硬盘:至少空余40G
  • 操作系统: 64位 Windows系统。
  • 虚拟机操作系统:CentOS 7.9

【任务资源】

  • FinalShell
  • NodeA、NodeB、NodeC模板机
  • VirtualBox

资源下载

【任务要求】

  • 完成 Virtualbox 的安装
  • 完成 FinalShell 的安装
  • 完成虚拟机的注册和配置
  • 完成 Hadoop 的启动和测试

【任务步骤】

安装 VirtualBox 和 FinalShell

  1. 安装 VirtualBox,过程略。如果之前有安装旧版本的 VirtualBox,请先卸载。

  2. 安装 FinalShell,过程略。

VirtualBox 新建虚拟机

  1. 下载NodeA.zipNodeB.zipNodeC.zip`三个压缩的虚拟机文件,并解压到同一个目录。

  2. 启动 VirtualBox,点击“注册”。分别选中NodeA.vboxNodeB.vboxNodeC.vbox这三个文件,导入虚拟机到 VirtualBox。

  3. 三台虚拟机的网络设置都是Host-Only模式,并且绑定到你的 VirtualBox 虚拟网卡(网络适配器)。

  4. 进入控制面板\网络和 Internet\网络连接,对VirtualBox 虚拟网卡(网络适配器)进行设置。

  5. VirtualBox 启动NodeANodeBNodeC三个节点。以下为三个节点的信息。

节点IP主机名Hadoop节点root账号
NodeA10.0.0.71nodea999NameNoderoot/123456
NodeB10.0.0.72nodeb999DataNoderoot/123456
NodeC10.0.0.73nodec999DataNoderoot/123456
  1. 使用 FinalShell 连接 NodeA 节点,使用 hadoop 用户登录。
用户名:hadoop
密码:123456
  1. 在NodeA 节点启动 Hadoop 。
[hadoop@nodea999 ~]$ start-hdp.sh
  1. NodeA输入以下命令查看机架拓扑是否有NodeBNodeC的信息
[hadoop@nodea999 ~]$ hdfs dfsadmin -printTopology
  • 正常应该有类似以下信息返回:
Rack: /default-rack
   10.0.0.72:9866 (nodeb999)
   10.0.0.73:9866 (nodec999)

验证 MapReduce 是否正常工作

  1. 上传countryroad.txtNodeA/home/hadoop

  2. countryroad.txt从文件系统上传到 HDFS 文件系统。

hdfs dfs -mkdir /part2
hdfs dfs -put /home/hadoop/countryroad.txt /part2
hdfs dfs -ls /part2
  1. 运行 Hadoop 自带的 Wordcount 程序,观察输出的内容。
cd $HADOOP_HOME/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-3.3.1.jar wordcount /part2/countryroad.txt /output
  • 如果输出的日志内容包含类似以下信息,则表示执行成功
2022-01-24 15:48:51,712 INFO mapreduce.Job: Job job_xxxxxxx completed successfully
  1. 程序执行过程中,可以访问 Yarn Web 界面查看任务进展。http://10.0.0.71:8088/cluster/apps

  1. 等待程序运行完毕,观察输出的内容
hdfs dfs -cat /output/part-r-00000

【任务名称】

任务1.2 - 搭建 Hadoop 编程开发环境

【任务目的】

  • 掌握 JDK 的安装和环境变量的设置
  • 掌握 IDEA 的安装和使用
  • 掌握 Maven 的安装、配置和使用命令

【任务环境】

  • Windows 7 以上64位操作系统

【任务资源】

  • FinalShell
  • CentOS 7
  • Hadoop 3
  • IntelliJ IDEA Community Edition 资源下载

【任务步骤】

  1. 在 Windows 安装 JDK 。安装完结束以后目录架构如下:目录架构如下:
d:\jdk8
  |-bin/
  |-lib/
  |-include/
  |-jre/            
  |-legal/
  |-javafx-src.zip  
  |-jmc.txt
  |-src.zip
  |-COPYRIGHT
  |-release
  |-LICENSE
  |-README.html
  1. 进入Windows的环境变量配置界面,配置以下环境变量。如果系统C盘会还原,每次重启电脑都需要配置此环境变量。注意修改 JDK 的安装目录为你实际安装目录。
#新增
JAVA_HOME=D:\jdk8
CLASSPATH=%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar

#修改PATH,在PATH环境变量原有值后面追加
;%JAVA_HOME%\bin;
  1. 打开Windows 的命令行终端,运行以下命令,测试是否有JDK的版本输出。
java -version
  1. 运行intellij-idea-community-portable-win64-2020.3.2-46-setup.exe,指定目录安装 IDEA,这里以d:\idea为例。安装完成以后目录架构如下:
d:\idea
  |-app/
  |-CHANGELOG.md
  |-data/
  |-intellij-idea-community-portable.exe
  |-intellij-idea-community-portable.sample.yml
  |-log/
  |-portapp.json
  |-portapp.json.bak
  |-portapp-prev.json
  |-README.md
  1. 编辑d:\idea\app\bin目录下的idea.exe.vmoptionsidea64.exe.vmoptions,在文件末尾加上以下代码,让 IDEA 默认使用UTF8编码。
-Dfile.encoding=UTF-8
  1. 解压apache-maven-3.6.3-bin.zip,这里以解压到d:\maven363为例。
d:\maven363
  |-bin/      
  |-boot/     
  |-conf/     
  |-lib/      
  |-LICENSE   
  |-NOTICE    
  |-README.txt    
  1. 在 Maven 的目录下新建一个repos文件夹,把repos-hadoop.zip解压到repos目录下。
d:\maven363
  |-repos
      |-解压位置
  1. 编辑d:\maven363\conf\settings.xml文件。在<settings>标签内新增本地仓库路径设置。<localRepository>标签内内容注意修改为你的 Maven 的实际安装路径。
<localRepository>D:/maven363/repos</localRepository>

注意 XML 的配置文件

  1. 编辑d:\maven363\conf\settings.xml文件。在约148行<mirrors>标签内增加远程仓库镜像地址。开发过程中依赖的 Jar 包可以通过配置从此地址下载。
  • 如果电脑可以联网,可以修改指向阿里云的仓库镜像。
<mirror>
  <id>nexus-aliyun</id>
  <mirrorOf>*</mirrorOf>
  <name>Nexus aliyun</name>
  <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
  1. 进入Windows的环境变量配置界面,配置以下环境变量。
#新增
MAVEN_HOME=D:\maven363

#修改PATH,在PATH环境变量原有值后面追加
;%MAVEN_HOME%\bin;
  1. 打开Windows 的命令行终端,运行以下命令,测试是否有Maven的版本输出。
mvn -version

扫码或长按识别访问