【版本】
当前版本号v20240226
版本 | 修改说明 |
---|---|
v20240226 | 初始化版本 |
任务1.1 - 导入虚拟机节点
【任务目的】
- 掌握搭建 CentOS 模板镜像
- 熟练掌握 Linux命令(vi、tar、mv等等)的使用
- 掌握 VirtualBox、FinalShell 等客户端的使用
【任务环境】
- 内存:至少4G
- 硬盘:至少空余40G
- 操作系统: 64位 Windows系统。
- 虚拟机操作系统:CentOS 7.9
【任务资源】
- FinalShell
- NodeA、NodeB、NodeC模板机
- VirtualBox
【任务要求】
- 完成 Virtualbox 的安装
- 完成 FinalShell 的安装
- 完成虚拟机的注册和配置
- 完成 Hadoop 的启动和测试
【任务步骤】
安装 VirtualBox 和 FinalShell
安装 VirtualBox,过程略。如果之前有安装旧版本的 VirtualBox,请先卸载。
安装 FinalShell,过程略。
VirtualBox 新建虚拟机
下载
NodeA.zip
、NodeB.zip
、NodeC
.zip`三个压缩的虚拟机文件,并解压到同一个目录。启动 VirtualBox,点击“注册”。分别选中
NodeA.vbox
、NodeB.vbox
、NodeC.vbox
这三个文件,导入虚拟机到 VirtualBox。三台虚拟机的网络设置都是
Host-Only
模式,并且绑定到你的 VirtualBox 虚拟网卡(网络适配器)。进入
控制面板\网络和 Internet\网络连接
,对VirtualBox 虚拟网卡(网络适配器)进行设置。VirtualBox 启动
NodeA
、NodeB
、NodeC
三个节点。以下为三个节点的信息。
节点 | IP | 主机名 | Hadoop节点 | root账号 |
---|---|---|---|---|
NodeA | 10.0.0.71 | nodea999 | NameNode | root/123456 |
NodeB | 10.0.0.72 | nodeb999 | DataNode | root/123456 |
NodeC | 10.0.0.73 | nodec999 | DataNode | root/123456 |
- 使用 FinalShell 连接 NodeA 节点,使用 hadoop 用户登录。
用户名:hadoop
密码:123456
- 在NodeA 节点启动 Hadoop 。
[hadoop@nodea999 ~]$ start-hdp.sh
- 在
NodeA
输入以下命令查看机架拓扑是否有NodeB
和NodeC
的信息
[hadoop@nodea999 ~]$ hdfs dfsadmin -printTopology
- 正常应该有类似以下信息返回:
Rack: /default-rack
10.0.0.72:9866 (nodeb999)
10.0.0.73:9866 (nodec999)
验证 MapReduce 是否正常工作
上传
countryroad.txt
到NodeA
的/home/hadoop
把
countryroad.txt
从文件系统上传到 HDFS 文件系统。
hdfs dfs -mkdir /part2
hdfs dfs -put /home/hadoop/countryroad.txt /part2
hdfs dfs -ls /part2
- 运行 Hadoop 自带的 Wordcount 程序,观察输出的内容。
cd $HADOOP_HOME/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-3.3.1.jar wordcount /part2/countryroad.txt /output
- 如果输出的日志内容包含类似以下信息,则表示执行成功
2022-01-24 15:48:51,712 INFO mapreduce.Job: Job job_xxxxxxx completed successfully
- 程序执行过程中,可以访问 Yarn Web 界面查看任务进展。http://10.0.0.71:8088/cluster/apps
- 等待程序运行完毕,观察输出的内容
hdfs dfs -cat /output/part-r-00000
【任务名称】
任务1.2 - 搭建 Hadoop 编程开发环境
【任务目的】
- 掌握 JDK 的安装和环境变量的设置
- 掌握 IDEA 的安装和使用
- 掌握 Maven 的安装、配置和使用命令
【任务环境】
- Windows 7 以上64位操作系统
【任务资源】
- FinalShell
- CentOS 7
- Hadoop 3
- IntelliJ IDEA Community Edition 资源下载
【任务步骤】
- 在 Windows 安装 JDK 。安装完结束以后目录架构如下:目录架构如下:
d:\jdk8
|-bin/
|-lib/
|-include/
|-jre/
|-legal/
|-javafx-src.zip
|-jmc.txt
|-src.zip
|-COPYRIGHT
|-release
|-LICENSE
|-README.html
- 进入Windows的环境变量配置界面,配置以下环境变量。如果系统C盘会还原,每次重启电脑都需要配置此环境变量。注意修改 JDK 的安装目录为你实际安装目录。
#新增
JAVA_HOME=D:\jdk8
CLASSPATH=%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
#修改PATH,在PATH环境变量原有值后面追加
;%JAVA_HOME%\bin;
- 打开Windows 的命令行终端,运行以下命令,测试是否有
JDK
的版本输出。
java -version
- 运行
intellij-idea-community-portable-win64-2020.3.2-46-setup.exe
,指定目录安装 IDEA,这里以d:\idea
为例。安装完成以后目录架构如下:
d:\idea
|-app/
|-CHANGELOG.md
|-data/
|-intellij-idea-community-portable.exe
|-intellij-idea-community-portable.sample.yml
|-log/
|-portapp.json
|-portapp.json.bak
|-portapp-prev.json
|-README.md
- 编辑
d:\idea\app\bin
目录下的idea.exe.vmoptions
和idea64.exe.vmoptions
,在文件末尾加上以下代码,让 IDEA 默认使用UTF8编码。
-Dfile.encoding=UTF-8
- 解压
apache-maven-3.6.3-bin.zip
,这里以解压到d:\maven363
为例。
d:\maven363
|-bin/
|-boot/
|-conf/
|-lib/
|-LICENSE
|-NOTICE
|-README.txt
- 在 Maven 的目录下新建一个
repos
文件夹,把repos-hadoop.zip
解压到repos目录下。
d:\maven363
|-repos
|-解压位置
- 编辑
d:\maven363\conf\settings.xml
文件。在<settings>
标签内新增本地仓库路径设置。<localRepository>
标签内内容注意修改为你的 Maven 的实际安装路径。
<localRepository>D:/maven363/repos</localRepository>
注意 XML 的配置文件
- 编辑
d:\maven363\conf\settings.xml
文件。在约148行<mirrors>
标签内增加远程仓库镜像地址。开发过程中依赖的 Jar 包可以通过配置从此地址下载。
- 如果电脑可以联网,可以修改指向阿里云的仓库镜像。
<mirror>
<id>nexus-aliyun</id>
<mirrorOf>*</mirrorOf>
<name>Nexus aliyun</name>
<url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
- 进入Windows的环境变量配置界面,配置以下环境变量。
#新增
MAVEN_HOME=D:\maven363
#修改PATH,在PATH环境变量原有值后面追加
;%MAVEN_HOME%\bin;
- 打开Windows 的命令行终端,运行以下命令,测试是否有
Maven
的版本输出。
mvn -version