目录

Part 4 - Hive实战实践2

2024-02-26

1分钟阅读时长

hadoop-training

【版本】

当前版本号v20240226

版本	修改说明
v20240226	初始化版本

【任务名称】任务4 - 使用数据可视化技术展示我的演员电影产量和质量按年份的变化。

【任务目的】

掌握使用 Hive 进行数据分析
了解数据可视化工具的使用

【任务环境】

Windows 7+
VirtualBox
CentOS 7
Hadoop 3
JDK 版本：1.8 或以上版本。
Hive 2.3.8

【任务说明】

Film.json 是豆瓣电影的真实电影数据。里面包含了41960部电影数据。其中各个字段解释如下表

字段名	注释
title	电影名
year	上映年份
type	电影类型
star	电影评分2-10分
director	导演
actor	演员
time	电影时长
film_page	电影信息链接

【任务要求】

（1）在表格学生演员分配.xlsx里找到分配给你的演员。
（2）结合本门课程学过的知识，编写程序（Java程序/MapReduce）对’Film.json’内容进行筛选，筛选出只包含你的演员演过的电影，并转换为 csv 格式。
（3）把转换后csv文件导入 Hive，使用 SQL 分析我的演员每年上映的电影的数量和平均分。
（4）使用可视化工具（例如 Excel 等）把数据转换为可视化的图表，需要包含该演员每年电影上映数量和上映所有电影的平均分。图表形式可以使用折线图，柱状图等。

如：下图是使用 Excel 制作的“王菲的电影信息可视化图表”

#hadoop #实战

扫码或长按识别访问

上一页 Part 3 - Hive实战实践1

下一页常见问题

本页内容