【版本】
当前版本号v20240226
版本 | 修改说明 |
---|---|
v20240226 | 初始化版本 |
【任务名称】任务4 - 使用数据可视化技术展示我的演员电影产量和质量按年份的变化。
【任务目的】
- 掌握使用 Hive 进行数据分析
- 了解数据可视化工具的使用
【任务环境】
- Windows 7+
- VirtualBox
- CentOS 7
- Hadoop 3
- JDK 版本:1.8 或以上版本。
- Hive 2.3.8
【任务说明】
Film.json
是豆瓣电影的真实电影数据。里面包含了41960部电影数据。其中各个字段解释如下表
字段名 | 注释 |
---|---|
title | 电影名 |
year | 上映年份 |
type | 电影类型 |
star | 电影评分2-10分 |
director | 导演 |
actor | 演员 |
time | 电影时长 |
film_page | 电影信息链接 |
【任务要求】
(1)在表格
学生演员分配.xlsx
里找到分配给你的演员。(2)结合本门课程学过的知识,编写程序(Java程序/MapReduce)对’Film.json’内容进行筛选,筛选出只包含你的演员演过的电影,并转换为 csv 格式。
(3)把转换后csv文件导入 Hive,使用 SQL 分析我的演员每年上映的电影的数量和平均分。
(4)使用可视化工具(例如 Excel 等)把数据转换为可视化的图表,需要包含该演员每年电影上映数量和上映所有电影的平均分。图表形式可以使用折线图,柱状图等。
如:下图是使用 Excel 制作的“王菲的电影信息可视化图表”