Part 4 - Hive实战实践2

2024-02-26
1分钟阅读时长

【版本】

当前版本号v20240226

版本修改说明
v20240226初始化版本

【任务名称】任务4 - 使用数据可视化技术展示我的演员电影产量和质量按年份的变化。

【任务目的】

  • 掌握使用 Hive 进行数据分析
  • 了解数据可视化工具的使用

【任务环境】

  • Windows 7+
  • VirtualBox
  • CentOS 7
  • Hadoop 3
  • JDK 版本:1.8 或以上版本。
  • Hive 2.3.8

【任务说明】

  • Film.json 是豆瓣电影的真实电影数据。里面包含了41960部电影数据。其中各个字段解释如下表
字段名注释
title电影名
year上映年份
type电影类型
star电影评分2-10分
director导演
actor演员
time电影时长
film_page电影信息链接

【任务要求】

  • (1)在表格学生演员分配.xlsx里找到分配给你的演员。

  • (2)结合本门课程学过的知识,编写程序(Java程序/MapReduce)对’Film.json’内容进行筛选,筛选出只包含你的演员演过的电影,并转换为 csv 格式。

  • (3)把转换后csv文件导入 Hive,使用 SQL 分析我的演员每年上映的电影的数量和平均分。

  • (4)使用可视化工具(例如 Excel 等)把数据转换为可视化的图表,需要包含该演员每年电影上映数量和上映所有电影的平均分。图表形式可以使用折线图,柱状图等。

如:下图是使用 Excel 制作的“王菲的电影信息可视化图表”

扫码或长按识别访问