1. 研究目的与意义
随着社会的发展,人类已经进入大数据时代,不仅数据种类繁多,而且数据量庞大,一般的利用数据的方法已经不能满足时代的需求。
如何在这个大数据时代, 高效而又便捷的获取自身所需要的个性化数据, 就变成一个大家迫切需要解决的问题。
Python语言有着简单易学的特点, 语法清晰,在数据操作方面有着一定的优势,也因此成为了数据采集和可视化领域的热门语言,通过对互联网上的相关数据,进行采集、清洗、可视化等操作,得到可视化的结果,借此来增强数据的呈现效果,使得用户能够更加清晰和透明的去观察数据,进而能发现数据中隐藏的信息,在短时间内理解数据背后的价值与规律,来解决社会存在的某些问题等等。
2. 课题关键问题和重难点
数据可视化的核心是数据,对数据的采集、清洗是非常重要的。
因此,爬虫的类型需要认真考虑,建立数据可视化前期在数据采集层上就要考虑未来的数据可视化。
真实数据往往并不是一维的,往往是多维甚至是高维的,因此在数据清洗时要格外注意。
3. 国内外研究现状(文献综述)
数据可视化,是关于数据视觉表现形式的科学技术研究。
其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
它是一个处于不断演变之中的概念,其边界在不断地扩大。
4. 研究方案
毕业设计是基于python的数据可视化,对51job网站的iT职位的相关信息就行爬取,分析,可视化,并进行简单的分析。
1.实施方案及主要研究手段查阅相关资料,了解了相关需求之后,进行需求分析并搭建主要的框架,在Windows操作系统上通过pycharm编写相应的脚本,实现相应的功能。
2.选题创新之处在搜集资料的过程中,有许多数据可视化的案例,但是对it相关职业进行数据可视化的项目较少,不少大学生毕业面临着找工作的问题,这次的毕业设计,希望通过一些简单的数据分析能够帮助同学,为同学提供帮助,在想找与iT有关的工作时,能够避开一些因信息不明而产生的误区,少走一些弯路,有效地获取相关的信息。
5. 工作计划
在2022-2022-1学期,第16-17周期间,完成外文翻译、开题报告,写出论文初步框架。
第18-19周期间,对数据可视化各个步骤进行分析,画出相应的流程图,并且细化功能,熟悉实现的软件和技术。
在2022-2022-2学期,第01-02周,利用urllib,requests等模块,完成爬取相关数据的网络爬虫脚本。
