今年课工场作为专注于企业IT岗位人才培养的教育机构,深度参与本届赛事,成为赛事支持单位和出题方,有本科生和高职两道赛题入选题库。
在过去的一段时间里,有不少高职组同学向课工场老师咨询问题。今天呢,课工场为了解决各位同学的问题,特整理如下:
赛题名称:基于互联网大数据的招聘数据智能分析平台
组类: B 高职组
问题1:
项目的大致技术路线图是什么样?
回答:
暂时没有具体的流程图,可以确定的是分为几个阶段。首先数据收集,将数据导入到大数据平台中,待使用。在这之前要准备好大数据环境,之后通过hive进行数据处理,和数据分析。最后将处理好的数据放入hbase或其他数据库待使用。通过应用去访问数据,进行数据展示,应用可以是web界面或者其他的数据展示手段。
问题2:
分析是否需要用MapReduce啊?
回答:
建议直接使用hive
问题3:
分析是否需要用MapReduce?
回答:
建议直接使用hive
问题4:
web除了要用图表展示出来,还有其他要求吗?
回答:
没有其他要求
问题5:
是否用做爬虫去抓取数据,直接对EXCEL里面数据表经行处理,然后导入到数据库中
回答:
对,可以不用做爬虫,可以先对数据做处理,然后导入到大数据环境中,也可以导入数据之后再做处理。
问题6:
未处理的数据必须要放入hbase然后用Hive处理吗 ,这个数据库可以是MySQL吗,然后用其他编程语言处理,例如PHP、Node.js、Java操作数据库处理呢
回答:
大数据环境不限于hbase,可以放到hdfs中,数据分析必须使用大数据技术,这是我们主要考核之一,推荐用hive,当然你写map reduce 也可以,可以用java。
问题7:
那个linux机器能用3台以上不?
回答:
可以,但是一般搭三个节点就够了,因为hadoop集群横向扩展比较简单
问题8:
搭建hadoop环境,对linux选择系统有限制吗?乌邦图或Centos都行?
回答:都可以;
问题9:
赛方提供的数据都是it行业的吗?还是。。。
回答:
得自己分析这些数据
问题10:
还有就是,是否允许加入一些自己爬取的数据,如果允许,有什么要求吗?
回答:
不允许使用自己的数据
问题11:
还有就是,赛方要求了用hdfs/hbase存储,hive清洗过滤,将分析结果保存到Hbase中,也就是说,要把结果分析出来然后存下来,查询的时候直接调对吗?
回答:对
问题12:
对计算框架有什么要求吗?
回答:
计算框架建议使用hadoop平台。使用hive完成数据分析
以上就是课工场为各位同学整理的基于互联网大数据的招聘数据智能分析平台相关问题,希望能够帮助到大家!
推荐阅读:
本科组:基于深度学习的银行卡号识别系统