做一个大数据项目一个团队一般如何分工的?

如题所述

今年我们项目组刚好入手一个教育大数据的项目,我们是研究一些教育大数据,从中挖掘出一些跟教育相关的因果关系一达到对这些数据进分析、处理,并从中挖掘出有价值的信息进行改善教育模式、提升教育质量的目的。我们项目组当时分组情况如下:信息采集组、数据清洗组、数据融合组、数据挖掘组、数据可视化组。


根据每组的名称很好理解,信息采集组主要是通过网络爬虫来采集数据,当然还可以根据业务需求,通过不同的方式来采集数据;数据清洗组主要就是把一些无效的脏数据找出来剔除或者替换,任务量其实很大,因为爬来的数据脏数据量很大,这个组的工作周期一般很长,任务也很重;数据融合组主要就是把爬来的课程信息把相似的归类,有上下级关系的就按照子类父类的关系列好,这一组的工作非常不好完成,目前我们做的融合效果不算好,想融合好算是一个难点。数据挖掘组就是拿到可用的数据之后通过数据挖掘算法,去研究之前设定好的影响因子之间的因果关系,主要的分类算法有决策树、贝叶斯分类、基于规则的分类、神经网络、持向量机 、懒惰学习算法中的K-最近邻分类和基于案例的推理等算法;数据可视化组顾名思义就是把数据挖掘组的成果可视化展示,这样可以直观的看到数据之间的关系,并利用数据分析和开发工具发现其中未知信息的处理过程。

温馨提示:答案为网友推荐,仅供参考
相似回答