方案介绍
大数据决策分析是目前知识发现和数据管理领域中的一项重要技术,它采用多种统计分析方法、机器学习及人工智能等进行数据挖掘和知识发现,进而在已有的数据整合中获取高校办学过程中的人、资源、行为以及三者之间的内在联系,从而帮助决策者快速做出正确的决策。高校决策层通过决策分析结果能够深度掌握学生各方面状态和教学科研情况,也可利用相关结论清楚把握学校运行态势,并进一步推进以信息整合和个性化服务为一体的智能决策与管理工作。大数据决策分析包括模型选用、计算过程、模型性能评估与验证、开发技术与运维、可视化呈现等部分。
模型选用
根据高校实际教学管理工作划分决策对象,梳理不同对象的决策场景需求,建立面向不同对象的决策模型。例如在研究学生上网行为与学科成绩关系中,可利用线性回归模型进行分析,通过最终计算结果将学生的上网流量和上网时间控制在一定的范围内,有助于扩展学生的知识面,提高学生成绩。再如在挂科预测问题上,通过随机森林算法建立模型分析学生上学年的成绩、图书馆借阅数目、上网行为等信息,从而有效地预测学生的成绩走势;通过建立多维度的学生行为异常指标可筛选出行为异常的学生,进而推送给辅导员。
计算过程
支持根据决策需求的不同背景来进行算法的挑选,并通过算法调参和模型验证来建立最适合的模型,主要步骤有以下几点:
1.计算各维度的显著性与相关性:从统计学角度分析事物的显著性以及在各维度之间的关联程度。
2.训练模型:将处理好的各个维度的数据输入到多个模型中进行训练。
3.模型验证:检验各个输出模型的准确度,比如:回归模型中常用R^2进行检验,以 及使用交叉验证方法让模型更加稳定而可靠。
4.结果评估:比较各个模型的准确度,挑选出准确率最高的模型作为该决策分析对象的最 终模型。
5.结果分析:分析该决策分析对象的最终模型输出的结果,根据其结果分析维度之间的规律情况。
模型性能评估与验证
对于整体模型的性能评估,使用了统计分析、回归分析、聚类分析等模型方法。
在统计分析方面,用统计分析以及相关性分析。在进行统计分析时,采用抽取样本的方法验证结果;在进行相关性分析时,计算Pearson correlation coefficient、spearman correlation coefficient以及计算相关系数显著性。
在回归分析方面,通过5-Fold交叉验证将数据集划分为训练集和测试集,利用回归模型进行建模预测分析,选用R^2检验作为评价指标计算该模型的交叉验证平均正确率。同时使用随机森林回归算法、梯度提升回归算法及多项式线性回归算法作为比较模型,验证所选的线性回归算法的准确度。
在聚类分析方面,使用Ward法、K-means对数据进行聚类,得到不同属性的类型。
开发技术与运维
在整个解决方案的开发过程中,主要是利用spark引擎平台,对复杂的海量数据进行分布式计算,大大提升了运算的速率。同时在spark引擎平台上使用Python进行大数据方面的开发,大量运用Python中许多成熟的框架和算法库,如numpy、scipy、pandas等,提高模型最终计算结果的准确度。
可视化呈现
决策分析结果的可视化呈现方面使用JS可视化技术,并借助Seaborn、tableau、matplotlib工具实现数据可视化图形的形成、数学建模和算法设计,实现Dashboard和动态数据更新。以What-if分析和回归模型拟合等多样化的形式对关键指标的异常值进行预警,并将预警通过特定的方式推送给学生本人或其他特定人群。