大数据时代下的教育管理信息化建设实践与探索

简介:

一、引言

“十二五”期间,高校信息化建设进入了一个“跨越式”发展的阶段。硬件基础设施得到了进一步地提升,数字化业务系统功能不断扩展,极大地提高了教育信息化水平。随着云计算、物联网、移动互联、大数据处理等技术地快速发展,人类已经迈入了大数据时代,硬件系统以及业务软件系统背后产生的原始数据,数据量呈几何级数从TB 级向PB 级乃至ZB 级快速增长,如何发挥这些海量数据的隐藏价值,进一步提升教育教学管理信息化水平,是我们长期关注、思考的问题。在此背景下,研究大数据处理技术,对数据进行采集、整合处理、分析、挖掘研究,使原来分散、利用率低、不被注意的数据得以充分利用,为学校的教学管理、发展战略和决策支持提供科学的依据有重要的意义。

二、学校信息资源现状分析

随着学校软、硬件资源的增添,产生大量的数据,数据包含结构化、半结构化和非结构化的数据,大致包括以下来源:

(1)数字化软件系统:是学校各个应用系统,可以执行业务需要的分析并获取需要的洞察。软件系统大致包含统一认证平台、支付平台、移动平台、图书借阅、学工系统、教务系统、信息门户、各个网站、餐饮一卡通系统、网络认证系统等。

(2)数据管理系统:数据管理系统存储逻辑数据、流程、策略和各种其他类型的文档:Excel电子表格、Word 文档,这些文档可以转换为可用于分析的结构化数据。

(3)数据存储:数据存储包含学校数据仓库、操作数据库和事务数据库。此数据通常是结构化数据,可直接使用或轻松地转换来满足需求。这些数据不一定存储在分布式文件系统中,具体依赖于所处的上下文。

(4)智能设备:智能设备能够捕获、处理和传输使用最广泛的协议和格式的信息。这方面的示例包括智能电话、仪表设备。这些设备可用于执行各种类型的分析。绝大多数智慧设备都会执行实时分析,但从智能设备传来的信息也可批量分析。

(5)聚合的数据提供程序:这些提供程序拥有或获取数据,并以复杂的格式和所需的频率通过特定的过滤器公开它。每天都会产生海量的数据,它们具有不同的格式,以不同的速度生成,而且通过各种数据提供程序、传感器提供。

(6)硬件资源数据:大致包含常用的计算机、服务器、交换机、路由器、防火墙、无线控制器、无线AP、门禁道闸等,一般都是利用这些硬件的基本用途,例如:交换机的数据交换、路由器的路由交换链路互通,只关心网络畅通,可以进一步利用这些设备的日志信息,挖据深层的数据资源,为网络管理人员和学校职能处室提供分析决策。

(7)其它数据:视频资源、社交网络数据、登录Wifi数据以及入侵检测、防御设备、上网行为等设备分析到的数据,移动互联数据等。

三、大数据技术及实践

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

目前使用较多的三个大数据处理工具是Hadoop、Storm、Spark,都是JVM上的语言写成的。

下面简单叙述我校如何将大数据技术应用于校园网络安全管理平台。

校园网络安全管理实验平台的功能架构如图1所示。

20160128050456481.jpg

从图1可以看出,该平台需要搭建大数据的基础运行环境和数据管控平台,其中基础运行环境包含Hadoop基础运行环境、基于内存的迭代计算框架和基于流处理的计算框架;需要网络支撑平台和信息共享交换平台,数据的标准化与建模;数据的检索、关联融合、安全检测;数据可视化分析与显示、多系统融合数据的高性能分析,数据即服务产生可以抽取利用的信息存放到数据池以备基础运行环境检索使用。

实验平台的技术架构如图2所示,该架构包含了数据采集层,数据集成层、文件存储层、数据存储层、数据计算层、数据分析层和平台管理层。

20160128050457427.jpg

实验平台采集到的数据包含应用系统数据、网络访问日志、各个网络设备的SNMP Trap信息、各个核心设备以及安全设备Syslog日志(包括IDS、Wireless AC、负载均衡设备、路由器、防火墙、上网行为审计设备等)、服务器访问日志、Snort信息、SFlow数据和Netflow数据以及端口镜像数据。

网络中的Syslog日志和网络访问日志将会是一个海量的数据,考虑到日志更新频繁和海量数据的特点,实验环境在Linux服务器上安装并启动的程序有Tomcat8,Hadoop2.6.1,Zookeeper3.4.6,HBase0.98.5,Flume1.5。选择了Flume + HBase的采集和存储方案,Flume最早是Cloudera提供的日志收集系统,Flume可以在日志系统中定制各类数据发送方,用于收集数据,Flume提供对数据进行简单处理,并写到各种数据接受方,Flume可以从Console(控制台)、RPC(Thrift-RPC)、Text(文件)、Tail、Syslog日志系统、Exec(命令执行)等数据源上收集数据。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。实验平台以Tomcat为Web服务器,通过Flume实时监控网络的日志文件并将新增日志收集、清洗并保存到HBase中,供Spark等分布计算框架分析使用。

计算层主要包括离线数据处理、近似实时批处理、实时流处理。其中:离线数据处理采用Hadoop的分布式存储和并行计算模式MapReduce编程模型。Hadoop是一个分布式系统的基础架构,非常适合对大数据集进行离线计算。通过读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出。该功能模块采用聚类分析、分类计算和关联规则等算法对网络中的日志进行离线分析。在海量数据下,数据冗余模块往往成为整个系统的瓶颈,实验使用了内存NoSQL来处理冗余原始数据,并采用尽可能多的节点进行处理冗余信息。网络流的实时处理采用Storm和Spark框架模型进行处理,实时处理消息更新数据库,可对数据流做查询,计算时将结果以流的形式输出给Hive/Pig进行聚类分析、拟合、协同过滤、展示。效果图如图3所示。

20160128050458562.jpg

从图3中可以直观的看到服务器的网络流量信息,可以协助网络管理人员了解服务器的访问情况,分析是否有异常流量。

大数据技术的应用,提高了网络管理的信息化,通过该平台可以直观地查看服务器的访问情况、通过服务器的进出流量情况以及一个会话流量数据的差值信息可以展示服务器的访问会话是否正常以及是否有异常攻击行为,查看网络中的主机行为是否存在异常流量,是否被木马程序控制等。

四、大数据技术在教学管理中的应用展望

通过对学校的各个信息系统数据、多方采集的信息资源(包括宿舍门禁、图书馆门禁、校园Wifi、用电情况、视频资源)、社交网络等信息的多维度融合,数据关联分析、挖掘,可以发现——①大数据技术应用到学生管理:可以了解学生的出勤情况、心理情况、学习情况,全面客观地记录学生成长轨迹,沉淀和积累多维度的学生成长数据,让反映学生发展状态的数据完整显示出来,推进教育质量观的落实,为学生辅导员多方面了解学生提供新渠道,提前预知学生的生活学习动向,可以做到因材施教、个性化指导服务、提高学生的多方面能力、挖掘学生的兴趣度、分析并帮助学生选择就业方向;②大数据技术可以应用到教学管理:结合教师在课程平台中的问题答疑及作业布置情况、上课学生出勤情况、登录Wifi情况、学生考试情况、课堂的视频资源、学生评教信息等数据可以对教师的教学情况进行全面的了解,有利于规范组织教学、示范教学;③大数据技术应用到学校管理:大数据时代,学校师生员工几乎“透明”地生存,每个人在数据空间中都会留下痕迹,折射其兴趣爱好、需求意愿、性格特征等内心世界。管理者只需收集和分析相关数据便可以洞悉和预判现实中师生员工的未来行为,准确定位师生的需求,从而实现精细化管理;④大数据技术应用到后勤管理:通过学生的餐饮数据可以调整食堂的布局和用餐的品种以及用餐时间的保障,通过课表信息、学生进出教学楼的信息对教室电源控制管理起到节能效果。

五、结束语

在“互联网+教育”的背景下,通过让大规模的数据产生关联性,让碎片化的数据变成一个融合的整体,通过数据的集成、管理、分析,使人们可以基于大数据来发现事物的本质、预测未来的趋势,创新应用大数据技术不断推进信息技术与教育教学的深度融合,充分发挥教育信息化在教育改革发展中的支撑与引领作用。研究应用大数据技术的意义在于可以让大数据“导航”学校教育管理信息化,“预测”教学效果、学生未来的发展趋势。


本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
数据采集 监控 算法
利用大数据和API优化电商决策:商品性能分析实践
在数据驱动的电子商务时代,大数据分析已成为企业提升运营效率、增强市场竞争力的关键工具。通过精确收集和分析商品性能数据,企业能够洞察市场趋势,实现库存优化,提升顾客满意度,并显著增加销售额。本文将探讨如何通过API收集商品数据,并将这些数据转化为对电商平台有价值的洞察。
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
703 0
|
4月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
65 0
|
4月前
|
SQL 存储 大数据
某互联网大厂亿级大数据服务平台的建设和实践
某互联网大厂亿级大数据服务平台的建设和实践
67 0
|
6月前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxCompute 应用场景实践
MaxCompute 应用场景实践
92 0
|
7月前
|
SQL 存储 分布式计算
MaxCompute元数据使用实践--项目信息统计
MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。
479 0
|
5月前
|
分布式计算 Kubernetes Spark
米哈游大数据云原生实践
近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行 Spark 可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark 。
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
69 0
|
4月前
|
分布式计算 项目管理 MaxCompute
MaxCompute元数据使用实践--数据权限统计
本文主要介绍通过元数据的相关权限的视图进行数据权限的统计。
101486 2
|
4月前
|
存储 SQL 数据挖掘
某工商信息商业查询平台基于阿里云数据库 SelectDB 版内核 Apache Doris 的湖仓一体建设实践
从传统 Lambda 架构到基于 Doris Multi-Catalog 的湖仓一体架构实践,保证了数据的准确性和实时性、高效处理和分析了大规模数据,推动信息服务行业发展创新!
某工商信息商业查询平台基于阿里云数据库 SelectDB 版内核 Apache Doris 的湖仓一体建设实践