当前位置：文档视界 › 基于校园大数据构建大学生画像的技术实现

基于校园大数据构建大学生画像的技术实现

152 ?电子技术与软件工程 Electronic Technology & Software Engineering

数据库技术

? Data Base Technique

【关键词】校园大数据大学生画像用户建模谱聚类

随着社会步入大数据时代，高校不可避免的需要在教学及管理方面进行一系列改革。这其中最大的变化在于，学生的一切行为在学校面前都将是“可视化”的，随着大数据技术的深入研究与应用，高校在教学及管理领域的专注点将聚焦于如何利用教育大数据为学生提供优质的课程设计、良好的学习环境、精准的生活服务。于是，“大学生画像”概念应运而生。

1 关于大学生画像

1.1 大学生画像之定义

用户画像(persona)的概念最早由交互设计之父Alan Cooper 在《About Face ：交互设计精髓2》一书中提出：“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表，是建立在一系列真实属性数据之上的目标用户模型。

大学生画像来自于用户画像，其定义目前尚无统一标准。[1]李光耀等描述为“基于大数据技术，通过整理搜集学生在网上的浏览、点击、留言、评论等碎片化的行为轨迹，研究学生言行，这些学生的言行轨迹直接或间接反映了用户的性格、习惯、态度等信息”。[2]董潇潇等描述“大学生行为画像是利用校园数据将学生行为信息标签化。”

本文将大学生画像描述成“基于以学生为中心的理念和校园大数据，根据其人口学特征、学习行为、社交活动、消费行为、思想动态、兴趣爱好等信息抽象出来并标签化的一系列学生模型集合。”1.2 大学生画像之意义

大学生画像对于高校的教学、管理和服务等方面均有着重要的指导意义和现实价值。

在课程设置方面，分析学生学业画像，

基于校园大数据构建大学生画像的技术实现

文/张海华1 郭田友2 张非3

可以帮助教学管理部门更加客观的了解学生对

大学课程的真实需求，更加科学的设置课程体系，能够精准的评价每一名学生。成都电子科技大学通过构建“学生画像”成功实现大学生学习挂科预警机制。

在学生工作方面，分析学生消费画像，可以帮助学工部门了解学生的经济和消费状况，从而设计精准、科学的帮扶机制，帮助贫困生顺利完成学业。南京大学成功将大数据技术应用于贫困生帮扶。安徽师范大学利用大数据挖掘技术为科学资助和精准资助提供了决策支持。

在毕业指导方面，分析学生职业画像，根据学生的能力模型进行职业发展轨迹推荐和“学生-企业”双向推荐，实现毕业生个人素质、求职意愿和企业岗位需求信息的“人岗精准对接”。海南师范大学利用大数据技术实现学生精准就业，提升了聘效率，拓宽学生就业渠道，有效管控就业数据。

2 大学生画像之构建

2.1 构建类别

根据大学生在校期间各项活动和数据，我们可以构建学生基础画像、学业画像、消费画像、心理画像、思想政治画像、职业画像、人格画像、评优助困画像、健康画像等一系列大学生画像集合。2.2 构建方法

构建大学生画像主要包括数据采集、数据清洗、用户建模、标签挖掘、画像聚类、可视化等工作。

数据采集按实时性分为在线采集和离线采集，其中在线采集包含个人基础数据和使用智慧校园系统发生的行为数据（如学习、消费、交流、上网等）。离线采集包括对各类系统交互日志和网络爬虫数据按照一定的算法规则进行挖掘收集。

通过数据采集得到的原始数据源存在“脏数据”，为了保证后期标签挖掘的准确性，需要进行填空、去噪、删重、修正、规范化等预处理。通过文本挖掘算法得到标签元数据和标签数据集并使之标准化，基于前述画像维度进行用户建模，并通过聚类算法对学生画像分类。

3 关键技术实现

3.1 数据处理

在进行用户建模之前，需要进行数据采集和清洗，我们选择Python 中的Sklearn 和Pandas 等模块作为数据清洗工具。

分析结构化数据的构成，我们做了如下清洗工作：通过使用常量替换、均值填充、回归预测等方法处理如考试成绩、三餐消费等缺失值、异常值问题；筛选并删除重复数据；利用分箱技术的箱体均值法处理图书借阅的噪音数据问题；通过格式转换处理数据编码和日期表示不一致问题；最后对清洗结果中同一维度的数据进行归一化和正则化处理，如家庭收入、学习成绩均处理成[0,1]之间的数字。3.2 用户建模

一个事件模型包括时间、地址、人物、内容四要素，每一次学生行为均是一次随机事件，可以描述为谁在何时何地址做何操作。因此数据模型概括为如下公式：学生标识+时间+行为类型+应用系统+内容。

学生标签的权重可能随时间增加而衰减，因此定义时间衰减因子为r ，行为类型、应用系统决定权重，内容决定了标签，可转换为公式：标签权重=衰减因子×行为权重×应用权重。

如某学生上月10日在图书馆系统查询了主题为大数据研究的论文，假设时间衰减因子公式r=1-(m-m0)*0.05（即每隔一个月衰减0.05），图书馆系统的权重为0.8，则其数据模型为：

学生学术标签为：科研，大数据，权重为(1-0.05)*0.8=0.76。

通过定义各类行为的时间衰减因子和系统以及内容权重，就可以对学生的全部行为建模。3.3 标签挖掘

标签元数据是用于描述标签分类的数据，我们将标签元数据划分为基本标签、经济标签、成绩标签、知识标签、体育标签、消费标签、饮食标签、社交标签、性格标签、心理标签、学习标签、思想标签等。

从数据提取维度来看，标签分为事实标签、模型标签和策略标签。事实标签来源于真实数据，定性描述学生的基本属性等，如家庭好、消费高、学霸。模型标签是对学生属性及行为进行抽象和聚类概况出来的，如足球迷群体、电竞迷群体。策略标签是根据学生信息和行为配合一定的规则策略设定，如可能挂科、有自杀倾向等。

在实践中，通过抓取校园论坛挖掘思想动态标签，抓取百度贴吧挖掘社交标签，分析

学习成绩设置成绩标签，分析图书借阅数据设置知识标签，分析消费行为和消费水平设置消

<<下转153页

大数据挖掘的用户画像应用方案

在大数据时代，机器要学会从比特流中解读用户，构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践，以及在实际中的应用。如何根据用户画像进行精准营销？将用户画像应用于个性化推荐？一起来寻找答案吧~ 首先看一下大数据与应用画像的关系，现在大数据是炙手可热，相信大家对大数据的四个V都非常了解，大数据应该说是信息技术的自然延伸，意味着无所不在的数据。我们先看下数据地位发生转变的历史，在传统的IT时代，TI系统围绕业务服务，在这个服务的过程中沉淀了很多数据，再在数据的基础上做一些分析。但是到了DT时代不一样了，数据是现实世界的虚拟化表现，数据本身构成了一个虚拟世界，IT系统构建在虚拟系统上，变得更加智能。

大数据无处不在体现在几个方面第一个就是说我们社会信息化的建设越来越发达。第二个是随着可穿戴设备的发展，人产生了越来越多的数据，接入网络当中，同时人和人之间沟通的方式也不仅仅是传统的面对面，传统理解人、与人沟通的方式发生了根本的变革，因此我们要学会从比特流中去认识人类，因此构建用户画像这件事就变得更加重要。而且现在机器也变得很智能了，所以我们还要教会机器来认识人类，这样才能在画像的基础上构建应用，譬如个性化推荐、精准广告、金融征信等等。之前我一直是在从事这方面的应用开发，因此知道用户画像对于这些应用的重要性。如果大家是来自互联网公司的话，我们经常会提到这些词：用户画像、标签、360度用户视图等等，有不少人甚至就是做这面的研发工作，但是这些概念让你感觉有一点似是而非，我以前也有这样的感觉，就是说没有从根本上把这些概念弄清楚，因此有必要把这些概念从根本上弄清楚。首先看一下我们生活中的用户画像