从数据小白到大赛黑马,他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队

简介:

近日,2017年中国高校SAS数据分析大赛北京举办了颁奖仪式,来自清华大学大数据能力提升项目的三位学生(王存光、姚超、李继凡)组队参赛,并一举斩获亚军殊荣。这项以高校数据分析人才为核心的赛事至今已举办至第五届,今年是清华大学第一次派出代表参加比赛。通常的参赛队伍多来自于金融统计专业然而此次获得亚军殊荣的三位学生王存光、姚超、李继凡分别来自于清华大学水利系、精密仪器系和生物医学工程系

968569cb1900db23b6fcd40af1223b627cf0906e

首次参赛“零经验”、交叉学科“罕见背景”、超过1000支的竞争队伍,这对他们来说,无疑是不小的挑战。如何在高手频出的大赛中崭露头角?清华大学大数据能力提升项目又给予了他们怎样的帮助?让我们一起听听,他们怎么讲。

赶Deadline的那些日子

时间比较紧张,从我们决定要参加比赛直到初赛,也就大概10天,所以准备比赛的过程,基本上就是在赶Deadline的过程。备赛时间集中在国庆放假,我们都牺牲了宝贵的假期,疯狂备战。”说到比赛前的准备过程,来自精密仪器系的姚超娓娓而谈,好像一切才过去不久。 

“另一种压力来自于准备过程中的不确定性,就是我们也不知道这样做是对还是错,是否能够继续下去,所以心里有点没谱。不过幸运的是,数据研究院的老师在鼓励和支持我们,还给了我们很多实际的帮助。这次是我们第一次,也是清华第一次参加中国高校SAS数据分析大赛,所以对于比赛信息我们了解得很少,也没有接触过SAS系统进行数据分析,最初不知道该从何下手。后来我们找到了数据研究院的罗老师,她给我们分享了很多《数据分析与优化建模》的往期课件。这些课件系统地介绍了如何使用SAS软件做数据分析,帮助我们在几天之内上了手。”生物医学工程系的李继凡补充说。 

对于姚超、王存光和李继凡三位学生来说,这次比赛所遇到的困难不小——备赛时间短、首次参赛零经验、陌生的数据分析系统。虽初战告捷,他们所遇到的挑战却不止如此。 

“黑马”跨界

在高手如云的中国高校SAS数据分析大赛中,参赛选手们大多来自于金融或统计专业,而王存光、姚超和李继凡三位同学却都是工科背景,甚至来自不同的专业。 

 “我们水利系所用到的数据分析并不复杂,像比赛中这种大型的数据分析在我们专业很少会用到。”清华大学水利系博士二年级在读生王存光说道,“这是我们第一次用SAS这个数据分析工具,所以技术上肯定没有信息学院或者其他相关专业的学生那么熟练,但是因为我们有不同的学科背景,所以每个队员可以根据自己的优势承担相应的工作,充分利用各自学科所带来上‘长板’。 

“初赛题目是与银行信贷相关,因此生物医学工程系的继凡主要负责了变量分类和背景分析的工作,而精密仪器系的姚超主要是将数据中627个特征逐一分析,找出核心变量,而我主要负责了模型搭建的工作。这个过程其实很考验我们的沟通协作能力,每一个环节都很关键。”王存光说。这种跨学科的学习方式,正是清华大学数据科学研究院有别传统的新型教学理念。“和不同专业的人在一起做项目会发现很多创新点,”来自生物医学工程系的李继凡说。在《大数据实践课》上,信息类和非信息类的学生跨学科组队,以团队的形式做项目,使不同背景的学生能够在组内充分交流,相互学习,各自发挥特长。 “平时的这种锻炼对于比赛中所需要的沟通协作能力以及团队凝聚力也有很大的帮助。”李继凡接着说道。 

“未来”已来 

在今天的IT领域,越来越多的问题可以用数据驱动方法来解决。它是大数据的基础,更重要的是,它带来了一种新的思维方式。 

“不能跟信息学院的学生拼技术,还是得拼思维方式和实现能力。冠军队在决赛的时候其实就坐在我们后面,相比之下,他们确实更从容,我们因为对技术不够熟练所以略显匆忙,”姚超说,“技术方面我们工科背景的学生肯定是没有优势的,但是好在我们会及时发现问题并解决问题,动手能力比较强。而且我们可以与专业知识结合在一起做项目,数据只是一种手段,思维方式是关键。 

“就是数据院常说的π型人才嘛。” 李继凡接过了话头。李继凡所说的π型人才正是清华大学数据研究院重点着力的人才培养方向,通过大数据思维与技能、跨界学习能力、实操应用相结合的课程体系,帮助清华学子们将大数据思维与应用创新有机结合,为大家日后的发展提前打好基础。 

“总之,比赛一定程度上还是可以检验并提升自己的,希望在下次的比赛中,我们能够有更好的发挥。” 李继凡继续说道。

创新需要勇气,提升离不开实践。大数据思维、跨界学习、应用实操相结合的培养与锻炼,成为了王存光、姚超、李继凡三位同学在此次比赛中的“力量之源”。清华大学首次派队角逐中国高校SAS数据分析大赛便满载而归,同学们在此次比赛中所展现的能力,是他们自我努力的体现,也是数据科学研究院先进教学理念的展示。希望今后数据院能够帮助更多的清华学子,在数据科学领域绽放异彩,找到属于自己的人生舞台。


原文发布时间为:2017-12-4

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
1天前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
10 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
7天前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
9天前
|
数据挖掘 Python
SPSS时间序列ARIMA、指数平滑法数据分析汽车销量数据
SPSS时间序列ARIMA、指数平滑法数据分析汽车销量数据
|
11天前
|
机器学习/深度学习 安全 数据挖掘
数据分享|函数型数据分析部分省市新冠疫情数据
数据分享|函数型数据分析部分省市新冠疫情数据
|
18天前
|
数据可视化 数据挖掘 Linux
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
|
18天前
|
数据挖掘 API 区块链
《区块链公链数据分析简易速速上手小册》第2章:数据获取基础(2024 最新版)
《区块链公链数据分析简易速速上手小册》第2章:数据获取基础(2024 最新版)
38 0
|
20天前
|
数据可视化 数据挖掘
R语言分段回归数据数据分析案例报告
R语言分段回归数据数据分析案例报告
|
21天前
|
数据挖掘 定位技术
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
|
22天前
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
19 4