专访唐亘:计算机编程和数学建模缺一不可

简介:


65cf7b24b523b6eff7661ca7b7aa36c337327038

48a4bddce6d0310459684594554a8fe73ca61c02

点击图片购书


参与文末话题讨论,每日赠送异步图书

——异步小编



异步社区:可以介绍一下自己吗?目前正在做哪些事情?


唐亘:大家好,我叫唐亘,是《精通数据科学:从线性回归到深度学习》一书的作者,现就职于一家叫finogeeks的创业公司。在这家创业公司里面,我主要负责两个项目,一是利用市场上的各种信息,在金融领域里搭建知识图谱;二是构建量化指标体系用于刻画客户的投资行为,并以此为基础搭建个人专属的智能投顾机器人。

异步社区:是什么初衷开始创作《精通数据科学:从线性回归到深度学习》一书?这本书写给哪些人看?


唐亘:现在回想起来,有3个主要的原因促成我开始写这本书吧:
目前大热的数据科学(data science)是一门新兴学科,它涉及计算机、计量经济学、机器学习等多方面的内容但比较遗憾的是,将这3门学科融汇在一起的图书比较少见(在我有限的认知里),因此想通过自己的写作将这点遗憾弥补掉。

网上有关数据科学的资料很多,但这些资料都比较碎片化,不成体系。所以我希望能成体系地写一本书勾勒出有关数据科学的全景图。

从学习经历上来讲,我是一个比较喜欢自学和分享的人,因此很想将自己的学习心得和对学科的体会写出来,分享给大家。

这本书,我觉得比较适合两类人群吧,一是初学者,可以帮助他们了解什么是数据科学;二是对数据建模有一定基础的技术人员,可以帮助他们更好地理解模型(特别是在模型稳定性和可信度方面)。

异步社区:除了写作,您有开设视频课程的计划吗?


唐亘:长期有这样的打算,之前也尝试过比较短时间的公开课。但是,系统的视频课程需要比较长的准备时间,所以近期没有具体的计划。

异步社区:有一种说法,数据分析的工作终将被机器淘汰?您认同吗?
不认同。


唐亘:我觉得数据分析工作包含3个部分:业务知识、分析模型搭建、模型计算。其中前两个部分都是机器无法替代的,因为这些需要人的经验积累以及人对模型假设的理解。而最后一个部分是机器可以胜任的事实上,目前各种开源算法库比如scikit-learn、Tensorflow,它们做的事情就是让模型计算变得愈发自动化。

异步社区:对于刚入行的小白,您有什么建议?


唐亘:结合个人经历,我的建议是:多动手写代码提高自己工程实现的能力。多学一点高等数学的知识以便加深对模型的理解。多与业务人员接触了解业务场景,加深对数据的理解。

 

异步社区:数据科学家必备的职业素养您认为最重要的3点是什么?为什么?


唐亘:在我看来,数学科学家必备的3点职业素养是:模型理解、工程实现以及沟通技巧。通俗点讲就是既懂数学,又懂代码,还会讲故事。

模型理解强调的是对模型数学细节和模型假设的深刻理解。只能真正地理解了模型,才能根据实际情况,选择适当的模型分析数据。

工程实现强调的是数据科学家的代码能力。在这个计算机无处不在的时代,没有良好的代码能力,再好的模型设计也只能是空中楼阁,无法落地。沟通技巧强调的是如何将模型结果(或者其他一些技术细节)清楚明白地解释给业务人员。这往往是一个数据分析项目成功的关键因素。


异步社区:您曾说,就像“一千个人眼里有一千个哈姆雷特”一样,对于什么是数据科学也有很多种不同的解读,并由此衍生出很多相关概念,比如数据驱动(data driven)、大数据(big data)、分布式计算(distributed computing)等。这些概念的应用场景有什么不同?为什么这么说? 


唐亘:数据科学涉及的面特别广,也影响了人类社会的方方面面。不同的人对数据科学的关注点是不同的,因此衍生出很多侧重点不同的概念。比如数据驱动(data driven),它的侧重点是企业文化或者企业架构,指的是公司的决策应该从数据分析结果出发,而不应依赖于领导的个人经验;分布式计算(distributed computing)是一个技术概念,指的是如何利用计算机集群解决大数据量下的计算问题;大数据(big data)则是一个更加泛化的概念,更侧重于描述数据(数量越来越多,精细程度越来越高的数据)对人们生活的影响。

异步社区:数据科学所面临的工程挑战是什么? 


唐亘:我认为在工程实现上,面临的挑战主要有3个:

特征提取。一个数据分析项目的成功在很大程度上依赖于分析前期的特征提取,而且在一个典型的数据分析项目中,这部分花费的时间远远大于选择和编写模型算法的时间。为了能较好地完成这部分工作,需要优秀的代码能力。

矩阵运算。在模型训练时(也就是估算模型参数时),往往涉及矩阵运算。使用传统的CPU架构来进行这样的运算往往速度太慢,因此需要将这部分计算移植到GPU或者特制的计算芯片上,比如TPU。

分布式计算。在实际的应用中,往往需要面对海量的数据,这些数据是一台计算机无法处理的,因此要将原本在一台机器上运行的模型算法改写成能在计算机集群上分布式运行的算法。

异步社区:您是如何平衡写作、工作和生活时间的?有什么心得可以分享吗?


唐亘:写作是一件极其耗费时间的工作,因此只能尽可能地挤压自己的休息时间来完成。要说有什么心得的话,就是在写作的时候(其实工作的时候也一样),最好断网断手机,在较长的时间内专心做一件事,不要写不到几个字就刷一次朋友圈。

异步社区:2018年的目标是什么?可以跟异步社区的读者分享下吗?


唐亘:2018年的目标是锻炼身体,成功减肥,还有就是多读几本历史书。



《精通数据科学:从线性回归到深度学习》


spacer.gif


5af135c3fc34cf0f706009c4edc49fe4b7c3e897


《精通数据科学:从线性回归到深度学习》

唐亘


京东购书  当当购书

数据科学入门到实战,介绍数据科学常用的工具——Python、数学基础及模型,讨论数据科学的前沿领域——大数据和人工智能,包括机器学习领域经典的模型、分布式机器学习、神经网络和深度学习等。 

在数据学科的角度,融合了数学、计算机科学、计量经济学的精髓

为读者阐释了数据科学所要解决的核心问题—数据模型、算法模型的理论内涵和适用范围 

以常用的IT工具—Python为基础,教会读者如何建模以及通过算法实现数据模型,具有很强的实操性。 

本书还为读者详解了分布式机器学习、神经网络、深度学习等大数据和人工智能的前沿技术。

今日互动

你对本书的看法?为什么?截止时间6月8日17时,留言+转发本活动到朋友圈,小编将抽奖选出3名读者赠送纸书1本和2张e读版100元异步社区代金券,(留言点赞最多的自动获得一张)。

异步图书微信后台回复“5月新书”进入新书交流群,获得第一手新书信息


推荐阅读

2018年5月新书书单(文末福利)

2018年4月新书书单

异步图书最全Python书单

一份程序员必备的算法书单

第一本Python神经网络编程图书

0cb5a27fa6fbbf9cb89ce913122f899fd46b8c72

长按二维码,可以关注我们哟

每天与你分享IT好文。

在“异步图书”微信后台回复“关注”,即可免费获得2000门在线视频课程;推荐朋友关注根据提示获取赠书链接,免费得异步e读版图书一本。赶紧来参加哦!

点击阅读原文,购买《精通数据科学 从线性回归到深度学习》

阅读原文


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
设计模式 架构师 Java
牛皮了!世界级架构师,图解面向对象编程,小学生都能看得懂
面向对象编程(Object-oriented Programming,缩写:OOP)是软件工程中一种具有对象概念的编程范式(Programming Paradigm),同时也是一种程序开发的抽象方针,与之对应的编程范式还有:函数式编程(Functional Programming)、过程式编程(Procedural Programming)、响应式编程(Reactive Programming)等。
数学建模养成篇2:数学建模的创新思维
建模的过程往往是一个循环往复的过程。更加需要的是我们的耐心和细心。
51 0
数学建模养成篇2:数学建模的创新思维
|
存储
【CSDN编程竞赛 第六期】我的第一场编程竞赛
我的第一场编程竞赛解题思路。
126 0
【CSDN编程竞赛 第六期】我的第一场编程竞赛
|
程序员
盘点关于程序员的那些经典案例
深度剖析几个经典话题,以图文的形式展现,好好看图。
86 0
|
人工智能 分布式计算 算法
程序人生 - 热议:高数、线代应该成为计算机专业学习的重心吗?
程序人生 - 热议:高数、线代应该成为计算机专业学习的重心吗?
191 0
程序人生 - 热议:高数、线代应该成为计算机专业学习的重心吗?
|
存储 监控 安全
从平凡到非凡 阿里云李克的技术进阶之路
人物简介:李克 阿里云边缘云计算领域技术负责人 2009年硕士毕业加入阿里至今,一直从事CDN及边缘云领域的技术研发工作,在CDN、边缘计算等方向上有丰富的行业经验,全程参与了阿里云CDN商业化转型,边缘云中台体系的建设,研究方向包括数据智能、分布式架构和性能优化、云计算等领域。目前主要负责边缘云的技术研发以及架构演进。
842 1
从平凡到非凡 阿里云李克的技术进阶之路
|
机器学习/深度学习 人工智能 自然语言处理
“预习-上课-复习”:达摩院类人学习新范式探索
预习时关注重点,上课时由易到难,复习时举一反三,能否让机器也按照“预习-上课-复习”的学习范式进行学习呢? 达摩院对话智能(Conversational AI)团队对这个问题进行了研究探索,先将其用在了人机对话领域,在国际知名多轮对话数据集MultiWoz上取得了最好结果。
“预习-上课-复习”:达摩院类人学习新范式探索
AI课程将在今秋走入高中,准高一新生准备好了吗?
就教学体系而言,学习AI不再是本科生和研究生的专属。
292 0

热门文章

最新文章