Python数据科学|第一章:数据科学家的武器库

简介: 本系列教程为《Python数据科学——技术详解与商业实践》的读书笔记。该书以Python为实现工具,以商业实战为导向,从技术、业务、商业实战3个维度来展开学习。
img_7b6f2e219c8bcc30087c1b8a0a21a913.png

本系列教程为《Python数据科学——技术详解与商业实践》的读书笔记。该书以Python为实现工具,以商业实战为导向,从技术、业务、商业实战3个维度来展开学习。本书共19章(Python环境安装和Python基础语法法本系列教程不做讲解),内容较多,旨在学习和记录。但惶恐自身能力有限,未及原书三分,故征得原书作者同意,才敢动笔。

1.1 数据科学的基本概念

数据科学并不是一门学科,它是为了完成商业或工业上的目标,从数据获取知识,为行动提出建议的方法、技术和流程的最佳实践。
本书提供了数据科学工作者的工作范式图,这里将这个工作范式图简单进行描述:数据通过维度分析转换为信息;信息通过建模分析得到知识;知识结合业务目标以此进行决策和行动。
与数据科学相关的知识设计多个学科和领域,包括统计学、数据挖掘、模式识别、机器学习(人工智能)、数据库等。

1.2 数理统计技术

1.2.1 描述性统计分析

新闻报道中的居民收入情况,并不需要把每个人的收入都念一遍,而是取的均值。描述性统计分析就是从总体数据中提取变量的统计量。在日常的业务分析报告中,常使用该方法完成。在实际中,也就是通过Python进行数据统计,完成统计表和统计图的呈现即可。

1.2.2 统计推断与统计建模

统计推断及统计建模,含义是建议解释变量与被解释变量之间可解释的、稳定的,最好是具有因果关系的表达式(下文会详细介绍)。

1.3 数据挖掘技术和方法

数据挖掘的方法分为描述性和预测性。预测性模型从历史数据中找到规律,并用于预测未来;描述性模型用于直观反映历史状况,为后续的分析提供灵感。
例如:判断客户是否违约,可通过客户的性别、年龄、收入、历史信用状况等因素进行预测。这里就是预测性模型。
通过客户标签对用户细分,以便针对不同客户做不同运营;根据客户的产品购买,发现产品间的相关性,用于捆绑营销。这些就是属于描述性模型。

1.3.1 描述性数据挖掘算法
  • 聚类分析
  • 关联规则分析
1.3.2 预测性数据挖掘算法
  • 决策树
  • KNN算法
  • Logistic回归
  • 神经网络
  • 支持向量机
  • 集成算法
    具体的算法在后文中一一讲解。

总结

第一章主要是起到总的作用,首先介绍了数据科学的概念和流程。接下来针对问题的难易,将数据科学需要用到的技术划分为:数理统计技术和数据挖掘技术。这些技术也就是数据科学家的武器库。

相关文章
|
3天前
|
Python
在Python中绘制K线图,可以使用matplotlib和mplfinance库
使用Python的matplotlib和mplfinance库可绘制金融K线图。mplfinance提供便利的绘图功能,示例代码显示如何加载CSV数据(含开盘、最高、最低、收盘价及成交量),并用`mpf.plot()`绘制K线图,设置类型为'candle',显示移动平均线(mav)和成交量信息。可通过调整参数自定义图表样式,详情参考mplfinance文档。
14 2
|
4天前
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。
|
4天前
|
Serverless Python
使用Python的pandas和matplotlib库绘制移动平均线(MA)示例
使用Python的pandas和matplotlib库绘制移动平均线(MA)示例:加载CSV数据,计算5日、10日和20日MA,然后在K线图上绘制。通过`rolling()`计算平均值,`plot()`函数展示图表,`legend()`添加图例。可利用matplotlib参数自定义样式。查阅matplotlib文档以获取更多定制选项。
15 1
|
4天前
|
数据采集 SQL 数据挖掘
Python数据分析中的Pandas库应用指南
在数据科学和分析领域,Python语言已经成为了一种非常流行的工具。本文将介绍Python中的Pandas库,该库提供了强大的数据结构和数据分析工具,使得数据处理变得更加简单高效。通过详细的示例和应用指南,读者将了解到如何使用Pandas库进行数据加载、清洗、转换和分析,从而提升数据处理的效率和准确性。
|
4天前
|
SQL 关系型数据库 MySQL
使用Python的pymysql库连接MySQL,执行CRUD操作
使用Python的pymysql库连接MySQL,执行CRUD操作:安装pymysql,然后连接(host='localhost',user='root',password='yourpassword',database='yourdatabase'),创建游标。查询数据示例:`SELECT * FROM yourtable`;插入数据:`INSERT INTO yourtable...`;更新数据:`UPDATE yourtable SET...`;删除数据:`DELETE FROM yourtable WHERE...`。
12 0
|
5天前
|
机器学习/深度学习 算法 数据挖掘
机器学习--K近邻算法,以及python中通过Scikit-learn库实现K近邻算法API使用技巧
机器学习--K近邻算法,以及python中通过Scikit-learn库实现K近邻算法API使用技巧
|
5天前
|
存储 Python Windows
轻松学会openpyxl库,Python处理Excel有如神助
轻松学会openpyxl库,Python处理Excel有如神助
|
5天前
|
NoSQL Python
在Python中,我们可以使用许多库来处理Excel文件
Python处理Excel常用pandas和openpyxl库。pandas的`read_excel`用于读取文件,`to_excel`写入;示例展示了数据框操作。openpyxl则用于处理复杂情况,如多工作表,`load_workbook`加载文件,`iter_rows`读取数据,`Workbook`创建新文件,写入单元格数据后保存。
13 1
|
5天前
|
Python
使用Seaborn库创建图形的使用案例
【4月更文挑战第29天】该代码段首先导入seaborn和matplotlib库,然后加载名为"titanic"的数据集。接着,它创建一个画布并设定子图大小。通过seaborn的FacetGrid以"Attrition_Flag"为列进行分组,映射数据到网格上,用histplot展示"Customer_Age"的直方图分布。同样,也使用boxplot方法生成"Freq"的箱线图。最后展示所有图形。
8 2
|
8天前
|
数据可视化 数据挖掘 数据处理
statsmodels, Python 统计分析工具库!
statsmodels, Python 统计分析工具库!
23 1