跟我一起数据挖掘(4)——数据挖掘涉及的技术

简介:

数据挖掘需要掌握的内容包括:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。

下图比较清楚的画出了学习数据挖掘需要掌握的知识内容:

1、统计学

统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。

统计学中用到的主要术语:

描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。
推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。
变量(variable):每次观察会得到不同结果的某种特征。
分类变量(categorical variable):观测结果表现为某种类别的变量。
顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。
数值型变量(metric variable):又称定量变量,观测结果表现为数字的变量。
均值(mean):均值也就是平均数,有时特指算术平均数,这是相对其他方式计算的均值,求法是先将所有数字加起来,然后除以数字的个数,这是测量集中趋势,或者说平均数的一种方法。
中位数(median):也就是选取中间的数,要找中位数,首先需要从小到大排序,排序后,再看中间的数字是什么。
众数(mode):众数也就是数据集中出现频率最多的数字。

2、机器学习

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

机器学习可以分为监督学习、无监督学习、半监督学习和主动学习。

监督学习主要是有样本的情况下进行的学习训练的过程。

无监督学习最主要的的过程是聚类分析,将模糊的多个类别通过聚类按照属性进行分类。

半监督学习是包括已经有分类的样本点或者无分类的样本点综合在一起考虑的过程。

主动学习主要是根据领域专家提供的专业知识进行学习,以提高模型的质量。

3、数据库系统与数据仓库

数据库系统主要是依靠强大的SQL查询能力对数据进行深度的处理和挖掘。

数据仓库现在比较流行的有hive,可以以数据进行离线处理,建立数据立方来分析建模。

4、信息检索

信息检索主要是对文本或者多媒体进行检索,构建索引,以快速的定位需要的文档或文件。

面向主题的应用,情感分析和TF.IDF等都可以归于信息检索的范畴。

目录
相关文章
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
101 0
|
7月前
|
数据采集 数据可视化 数据挖掘
爬虫技术对携程网旅游景点和酒店信息的数据挖掘和分析应用
爬虫技术是一种通过网络爬取目标网站的数据并进行分析的技术,它可以用于各种领域,如电子商务、社交媒体、新闻、教育等。本文将介绍如何使用爬虫技术对携程网旅游景点和酒店信息进行数据挖掘和分析,以及如何利用Selenium库和代理IP技术实现爬虫程序
285 0
|
6月前
|
机器学习/深度学习 数据采集 算法
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
102 0
|
7月前
|
数据采集 数据可视化 数据挖掘
数据挖掘微博:爬虫技术揭示热门话题的趋势
微博是中国最大的社交媒体平台之一,每天有数亿用户在上面发表自己的观点、分享自己的生活、参与各种话题。微博上的热门话题反映了用户的关注点和社会的动态,对于分析舆情、预测市场、探索文化等方面都有重要的价值。本文将介绍如何使用爬虫技术从微博上抓取热门话题的数据,并通过可视化的方式展示热门话题的变化趋势。
114 0
数据挖掘微博:爬虫技术揭示热门话题的趋势
|
9月前
|
机器学习/深度学习 存储 分布式计算
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
|
机器学习/深度学习 算法 数据挖掘
|
SQL 数据采集 机器学习/深度学习
【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )
【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )
395 0
【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )
|
人工智能 达摩院 自然语言处理
活动回顾 | 用技术点亮生活!这场大数据挖掘与应用讲座在合肥顺利举办
11月28号 阿里云ACE线下活动合肥首场-社交媒体大数据挖掘与应用成功举办!
活动回顾 | 用技术点亮生活!这场大数据挖掘与应用讲座在合肥顺利举办
|
人工智能 运维 Cloud Native
【精品问答】110+数据挖掘面试题集合 | 技术日报(17期)
阿里云开发者社区超大技术福利!80+阿里系电子书开放下载,覆盖 Java、物联网、云原生、前端、大数据、开源、AI 等技术领域,深度分享阿里工程师实践精华,顶级技术内容一手掌握。快快收藏吧~
924 0
|
算法 机器人 数据挖掘
带你读《数据挖掘导论(原书第2版)》之三:分类:基本概念和技术
本书所涵盖的主题包括:数据预处理、预测建模、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法,为读者提供将数据挖掘应用于实际问题所需的必要背景。