【干货】怎样用数据分析找对象

简介:

上篇

写在前面

在工作中,经常利用多个数据指标对整体进行综合评价,需要把多个数据压缩成一个综合指标,这就是多指标综合评价方法。 耐心学完本期内容,足够装X一整年。


专业内容

专业术语的名称能吓死人,不用深究。

实际内容很简单,一个案例你就可以完全掌握。


一个案例

富帅们看着美女数据,在进行激烈的讨论...

 

那么,李富帅喜欢的“综合起来最好的”类型,到底是哪个? 

  • 小龙女是最好的?虽然她最高,但是体重和胸围都不是最优的
  • 赵敏头发是最长的,但是其他数据也不是最好

要找出“综合最好的”,需要把各项数据进行综合评分,这样就能帮李富帅找到心目中的女神!接下来看操作方法:

STEP1 无量纲处理

Q1 “量纲”是什么?就是数据的单位,例如厘米、公斤等等。

Q2 为什么要进行无量纲处理?我们对一个美女综合评分不能直接相加,因为身高和胸围单位不同,并且数据范围相差太大,直接相加没有任何意义,这是数据分析人员最常犯的错误之一。

Q3 具体怎么操作?(重点)统计标准化方法:z=(x-μ)/σ。其中x为某一项数据,μ为均值,σ为标准差。此种方法也叫Z标准化,比较常用。

小龙女的身高:x=1.7全部美女身高的均值:μ=1.635全部美女身高的标准差:σ=0.0363

那么小龙女身高的标准化z=(x-μ)/σ=(1.7-1.635)/0.0363=1.8

当然,实际计算不需要这么麻烦,下载模板填数据就ok啦~~~标准化的结果如下:

左侧四列数据为Z标准分,右侧数据为T标准分,T=50+100*Z,这样做的目的只是为了调整数据的范围,便于比较,因为看大一些的数字要直观多啦,不然Z标准分的小数点看着眼花~~~

结论:

赵敏综合评分最高~~~

赵敏是李富帅心目中的女神~~~~

但是,李富帅对结论却不满意

STEP2 权重确定

由于李富帅提出了进一步的要求,需要重新找出女神,接下来我们要做的,是确定身高、头发长度、胸围的权重,权重是帮我们找出女神的好方法。

下篇为你解答确定权重的方法,你可以了解到主观赋权法和客观赋权法是怎么回事。

下篇

李富帅为什么不满意我们找的女神吗?

确定各个指标的权重可以解决这个问题,那么问题来了,权重又是什么鬼?

权重是一个相对的概念,针对某一指标而言,某一指标的权重是指该指标在整体评价中的相对重要程度。

身高、胸围、头发长度这三个指标中间,李富帅可能会更喜欢高个大长腿,而对长头发短头发不甚在意。在上一期文章中,综合评分=身高得分+胸围得分+头发得分,这也默认了三个指标的权重是一致的,而本期我们会增加权重的概念。

加权之后,计算综合评分会变成这种样子:综合评分=身高得分*60%+胸围得分*30%+头发得分*10%(各个指标的权重之和必须等于1)

当然不是!常用的权重确定方法有两类

  • 主观赋权法
  • 客观赋权法

主观赋权法

主观赋权法没有统一的标准,简单的说就是找一堆人过来凭感觉瞎猜,来,跟我一起念:ping gan jue xia cai~~~~,这里只介绍砖家调查法,简便易行。

STEP1

找一堆砖家过来先坐着,李富帅找来了自己的基友们(为便于理解只选了3个砖家,实际应用时越多越好) 

STEP2

让每个砖家给出自己的权重,并计算均值(如果各位砖家给出的权重差异较大,不能直接求平均数,这种情况的处理方法感兴趣的同学直接留言) 

STEP3

数据分析其实也很简单对吧?加权后的女神们得分结果如下

结论:

很明显小龙女得分最高!

小龙女才是真正的女神!

what the fu....为何这么难缠,活该他找不到女神... 

但是他的想法是对的,主观赋权法的问题在于客观性较差,如果李富帅的基友们审美有问题,那坑你没商量!为了让李富帅闭嘴,我们再试试客观赋权法。

客观赋权法

客观赋权法是与主观赋权法相对而言的,是根据指标的原始数据,通过数学或者统计方法处理后获得权重,常见的有主成分分析、因子分析、相关、回归等。

以上方法对智商有一点点要求,而且比较繁琐,我们的宗旨是简单易行接地气,下面介绍标准差系数权数法。

前方高能预警!!!公式可以略过不看.....坦率的讲,我压根也不想看这些公式,我们只需要搞清楚思想,计算过程用软件一步到位,不用担心~~

标准差系数权重法是根据每个指标的变异程度大小来进行赋权,变异程度大的说明能够更好的区分各个指标,应赋予更高的权重,反之赋予较小的权重。

大湿憋了3个小时,想把这部分内容写的更简单,但现在看起来还是有点难懂,有看不懂的欢迎在公众号发消息提问。

STEP1

计算各指标均值

STEP2

计算各指标标准差

STEP3

计算各指标标准差系数,也叫离散系数,就是STEP2的结果除以STEP1的结果

STEP4

计算各指标权数

经过以上惨无人道的计算之后...身高权重=0.093075613胸围权重=0.279571615头发权重=0.627352772

结论:

赵敏综合评分最高

赵敏是女神!

看到这个结果,李富帅彻底怒了!!!

大湿的解释:

● 主观赋权法是由人的主观经验或者感受得来● 客观赋权法通过对原始数据的处理得来的,变异程度较大的指标有更高的权重,本例中由于美女之间头发长度相差最大,所以头发长度有最高的权重

大湿的回答:

● 如果各个指标间存在明显的人为喜好、业务经验上显然某指标更重要等,用主观赋权法更加合适、简便。(偏向于业务的数据分析大多属于此类)● 反之,各指标间不存在哪个更重要,或者评分不包含人为喜欢或者经验上更重要,用客观赋权。


本文作者:麻大湿讲数据

来源:51CTO

相关文章
|
1月前
|
机器学习/深度学习 数据可视化 算法
python数据分析——在面对各种问题时,因如何做分析的分类汇总
Python数据分析是指使用Python编程语言对数据进行收集、处理、分析和可视化的过程。Python是一种非常流行的编程语言,具有简单易学、代码可读性高、生态系统强大的特点,因此在数据科学领域得到广泛应用。
80 0
|
6月前
|
SQL 监控 算法
这才是真正的数据分析项目,而不是爬表
这才是真正的数据分析项目,而不是爬表
|
11月前
|
机器学习/深度学习 数据采集 存储
数据分析思维|思考问题的25个方式汇总
数据分析思维|思考问题的25个方式汇总
|
11月前
|
机器学习/深度学习 数据采集 搜索推荐
10种数据分析的模型思维让你“灵光一闪”
推荐10种数据分析思维,让你在工作中带来“灵光一闪”的感觉 本文来源于阿里开发者公众号
499 0
|
机器学习/深度学习 人工智能 数据可视化
十种数据分析方法
数据分析方法逐渐成为商业分析、市场营销、金融和医疗领域等多个行业所必需的技能。
373 0
|
SQL 数据可视化 算法
一文速览-数据分析基本思维以及方法
一文速览-数据分析基本思维以及方法
181 0
一文速览-数据分析基本思维以及方法
|
SQL 数据采集 分布式计算
EMPS:个人做数据分析处理的4重境界
自从事数据科学行业以来,便每天在与各种数据处理打交道,当然这里的数据处理是多方面的:既有数据采集和读写,也有数据清洗与变换,当然还有数据分析和挖掘。从主用工具的角度来看,大体上经历了这4重境界:Excel->MySQL->Pandas->Spark,姑且就称之为EMPS吧。
180 0
EMPS:个人做数据分析处理的4重境界
|
人工智能 数据可视化 安全
用它来做数据可视化分析,真的很简单,老板夸我效率高
数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。 数据可视化说起来容易,做起来难,那我们一般普通用户如何拥有数据可视化分析的能力呢,那接下来给大家介绍一款大数据可视化分析工具: NBI一站式数据可视化分析平台
用它来做数据可视化分析,真的很简单,老板夸我效率高
|
数据挖掘 开发工具
九大数据分析方法:矩阵分析法
今天继续分享九大数据分析方法系列:矩阵分析法。矩阵分析法是在各路数据分析文章中,出现频率最高的词。甚至有不懂行的小白把它捧到“核心思维”,“底层逻辑”的高度。哈哈,才没有那么神呢。
506 0
九大数据分析方法:矩阵分析法
|
数据可视化 BI
技术人最不该忽视可视化数据分析!
阿里妹导读:在这个“人人都是数据分析师”的时代,阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。今天,阿里高级产品经理沉砂为我们详细介绍数据可视化工具以及如何选择有效图表。
8732 0