出版社如何玩转大数据

简介:

最近有个段子在微信上流行,说世界上最早运用大数据的是中国的“战神”——孙膑,他曾用敌营做灶 的数量来判断对方军队的数量,从而指导打仗。只不过在当时这样的数据少之又少,而能够真正利用这些数据的人便会被人尊为智者。如今大数据汹涌来袭,正在改变着世界,出版业自然不能例外,部分出版单位已开始涉足大数据分析。但对于大多数出版单位而言,大数据依然很神秘。

提起大数据,想必大家已经不再陌生。大数据的挖掘越来越多地渗透到生活的方方面面,从数据科学家帮奥巴马技术性击倒罗姆尼,到成功预测2012年50个州选举结果的内特·希尔沃(Nate Silver),时下最火爆的美剧《纸牌屋》就是基于大数据制作的。如今大数据已经落地,改变了很多行业的走势,同时改变了人们的生活。在不久的将来,大数据挖掘获得的结果也许比一个行业老手的直觉判断更准确。

图1:销售数据驱动出版大数据

大数据

出版单位有哪些核心数据

出版社拥有自己的大数据,从选题策划开始,贯穿整个出版流程。令人遗憾的是,很多时候我们并不关心。

什么是大数据?大数据是基于互联网的,是由无数个小数据汇集而成的,如靠着电脑中的cookie记录网民的所有浏览及搜索行为,并且会定位地理 位置、浏览时间和系统数据。通过对这些数据进行分析,可以给这些网民贴上不同的标签,比如科技迷、读书狂、体育迷等,并依此进行精准营销,这就是大数据分 析。

下面说一说出版社到底有哪些核心数据呢?

选题、印制、发行、重印、销售、人力、办公,在这里用了一棵树来表示,其中销售数据是我们所有其他数据的源泉。未来,所有环节都应该由销售数据驱动(图1)。

传统意义上,出版社是从选题策划开始整个流程,但是现在这个流程应该是循环往复的,从数据驱动的选题策划开始,各环节的数据监控和分析贯穿始终,当然所有环节都少不了人和团队的参与,这样就可以实现数据驱动运营(图2)。

在此,笔者收集、整理了许多出版社的核心数据,这些数据主要可以进行三类分析:现状分析、原因分析、预测分析(图3)。其中,现状分析包含:阶 段性的工作汇报、促销分析、经销商评价、日常添货跟踪、工作量或者说企业关键绩效指标(KPI)的考核等;原因分析包含:重点选题为何不能按时出版?好书 为什么不是在哪都好卖等;预测分析包含:重印书预测分析、纸张采购等。这三种分析往往会互相结合,因为任何分析都始于现状分析,比如作者出版效率分析、品 类分析(出版社各子品类哪些应该持续投入、哪些维持、哪些放弃),新书走势及同类书的首印量确定等。

数据怎样驱动出版运营

用好大数据,让好卖的书变得更好卖。

下面举一些例子,看看现有数据是如何驱动出版运营的。

查找缺品

在这个图书品种过剩的年代,如何确保长销书不缺品是出版社工作的重中之重。图4是三大网店今年一季度销量前十名的汇总表,无须任何分析,只要把 三个网上书店的数据放在一起,就可以发现问题,第一个问题就是三个网店都有缺品,第二个问题是书店排行榜销售前十位的品种销量差异很大。无论实体店还是网 店,零售靠的就是品种,新书发出去只是万里长征的第一步,有针对性地二次甚至多次回添才是销量生生不息的源泉,才是出版社所有运营的原始推动力。针对缺品 的问题,出版社可以采取的应对措施,就是每周跟踪前300本及上市3个月内新书的库存及添货比对。

日常添货跟踪

众所周知,网店的系统都比较先进,系统每周都有1~2次的逻辑补货,还有和中盘的电子数据交换对接,尽管如此,由于出版社印制周期及发货速度的 影响,仍会出现不同程度的断货,实体店的二次回添更是个大问题。因此要定期对各零售店进行有针对性地补货,具体到网店可以分成两部分:一是网店整体库存不 足的直接生成订单,二是网店各仓之间内配。

经销商评价

出版社每天都与众多经销商打交道,如何科学合理地对其进行评价呢?假设用信誉度、订货、回款、退货率和账期这5个指标来评价,那么出版社先要汇总各经销商的各项指

标数据,把每项数据都进行0/1标准化处理。然后出版社来确定每个指标的权重。有了权重和标准化的数据就可以进行加权计算了,不过需要注意的就是退货率和账期这两项是越小越优的指标,因此对于这两个指标要用减法。最后得出了各经销商的综合平均得分。

新书首印量分析

新书首印量的确定不仅关系到出版社的赢利,更关系到成本控制,相对于印少了来说,印多了不仅不能创造预期的利润,更会增加不该有的库存,占用大量资金,因此对新书首印量的回顾性分析有助于后续新书印数的决策参考。

重印书分析

一般来说,重印书发货码洋占比应该占当年总发货的50%~80%(视不同类型的出版社而定),重印书更是出版社的利润来源。重印书不同于新书的 一点就是它是“有迹可循”的,在重印之前,出版社掌握着每一本书的印制、发货及销售数据,通过对这些数据进行分析,出版社就可以科学确定印数及印制计划, 既要保证不断货,又要确保不多印。

作者出版效率分析

出版效率即品种效率,是出版社衡量一个品种、一个作者、一个策划编辑、一个类别、一个利润中心较为重要的指标,按照这个思路,出版社还可以做出上述各个维度的出版效率线柱图,以供领导决策参考。

品类结构分析及选题发展方向

假设出版社有A到K共11个品类的图书,做出矩阵关联分析图,横坐标代表市场份额,纵坐标代表出版效率,圆形的大小代表每个品类的收益。由图5 中可以看出,B属于出版社的明星产品,出版社应持续投入资源,保持优势;A和C属于现金牛,虽然出版效率比较低,但占据了较高的市场份额,应该维持优势; 第二象限的产品属于问题产品,需要优先改进,让其变为明星产品;第三象限的产品出版效率和市场份额都比较低,可以适当放弃,把资源投入到其他几个象限的产 品中去。

图2:从选题开始便可实现数据驱动运营

核心数据

出版社的核心数据

数据监测

数据监测发现缺品

出版物品

出版物品类结构对比

数据分析

数据分析分几步

让大家头痛的一份报表,做起来其实可以很简单。

通过上面的例子,大家估计已经了解了数据对于驱动出版社运营的重要性,下面谈谈数据分析到底如何做?

不知道出版社的同仁们有没有遇到过这样的情况,自己手头有很多数据,但是要分析的时候又无从下手,或者是分析出的结果不是自己想要的,这个时候 大多数人会觉得是自己掌握的技能不够,excel用得不够熟练,甚至认为需要专业的统计分析软件才能得到分析结果。但笔者要说的是,这些真的不是核心问 题,数据的分析能力不是体现在你掌握的工具上,那只是“法”而已,重要的是人的思想。信息时代,数据的收集、整理、分析和挖掘,是一支优秀团队所应该具备 的基本素养,没有它,工作只有两个字——苦和累。

人们最常问的问题是:“我们遇到一个难题,用什么技巧能解决?”却很少有人问:“我们遇到了一个难题,是不是我的表格设计或者数据记录方式出了错?”大家关注技法太多,却忽略了心法。

图6:图表制作遵循五大原则

大数据

先来明确一个概念,我们日常做的表通常只有两种,一种是数据明细表,也叫源数据表;另一种是统计表,也叫分类汇总表。前者不仅需要做,还必须用正确的方法做;后者却不用做,因为他们都是可以被变出来的。数据分析可以分六步来做。

第一步:明确分析目的和思路

这是数据分析的核心,没有目的和思路,就不知道搜集哪些数据,用哪些维度(分析数据的角度)等,一系列后面的步骤都无从谈起。这一步要基于业 务、了解业务、精通业务,在此基础上要了解出版单位的系统构成,知道系统都能导出什么样的数据,并且深刻了解这些数据之间的关系,这样我们才知道分析什么 问题的时候需要什么维度的数据,才能有的放矢地搜集相关数据。

中层领导是企业中承上启下的环节,是经常做数据分析的管理层,如果他们的思路不明确甚至是错误的,会造成基层工作人员很辛苦。加班加点填写大量 数据,提交上去之后,中层领导整理起来也很辛苦,但是最苦的还是高层领导,也就是亲爱的老板们。他们为一份分析报告等待数日,呈报上来之后因无法看到结 果,而错失良机;更有甚者,依据错误的数据分析做出错误的经营决策。

第二步:收集数据

一般说来数据收集主要有两种方式,一种是由业务系统直接导入的,包含编务、印制、发行等系统;另一种方式就是手工录入数据。

第三步:数据处理

常见的有重复及缺失数据处理、检查数据逻辑错误、数据分列、字段匹配(vlookup函数)等。将不符合规范要求的数据经过上述几个步骤的处 理,最终要得到一张天下第一表,也就是一维源数据表,我们必须要以正确的方式做出数据明细表,这个表既要规范又要满足我们分析所需的维度,对后面的数据分 析至关重要。

第四步:数据分析

数据分析都是基于汇总表的,汇总表不是做出来的,而是变出来的。怎么变呢,除了刚才讲过的vlookup、excel,另外一大法宝工具就是数据透视表,有了它,随时可以变出你想要的各种汇总表。

第五步:数据展现

辛辛苦苦做完了数据分析,下面就说说如何展现分析结果吧!一句话概括:“让老板30秒内读懂你的数据”。

由于人类对图像的理解力和记忆力远胜于文字或者数字,所以图表成为演示汇报中不可或缺的元素。只要能准确、直观地诠释数据,就是一张好图表,不是做得越炫越好。图表图表,别忘了“表格”也是一种有效的展现形式。这里最需要注意的就是选择合适的图表(见图6)。

讲到这里,大家可能心里松了一口气,经过了这么多步骤,终于做出了图表,但是数据分析绝不仅仅是这样,还是一门艺术,我们还要对图表进行美化, 美化之前先要确保图表五脏俱全,有观点的标题、图例、单位、脚注以及资料来源。图表美化三原则:简约、整洁和对比,实际工作中大家尽量不要用excel图 表自带的格式和颜色。

第六步:撰写数据分析报告

专业的报告可以充分展示我们的工作业绩以及所创造的价值。

我们交过这样的报告吗?费尽心力,用各种漂亮的颜色妆点图表,然而,报告交上去,就被领导给打了回来,可以肯定的是,做这样的报告肯定花费了很 多时间,但是存在两个问题,一是把报告的解读工作留给了管理层;二是没有见解和执行建议,让领导一眼看出,“哇,看来我们该好好在……加强了”。

数据分析报告通过对事物数据全方位的科学分析来评估其环境及发展情况,为决策者提供科学、严谨的依据,降低风险。

数据分析报告有三点作用:展示分析结果、验证分析质量、提供决策参考。

还有一个容易被忽视的问题,不论是Word还是ppt展示,用表格展现的时候,一定要注意合适的数量级。让看数据的人省下数“个十百千万”的时间,单位标注清楚即可。

整个报告要充分结合业务,有结论有建议,报告的最后尽量让领导做选择题,而不是开放性的问答题,比如综合上面的情况,我们可以采取以下3种方案解决。


本文作者:佚名

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
人工智能 分布式计算 数据可视化
大数据导论
大数据导论
46 0
|
分布式计算 搜索推荐 大数据
大数据入门
大数据入门
95 0
大数据入门
|
存储 分布式计算 资源调度
【大数据】入门知识介绍
【大数据】入门知识介绍
269 0
|
存储 SQL 分布式计算
图解大数据 | 大数据生态与应用导论
随着互联网高速发展,网络数据呈现出指数级别的快速增长,针对海量数据处理的大数据解决方案应运而生。ShowMeAI将在接下来的内容中逐步展开讲解大数据生态工具的应用,以及大数据的处理分析挖掘方法。
187 0
图解大数据 | 大数据生态与应用导论
|
存储 分布式计算 大数据
大数据入门干货
  首先,提及大数据一词的概念。大数据本质还在于数据,但是它有着新的特征亮点。包括:数据来源广,数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等等。
1274 0
|
大数据 数据挖掘 云计算
|
存储 分布式计算 大数据
|
存储 大数据
《大数据导论》——导读
本节书摘来自华章社区《大数据导论》一书中的目录,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章社区”公众号查看
1781 0