用Python分析WordPress官网所有插件的开发者信息(续以及人物介绍)

简介: 本文用Python分析了54421个WordPress插件的开发者信息,从时间维度得出了基本的折线图和热力图,并介绍了一些早期的WordPress核心开发者

转自丘壑博客,转载注明出处

前言

书接上回,上一篇里我们讲了一点数据分析的思路和方法,顺带分析了一下http://WordPress.org上所有插件的作者信息,得到了几个数据,比如插件数量Top10的作者、作者的区域分布等等。本篇作为补充,关于开发者的分析还可以从时间维度分析,比如

  • 最早期的给WordPress开发插件的是哪些人呢?
  • 每年的插件数量增长情况如何?
  • 活跃的WordPress开发者平均多久会发布一个插件?

思路

这次主要用到的字段是added,也就是插件发布到Wordpress.org的日期。

和上次只用到一个key不同,这次我们可能需要多用到几个key,所以可以使用Python字典对象的另一种方法del

具体来说,就是在循环jsonline文件的时候,每一行就是一个插件信息,把不需要的key全部删除掉,只保留需要的key,再把更新过的整个字典对象加入列表中即可,这样就不用每次都手动构造一个新的字典对象了。

最早期的给WordPress开发插件的是哪些人呢?

早期是多早?根据Wikipedia上的记录,2004年5月发布的WordPress 1.2开始支持插件系统(话说那时候Matt也就刚刚20岁啊。。。好年轻啊)

New plugin architecture: The new plugin architecture simplifies modifying or extending WordPress’ features. Plugins can now hook into nearly every action WordPress does.

那我们就把早期定义在04-05年,这已经算是很早期了,在那时候就开始开发WordPress插件的到现在都是一些元老级人物了,打个不恰当的比方,也相当于是1921年上过嘉兴南湖那条小船的了。

下面是代码:

1620

我们都听过钱钟书的那个故事,一位美国的女读者喜欢钱钟书的作品,想要登门拜访他。钱钟书在电话中婉言拒绝了这位女士,拒绝的理由是:“假如你吃了个鸡蛋,觉得不错,何必要认识那下蛋的母鸡呢?”

恰恰相反,我更喜欢去认识母鸡,甚至有时候觉得母鸡的故事比鸡蛋本身更有吸引力。具体来说,就是我对开发者的一些经历、经验、八卦故事更感兴趣,甚至之前对着man手册上的名字去挨个搜索开源届的这些大拿人物。。。不知道是闲的还是为了什么,总之,代码背后都是活生生的人(也有的已经故去)

以下就是用上面的方法得出的几个最早的开发者,我看了一下他们的网站,都挺有意思的,说不定以后可以做一个WordPress名人堂who is who之类的专题吧,这里面有意思的人肯定很多啊。下面就先来认识几个WordPress的早期开发者吧

Matt Mullenweg

1620

Matt大神不用介绍了吧,WordPress创始人,从上面的结果可以看到第一个插件也是他发布的

Dougal Campbell

1620
1620

有没有感觉这位Dougal老哥长的有点像贾冰?

WordPress元老级人物,Mutt对他评价也挺高的。

看了Dougal的博客文章Important People才知道,原来在2010年WordPress业界还有一场挺火爆的协议之争。

WordPress创始人Matt Mullenweg认为Chris Pearson(WordPress Thesis主题框架的开发者)的做法违反了WordPress所遵守的通用公共许可(GPL)协议。双方争执不下,并有可能走上法庭,这会对免费软件发布带来哪些影响呢?遵守GPL协议的代码必须做到免费、开源,并且相关的“第三方”代码也必须遵守GPL。Mullenweg认为GPL是WordPress世界的“权利法案”,因为它可以保护核心的自由

显而易见Dougal肯定是支持Mutt的,而且还在文章中diss了Pearson一把,Pearson自称是 “one of the top three most important figures in the history of WordPress. ”,Dougual老哥说在文章里说,老子才是啊,你是老几。Mutt在下面回复说你就是我心目中的前三。Dougual老哥说“看到没,官方认证啊!”。真是啪啪打脸啊。挺逗的

有意思的是他还把Brian Gardner of StudioPress作为一个正面例子列出来,这个名字我一看太眼熟了,StudioPress这不就是最近我一直在乐此不疲研究的主题框架Genesis的开发商吗

Ryan Boren

1620

Ryan也是一个WordPress的元老级人物,曾供职于 Cisco ,是WordPress的主导开发者,对插件系统有很大贡献,现已荣誉退休。他个人博客上的一些推荐阅读列表也信息量挺大的,值得好好看看

Chris J. Davis

1620

这哥们挺有意思的啊,竟然跑去拍片了,个人网站上介绍自己是一个开发者和制片人, 粗粗看了一下好像还是恐怖片,不得不说国外的程序员们的生活还真是挺精彩的,Ruby On Rails的创始人DHH是业余一名国际赛车手,Python 大神kennethreitz玩摄影玩出了一个励志故事。。。这种例子真是很多了

就像这个知乎问题:为什么感觉国外的程序员更专业?里高票回答所说的:

在中国任何一个角落,码代码的都会告诉你,35岁之后就会码不动了,招聘广告也会写明,20~35岁,你35之前不从代码转管理,你死定了等等等等。听我混互联网行业的兄弟说,干过2年以上可以算得上高级程序员,5年以上就可以上到技术经理,再往上最好到30之前就爬到技术总监。说得仿佛人生必须在40岁之前完结一样。

又扯远了

每年的插件增长量如何?

这部分也很简单,就是把每年的插件数量汇总统计一下,直接用柱状图或者折线图显示出来就可以了。

1620

这种时间序列的数据还有一种比较花哨的图表可以用一下,就是heatmap热力图,通过色彩变化来显示数据。比如Google之前的个人搜索页面上有这种图,可以看出你每天每个时间段使用Google搜索的次数,github上的提交记录也是一种热力图。效果如下

1620

活跃的WordPress开发者平均多久会发布一个插件?

理论上这个分析也是可以统计出来,但是后来想想太麻烦了,而且没什么太大意义,纯粹是为了统计而统计。。。这种数据没什么参考价值,各个插件的开发速度没啥可比性,都是由功能和开发者能力来决定的。算了

未完待续

关于开发者的维度差不多就这些了,下次继续分析一下插件的下载量、评分等情况。

本文完整版代码地址​gist.github.com

用Python分析WordPress官网所有插件的开发者信息(续以及人物介绍) - 丘壑博客​bestscreenshot.com

目录
相关文章
|
4天前
|
数据可视化 数据挖掘 Python
Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化(下)
Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化
11 0
|
4天前
|
数据可视化 API 开发者
Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化(上)
Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化
15 0
|
4天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】金融数据分析中的机器学习应用
【4月更文挑战第30天】本文探讨了机器学习在金融数据分析中的应用,如股价预测、信用评分、欺诈检测、算法交易和风险管理,并以Python为例展示了如何进行股价预测。通过使用机器学习模型,金融机构能更准确地评估风险、识别欺诈行为并优化交易策略。Python结合scikit-learn库简化了数据分析过程,助力金融从业者提高决策效率。随着技术发展,机器学习在金融领域的影响力将持续增强。
|
4天前
|
机器学习/深度学习 Python
【Python 机器学习专栏】混淆矩阵与 ROC 曲线分析
【4月更文挑战第30天】本文介绍了机器学习中评估模型性能的两种工具——混淆矩阵和ROC曲线。混淆矩阵显示了模型在不同类别上的预测情况,包括真正例、假正例、真反例和假反例,帮助评估模型错误类型和数量。ROC曲线则通过假正率和真正率展示了模型的二分类性能,曲线越接近左上角,性能越好。文章还提供了Python中计算混淆矩阵和ROC曲线的代码示例,强调它们在模型选择、参数调整和理解模型行为中的应用价值。
|
4天前
|
数据采集 数据挖掘 测试技术
python、R语言ARIMA-GARCH分析南方恒生中国企业ETF基金净值时间序列分析
python、R语言ARIMA-GARCH分析南方恒生中国企业ETF基金净值时间序列分析
15 1
|
4天前
|
机器学习/深度学习 存储 数据采集
【Python 机器学习专栏】PCA(主成分分析)在数据降维中的应用
【4月更文挑战第30天】本文探讨了主成分分析(PCA)在高维数据降维中的应用。PCA通过线性变换找到最大化方差的主成分,从而降低数据维度,简化存储和计算,同时去除噪声。文章介绍了PCA的基本原理、步骤,强调了PCA在数据降维、可视化和特征提取上的优势,并提供了Python实现示例。PCA广泛应用在图像压缩、机器学习和数据分析等领域,但降维后可能损失解释性,需注意选择合适主成分数量及数据预处理。
|
4天前
|
Python
Python随机波动性SV模型:贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列数据|数据分享
Python随机波动性SV模型:贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列数据|数据分享
10 0
|
4天前
|
自然语言处理 数据可视化 数据挖掘
数据代码分享|Python对全球Covid-19疫情失业数据相关性、可视化分析
数据代码分享|Python对全球Covid-19疫情失业数据相关性、可视化分析
10 0
|
4天前
|
资源调度 数据可视化 Python
Python随机波动模型Stochastic volatility,SV随机变分推断SVI分析标普500指数时间数据波动性可视化
Python随机波动模型Stochastic volatility,SV随机变分推断SVI分析标普500指数时间数据波动性可视化
11 0
|
4天前
|
机器学习/深度学习 数据可视化 TensorFlow
Python用线性回归和TensorFlow非线性概率神经网络不同激活函数分析可视化
Python用线性回归和TensorFlow非线性概率神经网络不同激活函数分析可视化