如何用 R 快速了解科研领域?

  1. 云栖社区>
  2. 博客>
  3. 正文

如何用 R 快速了解科研领域?

王树义 2018-09-25 06:47:00 浏览1199
展开阅读全文
img_d86798a4d3bfea795c5ae498f8c69f95.jpe

用好 R 环境下的 BiblioShiny 软件包 ,可以让你在友好的图形化界面,快速扫描科研领域。

场景

作为一个初学者,你可能很希望快速了解一个新的科研领域。

诚然,影响因子和排名等指标,可以告诉你这个领域里哪个期刊比较好。但是,作为研究者,你如果只了解到这一层次,还是过于粗浅。

我自己的好奇心,往往会指向某个研究领域的3个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

这几个问题,你可以采用不同的文献计量工具来解答。有的很容易完成,有的大概需要一些基础知识和技能。

我最近关注到了一款工具,可以非常便捷地帮你一站式解答上述三个问题。

工具

这款工具的名称,叫做 BiblioShiny 。它是一款 R 环境下的软件包。

其实它的底层,你可能听说过,就是大名鼎鼎的 Bibliometrix 。

我是去年听同事宋丽萍教授提到它后,开始关注的。很快尝试后,觉得 Bibliometrix 这款基于 R 软件包功能果然很强大。不过,那时觉得 Bibliometrix 的用户界面还不够友好。

Bibliometrix 的各项操作,都需要程序指令完成。虽然对于文科生来说,门槛并不算太高。但是光看命令手册,可能还是会令不少人丧失尝试的冲动

img_bfb27713dbdfda7f2da50643f66abc62.jpe

最近我突然发现, Bibliometrix 的作者们在原先功能的基础上,添加了 Shiny 作为交互可视化用户界面,于是软件易用性大幅提升。

你只需要动动鼠标,就可以轻松完成许多文献计量分析功能。

img_dbc5f84165e807bd82e4577249e44b24.jpe

例如点一下菜单里面的“Collaboration Network”按钮,BiblioShiny 就立刻为你绘制作者合作网络图。

img_aeb94272ce6d4602f4276ce486acbe10.png

统计文章年均被引趋势?也是点一下按钮的事儿:

img_e38d6deb7587451425e4f31f48c04307.png

软件安装方法很简单。

首先下载最新版的 R 和 Rstudio。安装的详细步骤流程,请你参考我的《如何用Python和R对故事情节做情绪分析?》一文介绍。

安装好后,在 Rstudio 中执行以下3行命令:

install.packages(“bibliometrix”, dependencies=TRUE)
library(bibliometrix)
biblioshiny()

当你看到浏览器弹出如下窗口,就说明软件环境已经齐备了。

img_6b6740ddb2832b56989620715093deaa.jpe

有了工具,下面我们就需要数据了。

数据

我是做信息科学的。出于近便原则,本文的样例分析对象,是信息科学领域的一份权威期刊:Management Information Systems Quarterly (下文简称 MIS Quarterly)。

img_941fd8fc019c809bd61e99139ce65c9c.jpe

注意你在分析的时候,并不需要局限在某一本或者几本期刊。完全可以使用关键词搜索相关文献。

MIS Quarterly 的文献数据,我是从 Web of Science 下载的。

img_735f4f35b499646a6b89edf8f34734ee.jpe

我对结果进行了精炼,只选择了其中的 Articles 类型。

img_771cb3094be334d4a9c23aedfec7b87d.jpe

一共 743 篇文章,导出选择的格式,为 BibTex 。

img_b14840b2eb5a4133f9813b05ffdeae7d.jpe

因为 Web of Science 每次导出记录数量,不能超过500,因此前后下载了2个 BibTex 格式文件。

我把它们打包成了一个 zip 文件(Archive.zip)。这个文件,我为你放在了这个位置http://t.cn/EPIs99X)。你可以直接下载使用。

如果你希望自己从 Web of Science 下载文献记录,可以参考我的研究生吴查科和同学合作的这份视频教程http://t.cn/EPIsjtk)。教程是关于 VosViewer 的。但其中4分钟以后,就有 Web of Science 文献记录检索和导出的完整介绍与展示。

在 Biblioshiny 中,选择 Load ,把 file format 设定为 bibtex,选择压缩文件,即Archive.zip,开始上传。

img_b4e0caed963ce8dea1ce42325eea8513.jpe

导入完毕后,展示结果列表如下:

img_db456832861e29861840f340f84296ee.jpe

软件有了,数据也有了。

下面我给你展示一下,如何解答前面提到的那3个问题,以快速熟悉科研领域。

作者

第一个问题是:

哪些作者比较厉害?

我们先来看看发文数量。能在 MIS Quarterly 这样的顶刊(而且还是季刊)发文,是有相当高的门槛的。因此这里的发文数量能够反映作者的科研能力。

点击进入 Descriptive Analysis 标签页面。

img_9b7ea4f142a590855816178f56cd8aa0.jpe

选择 Tables 。

img_4b83c642aec1dfa553ae7268a9928761.jpe

左侧 Result 类型,可以在下拉列表选择。我们选择“Most Productive Authors”(最高产作者)。

img_efbd6082582908fddf7695dee296bbf1.jpe

分析结果如下:

img_6e199cfcd3cff7b2218b1c6cf61a2147.jpe

(插一句,我发现自己的 Facebook 好友也出现在榜单里,立刻有了一种没来由的自豪感。)

排名首位的这位老兄,让我看得肃然起敬——他居然发表了 23 篇 MIS Quarterly !我没看错吧?好像全部文献记录条数也只有700多篇。

怀着好奇心,我在 Google 搜索了一下。

Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.

Venkatesh 是阿肯色大学教授。我在他的主页,查了一下发表记录,再次震惊了!

img_3b06010cbe22066b604ae0de0525e317.jpe

他哪里是在投稿?分明是灌水的节奏!

作为季刊,2013年,全部4期上面各有一篇他的文章!

但是,科研论文的数量固然重要,质量也是要保证的嘛。

这种频率发文,质量能保证吗?

带着这个疑问,我们来考察一下第二个问题。

文献

还记得吗?我们的第二个问题就是:

哪些文献比较重要?

这个问题,其实不是那么容易解答。

下载次数多的论文,是不是很重要?

在社交媒体上流传最广的论文,是不是很重要?

目前,学界基本能够达成共识的判断标准,还是看论文被引用的情况

Biblioshiny 可以轻易帮助我们分析论文的 Historiograph ,以便让我们了解哪些论文在学科发展历史上,具有重要的地位。

方法是选择“Intellectual Structure”菜单之下的“Historiograph”。

img_eacd430bb8f5797690bd2bca505c423c.jpe

用默认的参数,我们可以看到数据集中这20篇文献,重要性较高。

img_f1a178fb043a0731d942b62c4ba45aee.png

点击 Table 标签页,我们看看列表展示的具体信息。

img_2477434600f5ab94391d4dee381f2865.jpe

注意这里展示了2项统计指标,一个是 GCS ,也就是 Web of Science 中,文献被引统计总数;另一项是 LCS ,即当前数据集里,文献被引次数。

假设一篇文献 GCS 很高,但是 LCS 不高,很可能意味着在其他领域影响力更大。不过因为我们只找了一份期刊,因此这个因素不宜过度解读。

我们注意到,其中有一篇文献,两项指标都是惊人的。

img_af2794d1151b069a8a5a1cd5ddb73482.jpe

这篇大作, LCS 为44(注意是被 MIS Quarterly 的其他文章引用),GCS 居然达到了6634。

这篇文献,简直就是一览众山小啊!

想必你也很关心——谁写的?

img_c046af50999b7fd473822fefe23e1899.jpe

往左侧的名称信息里一瞥,我们随即看到了非常熟悉的名字。

没错,还是 Venkatesh 教授!

img_1ab7121502157cecb455e38d6a16abbc.png

看来,这种频率发文,质量也依然是有保障的。

这……是不是叫做天才?

主题

锁定了领域的高水平作者和重要文献后,我们来尝试回答的第三个问题是:

哪些主题更值得研究?

首先我们得搞清楚主题都有哪些。

我们选择做个词云(Word Cloud),这可以通过点击描述分析(Descriptive Analysis)来完成。

img_a5e0d8a95fe75e4741bd8c704fd28c37.jpe

默认绘图结果如下:

img_387870d1b1088b5458cbfae4d04291dd.jpe

注意这里的词汇,来自于 Keywords-Plus(即系统利用标题、摘要等分析结果)。

我们更换一下左侧的 Field 选项,变成 Author Keywords (即作者自己列出的关键词):

img_c8928ad6af50719b3433b6c9f8bf8871.jpe

确实,分析结果有了差别。

我们还可以继续尝试,只从标题文字做词云:

img_f824b8095efdabb2d8a3b67138072a8d.jpe

对比上面几张图,你有什么发现?

我反正是看得眼花缭乱。

不过没关系,我们可以让 Biblioshiny 帮我们把主题归类一下。

点击 Conceptual Structure 菜单,选择其中的“Correspondence Analysis”。

img_7bdab86c4edc8aba357adcac5b747483.jpe

我们关注其中的词汇地图(word map):

img_9908de15d3f079970bd050d026de2b10.png

看到这里,你大概可以把 MIS Quarterly 的研究关注点聚焦在三个类别上。并且可以知道每个类别是如何被关键词描述的。

但是,即便你知道了这些大致的研究主题分类,也依然难以抉择,自己今后的研究方向,应该向哪里聚焦。

因为,这只代表了历史和现状。你不能看着后视镜开车

这时候,你可以使用 Biblioshiny 辅助决策。方法是点击“主题地图”(Thematic Map)选项。

img_19e28fcfb94c98c449c4e98045d7b26f.png

主题地图中,横轴代表中心度,纵轴代表密度。据此绘制出4个象限。

  • 第一象限(右上角):motor-themes,既重要,又已有良好发展(well-developed);
  • 第二象限(左上角):very specialized/niche themes,已有良好发展,但是对于当前领域不重要;
  • 第三象限(左下角):emerging or disappearing themes,边缘主题,也没有好的发展,可能刚刚涌现,也许即将消失;
  • 第四象限(右下角):basic themes,对领域很重要,但是未获得良好发展。一般是指基础概念。

有了这些背景知识,再回看这张图,就很有意思了。

请你思考一下,哪些主题更值得你投入资源和时间去深度参与呢?

小结

本文我们利用了 R 环境下的 BiblioShiny 软件包,点击几下鼠标,探索了以下3个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

当然,你会发现其实我们使用的,只是默认参数。针对你研究领域的特征,以及文献数量的多寡,参数的设置其实都是可以调整优化的。

而且你还会注意到,我们所展示的,只是 Biblioshiny 众多实用分析功能里的一小部分。

希望本文给了你一个可以起步的最小行动范例。在此基础上,如果感兴趣,你可以继续学习和充分挖掘 BiblioShiny 与 Bibliometrix 的功能,帮助自己更高效便捷地熟悉某一新科研领域。

延伸阅读

有了兴趣,该如何继续学习呢?

首先,推荐给你这份 Bibliometrix 的官方图文教程(http://t.cn/EPM7jKF)。

img_9d51adf3468d7801ec882e50320d2eb2.jpe

如果你喜欢看教学视频,可以点击这个链接查看。

img_3c6dc4e81b9e87f6c33350c6309db2f2.jpe

喜欢请点赞和打赏。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)

我这里还有一本免费在线书,讲解了科研新手入门的一些默会知识,其中也包括了不少文献分析的内容。如果你感兴趣,不妨点击链接(http://t.cn/EPMzLjW)阅读。

网友评论

登录后评论
0/500
评论
王树义
+ 关注