用Python分析双十一电商新闻传播数据

简介:

同期来自蚂蚁金服的金融支付数据显示:截至18时55分,支付宝支付笔数达到了8.2亿笔,已超过了去年全天的支付笔数,移动支付笔数超过了5.8亿笔,占比超七成。

下面我们用Python通过抓取百度搜索“双十一”关键词的所有文本,对新闻文本进行文本挖掘,并对双十一微博关键词和相关博主的新闻传播路径进行分析。

主要利用beautifulsoup、urllib2、string等函数库对文本进行抓取

主要代码片段如下:

if __name__=='__main__':

        myname=raw_input("请输入关键词\n")

        keywordsnum=raw_input("请输入关联词个数\n")

        if int(keywordsnum) == 0:

                keywords=[myname]

        else:

                keywords=['']*int(keywordsnum)

                for k in range(int(keywordsnum)):

                    keywords[k]=raw_input("请输入关联的关键字%d\n"%(k+1))

        url1 = "http://www.baidu.com/s?wd="+myname

        response1 = urllib2.urlopen(url1)

        content1 = response1.read()

        soup1 = BeautifulSoup(content1,'lxml')

        site1 = soup1.find(class_="nums").get_text()

        num = string.atoi(OnlyCharNum(site1[11:-1].strip() .lstrip() .rstrip(',')))

        page = num/10

        print num,page

        filename=myname+".txt"

        myfile=open(filename,"w")

        keywordshownum=0

执行脚本后输入双十一关键词会进行抓取,界面如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

抓取的结果放进txt文档以便进行后续分析,

通过jieba分词等函数库或者分词软件对txt文本进行词频分析,得出以下结果,显示词语的出现次数和频率等,可以进一步进行可视化处理生成标签云等:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

本文完整源码下载地址:

http://pan.baidu.com/s/1i54raZF

在Python中文社区底部回复“双十一”三个字获取本文完整源码下载密码。

对微博双十一、淘宝、京东关键词进行挖掘得出以下相关联的一些微博博主:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


原文发布时间为:2016-11-11

本文作者:阿橙

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

相关文章
|
1天前
|
JSON 关系型数据库 数据库
《Python 简易速速上手小册》第6章:Python 文件和数据持久化(2024 最新版)
《Python 简易速速上手小册》第6章:Python 文件和数据持久化(2024 最新版)
24 0
|
2天前
|
机器学习/深度学习 Python 数据处理
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
20 0
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
|
2天前
|
vr&ar Python
Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列4
Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列
23 0
|
2天前
|
存储 机器学习/深度学习 数据可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
42 6
|
2天前
|
机器学习/深度学习 算法 数据可视化
python用支持向量机回归(SVR)模型分析用电量预测电力消费
python用支持向量机回归(SVR)模型分析用电量预测电力消费
26 7
机器学习/深度学习 算法 Python
16 0
|
2天前
|
机器学习/深度学习 数据采集 供应链
从数据到决策:scikit-learn在业务分析中的应用
【4月更文挑战第17天】本文探讨了scikit-learn在业务分析中的应用,包括数据预处理、分类、回归和聚类模型的构建,以及模型评估与优化。通过使用scikit-learn,企业能有效处理数据、预测趋势、客户细分并制定决策,从而提升经营效率和市场策略。随着机器学习的发展,scikit-learn在业务分析领域的潜力将持续释放,创造更多价值。
|
2天前
|
算法 数据可视化 Python
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
11 0
|
3天前
|
机器学习/深度学习 数据采集 数据可视化
Python数据处理与分析
【4月更文挑战第13天】Python在数据处理与分析中扮演重要角色,常用库包括Pandas(数据处理)、NumPy(数值计算)、Matplotlib和Seaborn(数据可视化)、SciPy(科学计算)、StatsModels(统计建模)及Scikit-learn(机器学习)。数据处理流程涉及数据加载、清洗、探索、特征工程、模型选择、评估与优化,以及结果展示。选择哪个库取决于具体需求和数据类型。
13 1
|
3天前
|
BI 开发者 数据格式
Python代码填充数据到word模板中
【4月更文挑战第16天】