备案控制台

开发者社区

开发者社区开发与运维文章正文

利用sklearn计算词频

2016-12-12 1714

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python机器学习库sklearn提供了文本数据处理的函数，其中可以借助计算tfidf的函数计算词频，具体代码如下# encoding=utf-8# python 3.

python机器学习库sklearn提供了文本数据处理的函数，其中可以借助计算tfidf的函数计算词频，具体代码如下

# encoding=utf-8
# python 3.5
# 计算词频示例
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["我 来到 北京 清华大学",
        "他 来到 了 网易 杭研 大厦",
        "小明 硕士 毕业 与 中国 科学院",
        "我 爱 北京 天安门"]

# token_pattern指定统计词频的模式, 不指定, 默认如英文, 不统计单字
vectorizer = CountVectorizer(token_pattern='\\b\\w+\\b')
# norm=None对词频结果不归一化
# use_idf=False, 因为使用的是计算tfidf的函数, 所以要忽略idf的计算
transformer = TfidfTransformer(norm=None, use_idf=False)
tf = transformer.fit_transform(vectorizer.fit_transform(corpus))
word = vectorizer.get_feature_names()
weight = tf.toarray()

for i in range(len(weight)):
    for j in range(len(word)):
        print(word[j], ':', weight[i][j], end=' ', sep='')

    print()

结果如图

文章标签：

Python

fjie

目录

相关文章

萝卜大杂烩

|

4月前

|

机器学习/深度学习自然语言处理算法

使用sklearn+jieba完成一个文档分类器

使用sklearn+jieba完成一个文档分类器

萝卜大杂烩

17 0 0

孙庚辛

|

4月前

TF-IDF 怎样将用单词权重的向量表示一个文档

TF-IDF 怎样将用单词权重的向量表示一个文档

孙庚辛

27 1 1

壹佰、

sklearn.preprocessing.PolynomialFeatures多项式特征

sklearn.preprocessing.PolynomialFeatures多项式特征

壹佰、

75 0 0

星拱北辰

Sklearn线性SVC处理鸢尾花分类问题

本文通过scikit-learn调用线性SVC处理鸢尾花分类问题。

星拱北辰

85 0 0

livingbody

|

自然语言处理算法数据可视化

基于 sklearn 的鸢尾花分类

基于 sklearn 的鸢尾花分类

livingbody

192 0 0

基于 sklearn 的鸢尾花分类

小嗷犬

|

机器学习/深度学习人工智能数据可视化

Python sklearn实现K-means鸢尾花聚类

Python sklearn实现K-means鸢尾花聚类

小嗷犬

287 0 1

Python sklearn实现K-means鸢尾花聚类

GoAlaaa

TF-IDF及相似度计算

TF-IDF：衡量某个词对文章的重要性由TF和IDF组成 TF：词频(因素：某词在同一文章中出现次数) IDF：反文档频率(因素：某词是否在不同文章中出现) TF-IDF = TF*IDF TF ：一个单词在一篇文章出现次数越多越重要 IDF: 每篇文章都出现的单词(如的，你，我，他) ，越不重要

GoAlaaa

251 0 0

一个处女座的程序猿

|

算法

ML之KMeans：利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析

ML之KMeans：利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析

一个处女座的程序猿

278 0 0

ML之KMeans：利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析

致Great_VIP

|

搜索推荐索引

空间向量模型和tf-idf

空间向量模型和tf-idf

致Great_VIP

291 0 0

技术小能手

|

机器学习/深度学习算法测试技术

特征工程(三):特征缩放,从词袋到 TF-IDF

字袋易于生成，但远非完美。假设我们平等的统计所有单词，有些不需要的词也会被强调。在第三章提过一个例子，Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中，“Eama”和“raven”都出现了3词，但是“the”的出现高达8次，“and”出现了次，另外“it”以及“was”也都出现了4词。

技术小能手

3444 0 0

热门文章

最新文章

随机生成UserAgent的python库（fake-useragent库）

使用zxing识别一幅包含多个二维码的图片

阿里云的SLB，植入cookie和重写cookie有什么区别？

基于Flink的实时日志分析系统实践

如何在服务器上跑python程序

电池技术多年没有较大发展，成为移动设备最大制约

Spread for WinRT 7新功能使用指南

codeforces Soldier and Number Game（dp+素数筛选）

九度oj-1001-Java

Android:随笔——对页面的View进行截图

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势2

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法1

灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标

极值分析：分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列

GARCH-DCC模型和DCC（MVT）建模估计

ARIMA、ARIMAX、动态回归和OLS 回归预测多元时间序列

R语言预测期货波动率的实现：ARCH与HAR-RV与GARCH，ARFIMA模型比较

spss modeler用决策树神经网络预测ST的股票

K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

matlab中使用VMD(变分模态分解)对信号去噪

相关课程

更多

【算法实战】11. K-Means（K-均值）聚类算法

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云oss简介和使用流程