利用sklearn计算词频

简介: python机器学习库sklearn提供了文本数据处理的函数,其中可以借助计算tfidf的函数计算词频,具体代码如下# encoding=utf-8# python 3.

python机器学习库sklearn提供了文本数据处理的函数,其中可以借助计算tfidf的函数计算词频,具体代码如下

# encoding=utf-8
# python 3.5
# 计算词频示例
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["我 来到 北京 清华大学",
        "他 来到 了 网易 杭研 大厦",
        "小明 硕士 毕业 与 中国 科学院",
        "我 爱 北京 天安门"]

# token_pattern指定统计词频的模式, 不指定, 默认如英文, 不统计单字
vectorizer = CountVectorizer(token_pattern='\\b\\w+\\b')
# norm=None对词频结果不归一化
# use_idf=False, 因为使用的是计算tfidf的函数, 所以要忽略idf的计算
transformer = TfidfTransformer(norm=None, use_idf=False)
tf = transformer.fit_transform(vectorizer.fit_transform(corpus))
word = vectorizer.get_feature_names()
weight = tf.toarray()

for i in range(len(weight)):
    for j in range(len(word)):
        print(word[j], ':', weight[i][j], end=' ', sep='')

    print()
结果如图



目录
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
使用sklearn+jieba完成一个文档分类器
使用sklearn+jieba完成一个文档分类器
|
4月前
TF-IDF 怎样将用单词权重的向量表示一个文档
TF-IDF 怎样将用单词权重的向量表示一个文档
27 1
sklearn.preprocessing.PolynomialFeatures多项式特征
sklearn.preprocessing.PolynomialFeatures多项式特征
75 0
Sklearn线性SVC处理鸢尾花分类问题
本文通过scikit-learn调用线性SVC处理鸢尾花分类问题。
85 0
|
自然语言处理 算法 数据可视化
基于 sklearn 的鸢尾花分类
基于 sklearn 的鸢尾花分类
192 0
基于 sklearn 的鸢尾花分类
|
机器学习/深度学习 人工智能 数据可视化
Python sklearn实现K-means鸢尾花聚类
Python sklearn实现K-means鸢尾花聚类
287 0
Python sklearn实现K-means鸢尾花聚类
TF-IDF及相似度计算
TF-IDF:衡量某个词对文章的重要性由TF和IDF组成 TF:词频(因素:某词在同一文章中出现次数) IDF:反文档频率(因素:某词是否在不同文章中出现) TF-IDF = TF*IDF TF :一个单词在一篇文章出现次数越多越重要 IDF: 每篇文章都出现的单词(如的,你,我,他) ,越不重要
251 0
TF-IDF及相似度计算
ML之KMeans:利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析
ML之KMeans:利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析
ML之KMeans:利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析
|
搜索推荐 索引
空间向量模型和tf-idf
空间向量模型和tf-idf
291 0
空间向量模型和tf-idf
|
机器学习/深度学习 算法 测试技术
特征工程(三):特征缩放,从词袋到 TF-IDF
字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。
3444 0