情感分析之TF-IDF算法

如题所述

第1个回答 2022-07-15

http://mini.eastday.com/bdmip/180414224336264.html

在这篇文章中，主要介绍的内容有：

1、将单词转换为特征向量

2、TF-IDF计算单词关联度

文本的预处理和分词。

如何将单词等分类数据转成为数值格式，以方便我们后面使用机器学习来训练模型。

一、将单词转换为特征向量

词袋模型(bag-of-words model)：将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型：

1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。

2、为每个文档构建一个特征向量，主要包含每个单词在文档上的出现次数。

注意：由于每个文档中出现的单词数量只是整个文档集中很少的一部分，因此会有很多的单词没有出现过，就会被标记为0。所以，特征向量中大多数的元素就会为0，就会产生稀疏矩阵。

下面通过sklearn的CountVectorizer来实现一个词袋模型，将文档转换成为特征向量

通过count.vocabulary_我们可以看出每个单词所对应的索引位置，每一个句子都是由一个6维的特征向量所组成。其中，第一列的索引为0，对应单词"and"，"and"在第一和二条句子中没有出现过，所以为0，在第三条句子中出现过一些，所以为1。特征向量中的值也被称为原始词频(raw term frequency)简写为tf(t,d)，表示在文档d中词汇t的出现次数。

注意：在上面词袋模型中，我们是使用单个的单词来构建词向量，这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外，我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关，如在反垃圾邮件中，n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组，如在"the weather is sweet"这句话中，

1元组："the"、"weather"、"is"、"sweet"。

2元组："the weather"、"weather is"、"is sweet"。

在sklearn中，可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型，默认ngram_range=(1,1)。

sklearn通过CountVecorizer构建2元组

二、TF-IDF计算单词关联度

在使用上面的方法来构建词向量的时候可能会遇到一个问题：一个单词在不同类型的文档中都出现，这种类型的单词其实是不具备文档类型的区分能力。我们通过TF-IDF算法来构建词向量，从而来克服这个问题。

词频-逆文档频率(TF-IDF，term frequency-inverse document frequency)：tf-idf可以定义为词频×逆文档频率

其中tf(t,d)表示单词t在文档d中的出现次数，idf(t,d)为逆文档频率，计算公式如下

其中，nd表示文档的总数，df(t,d)表示包含单词t的文档d的数量。分母中加入常数1，是为了防止df(t,d)=0的情况，导致分母为0。取log的目的是保证当df(t,d)很小的时候，不会导致idf(t,d)过大。

通过sklearn的TfidfTransformer和CountVectorizer来计算tf-idf

可以发现"is"(第二列)和"the"(第六列)，它们在三个句子中都出现过，它们对于文档的分类所提供的信息并不会很多，所以它们的tf-idf的值相对来说都是比较小的。

注意：sklearn中的TfidfTransformer的TF-IDF的计算与我们上面所定义TF-IDF的公式有所不同,sklearn的TF-IDF计算公式

通常在计算TF-IDF之前，会对原始词频tf(t,d)做归一化处理，TfidfTransformer是直接对tf-idf做归一化。TfidfTransformer默认使用L2归一化，它通过与一个未归一化特征向量L2范数的比值，使得返回向量的长度为1，计算公式如下：

下面通过一个例子来说明sklearn中的TfidfTransformer的tf-idf的计算过程，以上面的第一句话"The sun is shining"为例子

1、计算原始词频

a、单词所对应的下标

b、计算第三句话的原始词频tf(t,d)

c、计算逆文档频率idf(t,d)

注意：其他的词在计算tf-idf都是0，因为原始词频为0，所以就不需要计算idf了，log是以自然数e为底。

d、计算tf-idf

所以，第一个句子的tf-idf特征向量为[0,1,1.29,1.29,0,1,0]

e、tf-idf的L2归一化

相似回答

TF-IDF计算过程答：[2 3 2 1 1 1 2 1 1]]4.计算tf-idf值我们以is为例进行计算，is对应的是矩阵第二列。tf值，表示term在该文本中出现的次数，这里即is在文本3出现的次数，很容易看出是3.idf值，sklearn做了小小的改动，公式是 (1+log ). 的意思就是文本总数（number of document）...

词频权重是什么意思?答：词频权重可以被广泛应用于搜索引擎、情感分析、文本分类等多个领域。有多种方法可以计算词频权重，主要有“词频-逆文档频率（TF-IDF）”和“BM25”两种。TF-IDF方法是根据词频和逆文档频率的乘积来计算权重，即一个词在一篇文档中出现次数越多，但同时在整个语料库中出现次数越少，那么其权重就越高。而...

通俗理解TF-IDF答：TF-IDF实际上是：TF * IDF。主要思想是：如果某个词或短语在一篇文章中出现的频率高（即TF高），并且在其他文章中很少出现（即IDF高），则认为此词或者短语具有很好的类别区分能力，适合用来分类。通俗理解TF-IDF就是：TF刻画了词语t对某篇文档的重要性，IDF刻画了词语t对整个文档集的重要性。TF（T...

NLP-词向量:如何理解TF-IDF?答：IDF((inverse document frequency)，叫做逆文档频率，用来衡量词在语料库中的常见程度。通俗的来讲，就是衡量词在语料库中的权重，比如上文提到脚踏两只船的家伙，权重就可以少一点，更为甚者，就更少一点，反之，如果一夫一妻的，作为嘉奖，给予最大权重，算是满分。下面亮出公式：以TF-IDF方式...

TF-IDF(词频-逆文档频率)介绍答：**逆文档频率(nverse Document Frequency，IDF) **是一个词语普遍重要性的度量，它的大小与一个词的常见程度成反比，计算方法是语料库的文档总数除以语料库中包含该词语的文档数量，再将得到的商取对数。知道了TF和IDF以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高...

详解one-hot 和 TF-IDF答：优缺点分析：优点：缺点：sklearn实现one hot encode 注意：假如要进行编码的数据没有出现在对应列中将会出现错误 IF-IDF 是信息检索（IR）中最常用的一种文本表示法。算法的思想很简单，就是统计每个词出现的词频（TF），然后再为其附上一个权值参数（IDF）。举个例子...

大家正在搜

情感分析算法情感分析算法原理情感倾向分析算法中文情感分析算法文本情感分析算法情感分析方法有哪些情感算法 snownlp情感分析什么是情感分析