密码学 · 2019年11月21日 0

TF-IDF

TF-IDF

简单理解:此算法用于搜集计算文章关键词,从而对文章进行特性的表现。TF即词频,由于词频不能单纯准确的表现文章关键词(或者说文章的特性),所以需要对照现有语料库中关键词的词频。于是我们引入IDF:逆文档权重,它的大小与一个词的常见程度成反比,将其分配到文章中的各个关键词上。

公式的话:TF(标准化)=某个词在文章中出现次数÷文章总词数

(另一种觉得不常用先略)

IDF=log[语料库文档总数÷(包含该词的文档数+1)]

TF-IDF=TF×IDF

 

实现方法的话:采用python,目前是通过sklearn库实现。(用的老本行的东西,不知道行不行)

这方面是跟着项目做的,太菜了。。。