TF-IDF
简单理解:此算法用于搜集计算文章关键词,从而对文章进行特性的表现。TF即词频,由于词频不能单纯准确的表现文章关键词(或者说文章的特性),所以需要对照现有语料库中关键词的词频。于是我们引入IDF:逆文档权重,它的大小与一个词的常见程度成反比,将其分配到文章中的各个关键词上。
公式的话:TF(标准化)=某个词在文章中出现次数÷文章总词数
(另一种觉得不常用先略)
IDF=log[语料库文档总数÷(包含该词的文档数+1)]
TF-IDF=TF×IDF
实现方法的话:采用python,目前是通过sklearn库实现。(用的老本行的东西,不知道行不行)
这方面是跟着项目做的,太菜了。。。