欢迎来到Kisna的博客

Kisna

Hello there, I'm Kisna

密码学 · 2019年11月21日 0

TF-IDF

TF-IDF

简单理解：此算法用于搜集计算文章关键词，从而对文章进行特性的表现。TF即词频，由于词频不能单纯准确的表现文章关键词（或者说文章的特性），所以需要对照现有语料库中关键词的词频。于是我们引入IDF：逆文档权重，它的大小与一个词的常见程度成反比，将其分配到文章中的各个关键词上。

公式的话：TF（标准化）=某个词在文章中出现次数÷文章总词数

（另一种觉得不常用先略）

IDF=log[语料库文档总数÷(包含该词的文档数+1)]

TF-IDF=TF×IDF

实现方法的话：采用python，目前是通过sklearn库实现。（用的老本行的东西，不知道行不行）

这方面是跟着项目做的，太菜了。。。

您可能还喜欢...

发表回复取消回复