这应该是Naive Bayesian分类器忽略的单词列表


Which should be the list of ignored words for the Naive Bayesian Classifier?

我正在使用PHP上的Naive贝叶斯分类器(http://www.xhtml.net/php/PHPNaiveBayesianFilter)

还有一个单词列表,在训练系统时可以忽略这些单词。这些单词不会保存到数据库中,因此不会用于分类。我想尽我所能改进这个系统,所以我想知道对于这种系统,是否有任何规则或典型单词列表可以忽略。

我目前正在忽略诸如";至"以及""对于"由于"其"什么"谁";。。。以及一些典型的动词,如";是"是"是"被";。。。等等

您将要处理很多单词。。。。主要是形容词和连词,也许还有动词。。。。

这是一个很长的列表,你需要保存为txt或导入到你的数据库。。。。。我建议你直接搜索并下载

这里有一些链接

http://www.momswhothink.com/reading/list-of-verbs.html

http://grammar.yourdictionary.com/parts-of-speech/conjunctions/conjunctions.html

http://www.smart-words.org/transition-words.html

http://www.momswhothink.com/reading/list-of-adjectives.html

你的单词越多,你的系统工作得越好

谢谢:)

不确定你有多少数据,但如果你可以使用python的包nltk,你可以得到一个预先编译的"停止"单词列表,这些单词通常在运行分类之前被删除。你也可以词干/词干化(再次使用nltk)所有单词,这通常有助于Naive Bayes。此外,nltk可以很好地识别词性,因此您也可以进行更高级的过滤(例如,只保留名词、专有名词、动词、副词和形容词)