通过未知的常用词在MySQL中查找匹配项


Find Matches in MySQL by uknown common Words

我正在处理一个MYSQL表,其中有用户在过去两年中收集的数千(20000)个问题。现在我不得不单独处理这些报道的问题。

我面临的问题是,许多报道的问题都是相似的(我指的是很多)。我想在桌子上找匹配的。

我在这里再次遇到的问题是;报告的问题";是手动编写的,因此它们彼此不同。但匹配项可能包含一些常用词

所以我想知道是否有一种方法可以通过常用词在MySQL表中找到匹配项。

我在这里试图做的是在不使用任何特定关键字的情况下检索类似的行(在许多关键字中都是mach)

有什么工具可以做到这一点吗?有办法做到这一点吗?

我也对我工作的所有类型的php脚本持开放态度,提前感谢

我首先会向具有领域知识的人询问他们最常见的2或3个问题。他们应该能够把这些卷下来。

让他们为你提供这2或3个主要问题中使用的术语和同义词,否则你必须自己做。

克隆该表并在其上放置FULLTEXT索引,查看全文搜索在识别匹配问题方面的有效性。

如果这不能从语料库中产生很好的结果,我会感到惊讶,但如果它们还不够好,那么你可能想进入NLP(自然语言处理)领域——不过,更自然的是你可以与Python一起使用的工具集。

另一种选择是构建某种标记系统,但最好的标记系统依赖于人工干预,其成功在很大程度上取决于GUI的构建情况。