创建文档比较软件


creating a document comparison software

我想创建一个应用程序,该应用程序可以通过读取两个文档中的文本并进行比较来确定某些文本是否在两个文档之间复制。我想知道是否有人曾经尝试过这样做,以及处理同样事情的最佳方式是什么。如果涉及机器学习和自然语言处理:达到什么水平?

有些技术纯粹依赖于集合论概念

尝试 http://en.wikipedia.org/wiki/W-shingling 以获得良好的开端。

我相信Copyscape使用4克来帮助确定唯一性。

这些字符串称为 N 元语法

然而,另一个SO答案链接到一个独立于语言的算法,在字符的基础上比较双元语法。它已经在Java中实现,这将有助于节省时间。