检查 200 万个文件中是否存在重复项


Checking 2 Million Files for Duplicates

我们需要检查 200 万个文件,看看它们是否有任何重复项。

最好的

方法是什么?

http://www.easyduplicatefinder.com/我们已经使用这个工具做了大约 20k 个文件

但很快我们将不得不做 200 万

关于如何以有效的方式做到这一点的任何想法?

萨斯

在 MD5 或 SHA-1 中创建校验和(最好,因为冲突的可能性较小),甚至两者兼而有之(当冲突非常不可能时,您可以知道自己没有犯错)。

然后比较校验和。这将比较内容。如果您还想比较文件名,请在比较时考虑它们。

仅此而已。相当(非常)可靠。