我们需要检查 200 万个文件,看看它们是否有任何重复项。
最好的方法是什么?
http://www.easyduplicatefinder.com/我们已经使用这个工具做了大约 20k 个文件
但很快我们将不得不做 200 万
关于如何以有效的方式做到这一点的任何想法?
萨斯
在 MD5 或 SHA-1 中创建校验和(最好,因为冲突的可能性较小),甚至两者兼而有之(当冲突非常不可能时,您可以知道自己没有犯错)。
然后比较校验和。这将比较内容。如果您还想比较文件名,请在比较时考虑它们。
仅此而已。相当(非常)可靠。