找出数组中的序列相似性 - Finding out sequence similarity in arrays

Finding out sequence similarity in arrays

本文关键字：相似性数组 | 更新日期: 2023-09-27

我有一个任务，我有三个数组A，B，C。所有这些都包含相同的数据。为简单起见，我们假设数据是数字 1 到 5。数据将采用不同的混乱顺序。我想在 B&C 中找出哪个数组的数据与 A 最相似。

Eg: 
A = 1,2,3,4,5
B = 1,2,3,5,4
C = 4,1,2,3,5

在这种情况下，很容易在视觉上理解B与A更相似。但对于真正混乱的序列，它会变得更加复杂。

Eg: 
A = 1,2,3,4,5
B = 5,3,1,4,2
C = 4,1,2,3,5

在这种情况下，我假设 C 更接近 A。我认为这个假设可以量化为：两个数组中有多少个元素具有相同的序列？在上面的例子中，[1,2,3] 的子序列在两个数组中是相同的。第二个问题是相似子序列之间的偏移差异是多少？在本例中为 1，因为子序列从 A 的索引 0 和 C 的索引 1 开始。

因此，匹配序列中的元素数量及其偏移量是我想要使用的。我计划为这两个实体添加权重（匹配序列中的元素数量及其出现的偏移差异）

这有意义吗？我只需要一个相似性的粗略近似值，结果不需要精确。是否有任何正式的数学或数据结构模型可以解决这个问题？

顺便说一句，我需要实现的项目是 PHP 中的。它是否有任何内置函数，例如字符串差分的莱文斯坦模型？

非常欢迎任何建议！

好吧，我想你可以想出你自己的算法（例如生成所有后缀，然后搜索它们，然后定义一个评分过程），或者你可以使用一个众所周知的算法，比如
Smith-Waterman 用于本地对齐，Needleman-Wunsch 用于全球对齐。这些算法的优点是它们很容易理解，并为您提供所有可能的对齐方式（您可以选择最适合您的情况）。

菲律宾语中的 NW

软件在 PHP 中