计算数组内部数组的相似性


Counting similarity of arrays inside array

我遇到了一个问题,我不确定如何解决这个问题。

给定这样一种格式的数组:

$array01 = array(
    0 => array("hallo", "welt", "du", "ich"),
    1 => array("mag", "dich"),
    2 => array("nicht", "haha", "huhu")
);
$array02 = array(
    0 => array("haha", "welt", "dich"),
    1 => array("hallo", "mag", "nicht"),
    2 => array("du", "ich", "huhu")
);

现在我想计算这些数组的相似性值。这些数组是根据术语的含义对其进行聚类的结果。

我想知道的是,两个不同的用户($array01 = user1, $array02 = user2)对这些术语的聚类有多相似。0,1,2是那些簇(它们不必是相同的长度(

编辑:因此,我尝试进一步描述:每个数组都是用户根据术语(hallo、welt、du、ich…(的含义对其进行聚类的结果。因此,每个子数组都是由用户定义的一个集群。现在的问题是,用户放置术语或整个集群的位置不受限制,所以我不能只比较$array01[0]和$array02[0]。我想我需要将子数组与最常见的项进行比较。不过,每个用户都必须对所有术语进行聚类。

例如:

$array01[0]和$array02[2]。它们有两个共同的术语:"du"answers"ich"->+1

其他术语没有明确的聚类,所以我猜这个例子会产生1,因为聚类不是很相似。

这个怎么样?


获取相似项

代码:

<?php
$array01 = array(
    0 => array("hallo", "welt", "du", "ich"),
    1 => array("mag", "dich"),
    2 => array("nicht", "haha", "huhu")
);
$array02 = array(
    0 => array("haha", "welt", "dich"),
    1 => array("hallo", "mag", "nicht"),
    2 => array("du", "ich", "huhu")
);
function get_similar_items() {
    $arrs = func_get_args();
    foreach ($arrs as &$arr) {
        while (list($k, $v) = each($arr)) {
            if (is_array($v)) {
                array_splice($arr,$k,1,$v);
                next($arr);
            }
        }
    }
    return call_user_func_array('array_intersect',$arrs);
}
print_r(get_similar_items($array01,$array02));

结果:

Array
(
    [0] => hallo
    [1] => welt
    [2] => du
    [3] => ich
    [4] => mag
    [5] => dich
    [6] => nicht
    [7] => haha
    [8] => huhu
)

获取相似项计数

代码:

<?php
$array01 = array(
    0 => array("hallo", "welt", "du", "ich"),
    1 => array("mag", "dich"),
    2 => array("nicht", "haha", "huhu")
);
$array02 = array(
    0 => array("haha", "welt", "dich"),
    1 => array("hallo", "mag", "nicht"),
    2 => array("du", "ich", "huhu")
);
$array03 = array(
    0 => array("haha", "haha", "dich"),
    1 => array("dich", "mag", "mag"),
    2 => array("du", "ich", "haha")
);
function get_similar_items_count() {
    $arrs = func_get_args();
    foreach ($arrs as &$arr) {
        while (list($k, $v) = each($arr)) {
            if (is_array($v)) {
                array_splice($arr,$k,1,$v);
                next($arr);
            }
        }
    }
    unset($arr);
    $counts = array();
    foreach ($arrs as $arr) {
        foreach (array_count_values($arr) as $k => $v) {
            if ($v) {
                if (!isset($counts[$k])) {
                    $counts[$k]  = $v;
                } else {
                    $counts[$k] += $v;
                }
            }                
        }
    }
    return $counts;
}
print_r(get_similar_items_count($array01,$array02,$array03));

结果:

Array
(
    [hallo] => 2
    [welt] => 2
    [du] => 3
    [ich] => 3
    [mag] => 4
    [dich] => 4
    [nicht] => 2
    [haha] => 5
    [huhu] => 2
)
count(array_intersect($array01[0],$array02[0]));

可能是CCD_ 2通过机器人程序阵列&求和。

根据您的评论,我的理解是,您希望将第一个数组中的所有值与第二个数组进行比较。IOW数组1的所有子数组内的所有字应与数组2的所有子阵列的所有字进行比较

$array01 = array(
    0 => array("hallo", "welt", "du", "ich"),
    1 => array("mag", "dich"),
    2 => array("nicht", "haha", "huhu")
);
$array02 = array(
    0 => array("haha", "welt", "dich"),
    1 => array("hallo", "mag", "nicht"),
    2 => array("du", "ich", "huhu")
);
$t_array01 = array();
foreach($array01 as $arr) {
  $t_array01 = array_merge($t_array01,$arr);
}
$t_array02 = array();
foreach($array02 as $arr) {
  $t_array02 = array_merge($t_array02,$arr);
}
$common = array_intersect($t_array01,$t_array02);

$common是两个数组中的所有字的数组。在您的示例中,两个数组都包含所有相同的单词,因此它包含所有的单词。如果你只想知道有多少,你可以做count($common)