我遇到了一个问题,我不确定如何解决这个问题。
给定这样一种格式的数组:
$array01 = array(
0 => array("hallo", "welt", "du", "ich"),
1 => array("mag", "dich"),
2 => array("nicht", "haha", "huhu")
);
$array02 = array(
0 => array("haha", "welt", "dich"),
1 => array("hallo", "mag", "nicht"),
2 => array("du", "ich", "huhu")
);
现在我想计算这些数组的相似性值。这些数组是根据术语的含义对其进行聚类的结果。
我想知道的是,两个不同的用户($array01 = user1, $array02 = user2)
对这些术语的聚类有多相似。0,1,2是那些簇(它们不必是相同的长度(
编辑:因此,我尝试进一步描述:每个数组都是用户根据术语(hallo、welt、du、ich…(的含义对其进行聚类的结果。因此,每个子数组都是由用户定义的一个集群。现在的问题是,用户放置术语或整个集群的位置不受限制,所以我不能只比较$array01[0]和$array02[0]。我想我需要将子数组与最常见的项进行比较。不过,每个用户都必须对所有术语进行聚类。
例如:
$array01[0]和$array02[2]。它们有两个共同的术语:"du"answers"ich"->+1
其他术语没有明确的聚类,所以我猜这个例子会产生1,因为聚类不是很相似。
这个怎么样?
获取相似项
代码:
<?php
$array01 = array(
0 => array("hallo", "welt", "du", "ich"),
1 => array("mag", "dich"),
2 => array("nicht", "haha", "huhu")
);
$array02 = array(
0 => array("haha", "welt", "dich"),
1 => array("hallo", "mag", "nicht"),
2 => array("du", "ich", "huhu")
);
function get_similar_items() {
$arrs = func_get_args();
foreach ($arrs as &$arr) {
while (list($k, $v) = each($arr)) {
if (is_array($v)) {
array_splice($arr,$k,1,$v);
next($arr);
}
}
}
return call_user_func_array('array_intersect',$arrs);
}
print_r(get_similar_items($array01,$array02));
结果:
Array
(
[0] => hallo
[1] => welt
[2] => du
[3] => ich
[4] => mag
[5] => dich
[6] => nicht
[7] => haha
[8] => huhu
)
获取相似项计数
代码:
<?php
$array01 = array(
0 => array("hallo", "welt", "du", "ich"),
1 => array("mag", "dich"),
2 => array("nicht", "haha", "huhu")
);
$array02 = array(
0 => array("haha", "welt", "dich"),
1 => array("hallo", "mag", "nicht"),
2 => array("du", "ich", "huhu")
);
$array03 = array(
0 => array("haha", "haha", "dich"),
1 => array("dich", "mag", "mag"),
2 => array("du", "ich", "haha")
);
function get_similar_items_count() {
$arrs = func_get_args();
foreach ($arrs as &$arr) {
while (list($k, $v) = each($arr)) {
if (is_array($v)) {
array_splice($arr,$k,1,$v);
next($arr);
}
}
}
unset($arr);
$counts = array();
foreach ($arrs as $arr) {
foreach (array_count_values($arr) as $k => $v) {
if ($v) {
if (!isset($counts[$k])) {
$counts[$k] = $v;
} else {
$counts[$k] += $v;
}
}
}
}
return $counts;
}
print_r(get_similar_items_count($array01,$array02,$array03));
结果:
Array
(
[hallo] => 2
[welt] => 2
[du] => 3
[ich] => 3
[mag] => 4
[dich] => 4
[nicht] => 2
[haha] => 5
[huhu] => 2
)
count(array_intersect($array01[0],$array02[0]));
可能是CCD_ 2通过机器人程序阵列&求和。
根据您的评论,我的理解是,您希望将第一个数组中的所有值与第二个数组进行比较。IOW数组1的所有子数组内的所有字应与数组2的所有子阵列的所有字进行比较
$array01 = array(
0 => array("hallo", "welt", "du", "ich"),
1 => array("mag", "dich"),
2 => array("nicht", "haha", "huhu")
);
$array02 = array(
0 => array("haha", "welt", "dich"),
1 => array("hallo", "mag", "nicht"),
2 => array("du", "ich", "huhu")
);
$t_array01 = array();
foreach($array01 as $arr) {
$t_array01 = array_merge($t_array01,$arr);
}
$t_array02 = array();
foreach($array02 as $arr) {
$t_array02 = array_merge($t_array02,$arr);
}
$common = array_intersect($t_array01,$t_array02);
$common
是两个数组中的所有字的数组。在您的示例中,两个数组都包含所有相同的单词,因此它包含所有的单词。如果你只想知道有多少,你可以做count($common)