根据上下文查找两个字符串之间的百分比关系 - Find a percentage relation between two string according to their context

Find a percentage relation between two string according to their context

我正在为 html 页面实现一个网络抓取器。问题是上下文关系，因为我需要确定我获得的内容与数据库中其他内容之间的关系，这样我就可以说是的，它们是否相关作为上下文观点：

例（ 1 ）

$str1 = "president obama visited Barcelona yesterday"; //politics context
$str2 = "Barcelona was defeated from Chelsea yesterday"; //sports context

例（ 2 ）

$str3 = "Obama's appearance on Late Night With Jimmy Fallon "; //media context
$str4 = "Late Night show with jimmy fallon"; //mdeia context

在第一个示例中

$str 1 和 $str 2 在上下文中是不同的，因此关系可能为 10% 或更少

在第二个示例中

$str 3和$str 4是在同一背景下（媒体），虽然$str 3是关于奥巴马总统的，$str 4是关于吉米·法伦的，但两者都与深夜秀有关，所以关系可能是90%

我正在使用Porter-Stemmer算法从单词中删除常见的结尾。下一步该怎么做？

关键字是字符串指标，模糊匹配...

看看这个：如何打火柴

$exstr1=explode(" ", $str1);
$exstr2=explode(" ", $str2);
foreach( $exstr1 as $exitem)
{
     if (in_array($exitem, $exstr2 ) $match++;
      else $mis++;
}
$percent=$match/($match+$mis)*100;