我们有一个非常简单的产品目录,它将产品存储在mysql表中,我们需要为应该尽可能快(并且尽可能相关)工作的产品建立一个高质量的搜索。产品数据库将相当大(约500000个产品),这就是为什么使用"赞"而不使用索引的搜索速度非常慢的原因。我们已经尝试过使用mysql全文搜索,它工作得很快,但没有产生令人满意的结果,尤其是对于使用数字的搜索(例如"LR-41",这是一种电池类型等)
我们的产品目录包括许多字段,但我们唯一需要搜索的是:
product_id = bigint
title = varchar(255)
description = text
经过多次建议,我们最终尝试使用Sphinx搜索,并进行了如下配置:
source mysearch {
type=mysql
sql_host=...
sql_user=...
sql_pass=...
sql_port=...
sql_query_pre = SET NAMES utf8
sql_query = SELECT product_id, title, description FROM products
sql_query_info = SELECT * FROM products WHERE product_id=$id
}
index fulltext {
source = mysearch
path = /var/lib/sphinxsearch/data/mysearch
docinfo = extern
mlock = 0
morphology = stem_en, metaphone
min_word_len = 1
blend_chars = +, &, U+23, -
blend_mode = trim_both
html_strip = 1
}
indexer {
mem_limit = 256M
}
searchd {
listen = 9312
# everything else set to default
}
对于网站后端,我们使用PHP,并使用以下代码:
<?php
$sphinx = new SphinxClient();
$sphinx->SetServer('localhost', 9312);
$sphinx->SetMatchMode(SPH_MATCH_EXTENDED);
$sphinx->setFieldWeights(array(
'product_id' => 10,
'title' => 7,
'description' => 3
));
$sphinx->setLimits(0, 200, 1000, 5000);
$sphinx->SetRankingMode(SPH_RANK_PROXIMITY_BM25);
$sphinx->AddQuery($_GET['query'], "fulltext");
$results = $sphinx->RunQueries();
print_r($results);
?>
这只是一个测试搜索的演示脚本,但无论我用来查询什么,它都会返回完全错误的结果——它匹配的产品甚至不包括我正在搜索的单词(或子字符串)。
以下是我想要实现的规则:
- 如果查询与"product_id"匹配,则该产品应排名最高(一些经常使用product_id的用户希望通过它进行搜索)
- 如果查询是"Meter XY-123",它应该匹配包含这两个词或其中任何一个词的所有产品(当然,包含这两种字符串的产品应该排名更高)
- 如果在标题中找到查询,则其排名应高于在描述中找到查询的排名
- 如果有人搜索"XY-123",其结果应该与搜索"XY123"或"XY123
- 它还应该搜索子字符串-例如,如果产品的标题是"Foobar 123",即使用户搜索"foo bar 123"、"bar 123"answers"foo"等,也应该返回它
- 结果也应该按某种相关性排序返回。。例如,如果我有两个产品"foobar 123"answers"foobar 456",并且用户搜索"foobar 4",那么这两个产品都应该返回(匹配任何单词),但第二个产品的排名应该比第一个产品(不包含数字4)高(因为它也包含数字4。)
- 产品还应该根据值所在的字段进行排名。在这种情况下,product_id字段的权重大于title,title的权重也高于description
所以问题是——如何正确配置和使用sphinx+php来生成符合上述标准的搜索结果?
谢谢!
这只是一个测试搜索的演示脚本,但无论我用于查询,它都会返回完全错误的结果
建议从morphology
中删除metaphone
。这特别允许"模糊"索引——有点像"声音相似"。但它不能很好地与词干(即stem_en)结合使用,这会导致非常令人困惑的结果。
事实上,如果你设置前缀索引(见下文),你可能也可以删除词干——如果同时尝试和使用这两种方法,很难检测边缘情况。
如果查询与"product_id"匹配,则产品应排名最高(一些经常使用产品id的用户希望通过它进行搜索)
Sphinx在"全文"索引中不包括产品id。你需要复制它。
sql_query = SELECT product_id as id, product_id, name,...
如果查询是"Meter XY-123",它应该匹配所有包含这两个词或其中任何一个词的产品(当然,包含这两种字符串的产品应该排名更高)
这意味着您要进行"任意"搜索。Sphinx默认为"ALL"搜索。更改为SPH_MATCH_ANY,
或重写查询使其为"ANY"(在单词之间注入"|"或使用quorum)
如果有人搜索"XY-123",应该会产生与搜索"XY123"或"XY123"相同的结果
这真是涓涓细流。您可以尝试将-添加到blend_chars
。这会起作用的。但是输入say"XY123"将不匹配带有"XY123"的产品。我认为没有简单的解决办法。
有各种各样的统计方法试图重写查询,但从本质上讲,它们是不精确的。
它还应该搜索子字符串-例如,如果产品的标题是"Foobar 123",即使用户搜索"foo bar 123"、"bar 123"answers"Foobar 12"、"foo"等,也应该返回。
需要使用min_prefix_len
来启用前缀搜索,并设置enable_star = 0
但是enable_star=0
是非关联的,所以也许可以使用expand_keywords=1
,它会自动为您添加星星。
还应按某种相关性的顺序返回结果
总的来说,这是会发生的。但如果需要,可以尝试更改排名模式-有很多选项(但需要使用扩展匹配模式)
产品还应该根据价值所在的字段进行排名。
setFieldWeights
到救援!(你已经得到了!)