我是一个非营利组织的志愿者,CEO想要一个存储大学教授简历的应用程序。简历是可搜索的,以便潜在的雇主可以找到它们。简历可以是多种格式,包括pdf或Word。
该网站目前基于Joomla!,但可能会转向Drupal。在这两种情况下,开发人员都熟悉PHP。我熟悉PHP和Java。
这个应用程序的最佳架构是什么?我正在考虑:
- 安装Java或PHP版本的SOLR并链接到它
- 直接使用PHP版本的Lucene,绕过Solr。
- 使用Search Lucene API Drupal扩展,它提供了类似solr的功能。
如果我遗漏了什么,请让我知道。
而且,我在亚马逊上也找不到一本好书。在Lucene上有一个很好的例子(In Action系列)。不幸的是,它只简要地提到了Solr。为了了解如何更好地使用Solr,是否值得阅读一本关于Lucene的好书,或者我会浪费我的时间/金钱?我也找不到任何关于Solr的好书…但也许你可以推荐一个。
是的,Solr是一个很好的匹配:
- Solr自带了一个名为ExtractingRequestHandler的特性,它可以让你轻松地索引Word、PDF和其他专有格式。当涉及到全文搜索时,Solr是高度可配置的,你可能会得到比MySQL全文更好的结果。Solr很快。MySQL全文,没有那么多。
- Solr支持面导航。 有两个Joomla集成模块用于Solr (JSolr, TNR research)和一个用于Drupal。
选择Solr不仅仅是因为它的性能,还因为它的功能和灵活性。
关于Solr图书,请参见:
- https://stackoverflow.com/questions/343671/book-recomendation-for-solr
- https://stackoverflow.com/questions/6821470/book-about-solr-for-version-3-x
关于Lucene的书籍将帮助您了解文本是如何在底层处理的,如果您必须对文本分析进行微调,这可能会派上用场,但是我建议您从一本关于Solr的书籍开始。
Solr是一个很好的选择,但是根据你的需求,我建议你使用Sphinx搜索引擎,它有一个非常好的PHP API文档。请注意,我喜欢Solr的一些强大功能,但是Solr在索引算法(即索引时间和磁盘上的索引大小)方面无法击败Sphinx。
有一本关于Solr的优秀书籍- Solr 1.4企业搜索服务器[PACKT PUBLISHING]。您还可以阅读IBM Developer works关于Solr的优秀文章。在Google上搜索"Search Smart with Solr IBM Developerworks "。
PS:我还是觉得Sphinx会是你最好的选择。根据您的解释,没有Solr不是一个很好的匹配。
如果需要的话,您将能够通过mysql进行全文搜索。您提到Joomla和Drupal的事实显然表明,它们是您正在使用的RDMS。
如果我要重新开始这个项目,我可能会使用一些noSQL引擎,比如MongoDB来创建我的简历文档。www.mongodb.com
这就是我将保存数据的方式。如果需要搜索文档,我只会考虑使用Solr,如果我希望每天有成千上万的搜索。如果您每天只期望进行100-1000次搜索,那么它确实不需要实现Solr应用程序。
回答你关于Solr的书的问题,我推荐的书是http://www.packtpub.com/solr-1-4-enterprise-search-server/book,但我相信你可能会找到一些最近的。我18-24个月前买的。
首先要存储每个人的详细信息…所以