大家好,您能否通过 xml 文档传递路径来判断是否可以在 pdf 和 word 文件中搜索......这样XML文件将是这样的。
<doc>
<field name="id">1</field>
<field name="name">A</field>
<field name="sk">Acce</field>
<field name="level">Beginner</field>
<field name="do">Tuto</field>
<field name="open">1</field>
<field name="type">Ct</field>
<field name="extensis">cl_ex</field>
<field name="features">Atos</field>
<field name="downl"></field>
<field name="source">Atoms</field>
<field name="description">Ths.</field>
<field name="file_path">http://www.abcd.com/files/abcd.pdf</field>
</doc>
<doc>
<field name="id">2</field>
<field name="name">Ar</field>
<field name="sk">Acrce</field>
<field name="level">Beginner</field>
<field name="do">Tuto1</field>
<field name="open">11</field>
<field name="type">C1t</field>
<field name="extensis">cl_exd</field>
<field name="features">Atos</field>
<field name="downl"></field>
<field name="source">ddddd</field>
<field name="description">Thsdd.</field>
<field name="file_path">http://www.abcd.com/files/abcd.pdf</field>
</doc>
因此,如果我在 solr 查询中搜索单词"solr 单词",而不是仅在文档中搜索,它还应该进入文件(file_path)并搜索该单词。任何建议,这方面的帮助将有所帮助。
不是我知道的。
但可以通过另一条路线。您可以使用Apache Tika将pdf/doc文件提取为文本,然后您可以索引所述文本,从而能够在文档"内"进行搜索。
示例实现:
pdf -> 蒂卡
蒂卡 -> PDF 中的文本
文本来自pdf&&filepath-> solr doc
搜索 solr -> 如果搜索与文件内容匹配,则返回带有文件路径的文档