我可以通过在 SOLR xml 文档中传递路径和文档中的其他值来搜索 pdf 和.doc文件吗?


Can I Search pdf and .doc files by passing there path in SOLR xml docs with other values in the doc

大家好,您能否通过 xml 文档传递路径来判断是否可以在 pdf 和 word 文件中搜索......这样XML文件将是这样的。

<doc>
    <field name="id">1</field>
    <field name="name">A</field>
    <field name="sk">Acce</field>
    <field name="level">Beginner</field>
    <field name="do">Tuto</field>
    <field name="open">1</field>
    <field name="type">Ct</field>
    <field name="extensis">cl_ex</field>
    <field name="features">Atos</field>
    <field name="downl"></field>
    <field name="source">Atoms</field>
    <field name="description">Ths.</field>
    <field name="file_path">http://www.abcd.com/files/abcd.pdf</field>
  </doc>
  <doc>
    <field name="id">2</field>
    <field name="name">Ar</field>
    <field name="sk">Acrce</field>
    <field name="level">Beginner</field>
    <field name="do">Tuto1</field>
    <field name="open">11</field>
    <field name="type">C1t</field>
    <field name="extensis">cl_exd</field>
    <field name="features">Atos</field>
    <field name="downl"></field>
    <field name="source">ddddd</field>
    <field name="description">Thsdd.</field>
    <field name="file_path">http://www.abcd.com/files/abcd.pdf</field>
  </doc>

因此,如果我在 solr 查询中搜索单词"solr 单词",而不是仅在文档中搜索,它还应该进入文件(file_path)并搜索该单词。任何建议,这方面的帮助将有所帮助。

不是我知道的。

但可以通过另一条路线。您可以使用Apache Tika将pdf/doc文件提取为文本,然后您可以索引所述文本,从而能够在文档"内"进行搜索。

示例实现:

pdf -> 蒂卡

蒂卡 -> PDF 中的文本

文本来自pdf&&filepath-> solr doc

搜索 solr -> 如果搜索与文件内容匹配,则返回带有文件路径的文档