寻找将文本分解为句子的企业解决方案


Looking for enterprise solution for breaking text into sentences

开发基于手动/正则表达式的算法很容易将文本拆分为句子。但是忽略语义最终会导致在处理大量文本时出现解析错误。

我正在寻找企业级解决方案,该解决方案还可以分析语义并提供准确的结果。

目标语言为 EN。

我对不同句子分割工具的准确性进行了一些分析,您可以在我的句子分割Ruby gem的自述文件或此页面上找到这些工具。大多数工具的编程语言也被注意到。我还没有遇到任何用PHP本地编写的分段工具。我的猜测是,如果你想要一个企业解决方案,你需要从另一种编程语言移植一个工具(或者找到已经拥有的人)。

句子分割工具:

  • 斯坦福核心NLP
  • 开放语言处理
  • TactfulTokenizer
  • 务实的分段器
  • 斯普利塔
  • 朋克
  • SRX 英语
  • 斯凯尔
  • 自由凌
  • 阿尔皮诺
  • 特托克
  • 塞格托克
  • 灵管
  • Ucto: Unicode Tokenizer
  • 分词器
  • 空间
只要

使用正确的函数,python中的Nltk就可以提供良好的可靠结果。也应该考虑Apaches开放NLP。