开发基于手动/正则表达式的算法很容易将文本拆分为句子。但是忽略语义最终会导致在处理大量文本时出现解析错误。
我正在寻找企业级解决方案,该解决方案还可以分析语义并提供准确的结果。
目标语言为 EN。
我对不同句子分割工具的准确性进行了一些分析,您可以在我的句子分割Ruby gem的自述文件或此页面上找到这些工具。大多数工具的编程语言也被注意到。我还没有遇到任何用PHP本地编写的分段工具。我的猜测是,如果你想要一个企业解决方案,你需要从另一种编程语言移植一个工具(或者找到已经拥有的人)。
句子分割工具:
- 斯坦福核心NLP
- 开放语言处理
- TactfulTokenizer
- 务实的分段器
- 斯普利塔
- 朋克
- SRX 英语
- 斯凯尔
- 自由凌
- 阿尔皮诺
- 特托克
- 塞格托克
- 灵管
- 象
- Ucto: Unicode Tokenizer
- 分词器
- 空间
只要
使用正确的函数,python中的Nltk就可以提供良好的可靠结果。也应该考虑Apaches开放NLP。