计数字符串中的单词数(不仅仅是拉丁语言)


count number of words in a string (not only latin languages)

如果我没记错的话,中文(和其他语言)不使用空格' '作为分隔符。

那么哪个算法可以在国际上使用呢?

我看到使用得最多的技巧是简单地计算使用的字符数,然后除以每个中文单词的平均字符数。通常使用的数字是1.5

如果你的中文文本有1500个字符,那么它大约有1000个单词长。

除了解释文本本身,我不知道还有什么更准确的计算单词的方法。这意味着要真正理解所使用的单词的上下文,因为一个汉字有时可以单独用作一个单词,也可以作为一个合成词的组成部分。