我正在尝试从团购网站创建一个数据提取器算法,以构建交易聚合器。首先,我需要一个算法来提取标题,价格,折扣,图像,坐标。
我有图像,折扣和坐标的解决方案,但对于标题和类别识别,我需要创建一个朴素的贝叶斯算法。这样做的最佳语言是什么:php?蟒?.js?节点.js?
创建算法需要什么?
有例子的模型?等。我给出 100 个标题,然后给出来自某些网站的所有 Web 内容,脚本是否可以识别哪个句子是标题?
所以我不需要一句话。我需要一个句子,这句话有时是<h1> - <h2>
的,还有其他东西。
我真的无法理解你的大部分帖子,但由于朴素贝叶斯是 SO 上非常普遍要求的东西,我创建了一段简单的代码,可以在没有任何额外的库(如 NLTK)的情况下使用 python(并且也比 NLTK 更快用于训练)。你可以在这里找到它。
如果你没有任何AI算法的经验,并且你想添加一些可以学习的算法,我建议你应该使用谷歌预测API:
https://developers.google.com/prediction/