我正在尝试创建一个基于文本挖掘的知识库。我正在使用Genia语料库按词性给单词加标签。给定文本中的两个术语,我如何创建一个找出其关系的模型?
如文本:
HIF1A基因参与缺氧调控。缺氧也上调了BRCA1基因的表达,这主要与乳腺癌有关。
我把POS标记出来了。
Word Base Form Part-Of-Speech
HIF1A HIF1A NN
gene gene NN
is be VBZ
involved involve VBN
in in IN
Hypoxic Hypoxic JJ
regulation regulation NN
. . .
Hypoxia Hypoxia NN
also also RB
regulates regulate VBZ
BRCA1 BRCA1 NN
gene gene NN
which which WDT
is be VBZ
mainly mainly RB
associated associate VBN
in in IN
breast breast NN
cancer cancer NN
我正在写一个web界面,当查询BRCA1和缺氧应该告诉他们之间有正调节。当查询HIF1A和Hypoxia时,应该根据这些句子来判断是否存在正向调节。
现在我已经标记了POS,我不知道如何继续创建一个模型,该模型将识别它们之间的关系。这只是一个例子。我想为一般的生物医学术语和文本做这个。
谁有什么建议?仅依靠POS标记器的输出,您必须定义本地语法规则(模式)。
就我个人而言,我建议你使用(语法)解析器来获取参数结构,如regulate(Hypoxia,BRCA1)
…