NLP从POS标签中创建模型


NLP creating a model out of POS tags

我正在尝试创建一个基于文本挖掘的知识库。我正在使用Genia语料库按词性给单词加标签。给定文本中的两个术语,我如何创建一个找出其关系的模型?

如文本:

HIF1A基因参与缺氧调控。缺氧也上调了BRCA1基因的表达,这主要与乳腺癌有关。

我把POS标记出来了。

Word     Base Form  Part-Of-Speech   
HIF1A    HIF1A          NN  
gene     gene           NN  
is           be         VBZ 
involved     involve    VBN 
in           in         IN  
Hypoxic  Hypoxic    JJ  
regulation   regulation NN  
.            .          .   
Hypoxia  Hypoxia        NN  
also     also           RB  
regulates    regulate   VBZ 
BRCA1    BRCA1          NN  
gene     gene           NN  
which    which          WDT 
is           be         VBZ 
mainly   mainly         RB  
associated   associate  VBN 
in           in         IN  
breast   breast         NN  
cancer   cancer         NN

我正在写一个web界面,当查询BRCA1和缺氧应该告诉他们之间有正调节。当查询HIF1A和Hypoxia时,应该根据这些句子来判断是否存在正向调节。

现在我已经标记了POS,我不知道如何继续创建一个模型,该模型将识别它们之间的关系。这只是一个例子。我想为一般的生物医学术语和文本做这个。

谁有什么建议?

仅依靠POS标记器的输出,您必须定义本地语法规则(模式)。

就我个人而言,我建议你使用(语法)解析器来获取参数结构,如regulate(Hypoxia,BRCA1)