一种基于共训练的半监督生物医学事件抽取方法

    公开(公告)号:CN107978373A

    公开(公告)日:2018-05-01

    申请号:CN201711177721.X

    申请日:2017-11-23

    Applicant: 吉林大学

    Abstract: 本发明涉及一种基于共训练的半监督生物医学事件抽取方法。随着生物医学文献的快速增长,生物医学事件的自动抽取引起了人们极大的兴趣。然而,已标注的生物医学事件语料库规模较小,这会影响分类算法的性能,甚至导致过拟合。我们提出了一种新的生物医学事件抽取的共训练方法,从未标记的数据中识别出更准确的正实例,以此扩大已标记的训练集。首先,设计丰富的特征供SVM使用。然后,用从Word2vec从Pubmed中学习基于词嵌入的短句,进一步将短句拓展为触发词和参数之间的依存短句,并将其输入到CNN中。最后,未标记语料库中经SVM和CNN预测的符合条件的样本对回填到训练集中,增量地扩展训练集。大量实验结果表明,新的半监督生物医学事件提取方法能有效提取事件。

    不平衡数据集上生物医学多参事件抽取的新方法

    公开(公告)号:CN106777957B

    公开(公告)日:2019-07-30

    申请号:CN201611138305.4

    申请日:2016-12-12

    Applicant: 吉林大学

    Abstract: 本发明公开了一种不平衡数据集上生物医学多参事件抽取的新方法,步骤如下:第一部分:步骤1:获取序列库;步骤2:构造序列数据库S;步骤3:给定最小支持度阈值;步骤4:判断序列个数;第二部分:步骤1:在选择的样本集上提取四类特征;步骤2:得到多类别的分类器;第三部分:步骤1:计算相似度;步骤2:计算触发词重要度步骤3:合并重要度和相似度Sim(ti,aj,ak)得到联合评分Score(ti,aj,ak);步骤4:给定阈值δ。有益效果:采用数据挖掘和自然语言处理技术,方法灵活,易于实现,可达到很高的准确度。

    不平衡数据集上生物医学多参事件抽取的新方法

    公开(公告)号:CN106777957A

    公开(公告)日:2017-05-31

    申请号:CN201611138305.4

    申请日:2016-12-12

    Applicant: 吉林大学

    CPC classification number: G06F17/2775 G06K9/6269 G16H50/70

    Abstract: 本发明公开了一种不平衡数据集上生物医学多参事件抽取的新方法,步骤如下:第一部分:步骤1:获取序列库;步骤2:构造序列数据库S;步骤3:给定最小支持度阈值;步骤4:判断序列个数;第二部分:步骤1:在选择的样本集上提取四类特征;步骤2:得到多类别的分类器;第三部分:步骤1:计算相似度;步骤2:计算触发词重要度步骤3:合并重要度和相似度Sim(ti,aj,ak)得到联合评分Score(ti,aj,ak);步骤4:给定阈值δ。有益效果:采用数据挖掘和自然语言处理技术,方法灵活,易于实现,可达到很高的准确度。

Patent Agency Ranking