基于主动学习和语义密度的目标语料库构建方法

    公开(公告)号:CN109492098B

    公开(公告)日:2022-05-06

    申请号:CN201811239578.7

    申请日:2018-10-24

    Abstract: 基于主动学习和语义密度的目标语料库构建方法属于文本挖掘技术领域。命名实体识别是面向生物医学文献的文本挖掘技术中至关重要的一环,深度学习和其他学习算法在实体识别的能力很大程度上取决于目标语料库构建的性能。而主动学习则是通过未标记的数据进行筛选,可以利用少量的数据取得较高的学习准确度。提出了基于密度聚类的主动学习方法来构建目标语料库,密度聚类选择具有一定高密度的区域划分为簇,可以去除掉具有噪音的数据,再由主动学习方法来选取信息最丰富的样本,使用较少的训练样本来获得性能较好的目标语料库,最终我们通过上下文相似度曲线来观察目标语料库的性能。该方法可以有效减少训练时间的同时也能提高目标语料库的性能。

    一种基于上下文语义的细粒度领域术语自学习方法

    公开(公告)号:CN108038106B

    公开(公告)日:2021-07-02

    申请号:CN201711404969.5

    申请日:2017-12-22

    Abstract: 为了解决现有基于大训练样本的文本术语学习方法难以满足较小实例样本的细粒度领域术语学习需求的问题,本发明提出了一种基于上下文语义的细粒度领域术语自学习方法,通过融合上下文语义信息,从候选术语上下文信息的复现次数角度上全面表现候选术语在语料库中的统计特征和语言特征,借鉴领域相关性与领域一致性思想,运用对数似然比,计算候选术语的领域依存偏向值,最后综合每个候选术语的隶属激活值自主发现领域新术语。本发明所述的基于上下文语义的细粒度领域术语自学习技术可实现术语集的自学习,促进特定领域本体构建,其不仅可以应用在诸如认知功能等领域的术语发现和抽取,还能够在概念抽取方法中作为候选概念产生工具使用。

    基于主动学习和语义密度的目标语料库构建方法

    公开(公告)号:CN109492098A

    公开(公告)日:2019-03-19

    申请号:CN201811239578.7

    申请日:2018-10-24

    Abstract: 基于主动学习和语义密度的目标语料库构建方法属于文本挖掘技术领域。命名实体识别是面向生物医学文献的文本挖掘技术中至关重要的一环,深度学习和其他学习算法在实体识别的能力很大程度上取决于目标语料库构建的性能。而主动学习则是通过未标记的数据进行筛选,可以利用少量的数据取得较高的学习准确度。提出了基于密度聚类的主动学习方法来构建目标语料库,密度聚类选择具有一定高密度的区域划分为簇,可以去除掉具有噪音的数据,再由主动学习方法来选取信息最丰富的样本,使用较少的训练样本来获得性能较好的目标语料库,最终我们通过上下文相似度曲线来观察目标语料库的性能。该方法可以有效减少训练时间的同时也能提高目标语料库的性能。

    一种基于上下文语义的细粒度领域术语自学习方法

    公开(公告)号:CN108038106A

    公开(公告)日:2018-05-15

    申请号:CN201711404969.5

    申请日:2017-12-22

    Abstract: 为了解决现有基于大训练样本的文本术语学习方法难以满足较小实例样本的细粒度领域术语学习需求的问题,本发明提出了一种基于上下文语义的细粒度领域术语自学习方法,通过融合上下文语义信息,从候选术语上下文信息的复现次数角度上全面表现候选术语在语料库中的统计特征和语言特征,借鉴领域相关性与领域一致性思想,运用对数似然比,计算候选术语的领域依存偏向值,最后综合每个候选术语的隶属激活值自主发现领域新术语。本发明所述的基于上下文语义的细粒度领域术语自学习技术可实现术语集的自学习,促进特定领域本体构建,其不仅可以应用在诸如认知功能等领域的术语发现和抽取,还能够在概念抽取方法中作为候选概念产生工具使用。

Patent Agency Ranking