-
公开(公告)号:CN109492098A
公开(公告)日:2019-03-19
申请号:CN201811239578.7
申请日:2018-10-24
Applicant: 北京工业大学
IPC: G06F16/35
Abstract: 基于主动学习和语义密度的目标语料库构建方法属于文本挖掘技术领域。命名实体识别是面向生物医学文献的文本挖掘技术中至关重要的一环,深度学习和其他学习算法在实体识别的能力很大程度上取决于目标语料库构建的性能。而主动学习则是通过未标记的数据进行筛选,可以利用少量的数据取得较高的学习准确度。提出了基于密度聚类的主动学习方法来构建目标语料库,密度聚类选择具有一定高密度的区域划分为簇,可以去除掉具有噪音的数据,再由主动学习方法来选取信息最丰富的样本,使用较少的训练样本来获得性能较好的目标语料库,最终我们通过上下文相似度曲线来观察目标语料库的性能。该方法可以有效减少训练时间的同时也能提高目标语料库的性能。
-
公开(公告)号:CN111353297B
公开(公告)日:2023-12-29
申请号:CN202010132576.9
申请日:2020-02-29
Applicant: 北京工业大学
IPC: G06F40/258 , G06F16/33 , G06F16/36 , G06F16/35
Abstract: 基于领域话题交互密度的生物医学文献主题抽取方法属于生物医学文本挖掘技术领域,对于领域知识库的自动构建与持续更新、文献精准推荐以及促进生物医学相关领域的发展等具有重要的意义。提出基于领域话题交互密度进行文献主题抽取方法,根据领域术语词典和初始语料集建立领域话题队列,不断发现新话题补充领域词典,进而构建话题交互队列,基于正性话题交互队列进行话题交互密度聚类,选择高密度区域划分为簇,得到话题聚集区,再对聚集区内的话题多样性和交互性进行度量,根据主题活跃度生成高质量的文献主题。最后通过语料集中抽取文献主题的准确率统计图观察主题抽取方法的准确性和可靠性。该方法可以有效提高文献主题抽取算法的性能。
-
公开(公告)号:CN109492098B
公开(公告)日:2022-05-06
申请号:CN201811239578.7
申请日:2018-10-24
Applicant: 北京工业大学
IPC: G06F16/35
Abstract: 基于主动学习和语义密度的目标语料库构建方法属于文本挖掘技术领域。命名实体识别是面向生物医学文献的文本挖掘技术中至关重要的一环,深度学习和其他学习算法在实体识别的能力很大程度上取决于目标语料库构建的性能。而主动学习则是通过未标记的数据进行筛选,可以利用少量的数据取得较高的学习准确度。提出了基于密度聚类的主动学习方法来构建目标语料库,密度聚类选择具有一定高密度的区域划分为簇,可以去除掉具有噪音的数据,再由主动学习方法来选取信息最丰富的样本,使用较少的训练样本来获得性能较好的目标语料库,最终我们通过上下文相似度曲线来观察目标语料库的性能。该方法可以有效减少训练时间的同时也能提高目标语料库的性能。
-
公开(公告)号:CN108038106B
公开(公告)日:2021-07-02
申请号:CN201711404969.5
申请日:2017-12-22
Applicant: 北京工业大学
IPC: G06F40/211 , G06F16/33 , G06F16/36
Abstract: 为了解决现有基于大训练样本的文本术语学习方法难以满足较小实例样本的细粒度领域术语学习需求的问题,本发明提出了一种基于上下文语义的细粒度领域术语自学习方法,通过融合上下文语义信息,从候选术语上下文信息的复现次数角度上全面表现候选术语在语料库中的统计特征和语言特征,借鉴领域相关性与领域一致性思想,运用对数似然比,计算候选术语的领域依存偏向值,最后综合每个候选术语的隶属激活值自主发现领域新术语。本发明所述的基于上下文语义的细粒度领域术语自学习技术可实现术语集的自学习,促进特定领域本体构建,其不仅可以应用在诸如认知功能等领域的术语发现和抽取,还能够在概念抽取方法中作为候选概念产生工具使用。
-
公开(公告)号:CN111353297A
公开(公告)日:2020-06-30
申请号:CN202010132576.9
申请日:2020-02-29
Applicant: 北京工业大学
IPC: G06F40/258 , G06F16/33 , G06F16/36 , G06F16/35
Abstract: 基于领域话题交互密度的生物医学文献主题抽取方法属于生物医学文本挖掘技术领域,对于领域知识库的自动构建与持续更新、文献精准推荐以及促进生物医学相关领域的发展等具有重要的意义。提出基于领域话题交互密度进行文献主题抽取方法,根据领域术语词典和初始语料集建立领域话题队列,不断发现新话题补充领域词典,进而构建话题交互队列,基于正性话题交互队列进行话题交互密度聚类,选择高密度区域划分为簇,得到话题聚集区,再对聚集区内的话题多样性和交互性进行度量,根据主题活跃度生成高质量的文献主题。最后通过语料集中抽取文献主题的准确率统计图观察主题抽取方法的准确性和可靠性。该方法可以有效提高文献主题抽取算法的性能。
-
公开(公告)号:CN108038106A
公开(公告)日:2018-05-15
申请号:CN201711404969.5
申请日:2017-12-22
Applicant: 北京工业大学
Abstract: 为了解决现有基于大训练样本的文本术语学习方法难以满足较小实例样本的细粒度领域术语学习需求的问题,本发明提出了一种基于上下文语义的细粒度领域术语自学习方法,通过融合上下文语义信息,从候选术语上下文信息的复现次数角度上全面表现候选术语在语料库中的统计特征和语言特征,借鉴领域相关性与领域一致性思想,运用对数似然比,计算候选术语的领域依存偏向值,最后综合每个候选术语的隶属激活值自主发现领域新术语。本发明所述的基于上下文语义的细粒度领域术语自学习技术可实现术语集的自学习,促进特定领域本体构建,其不仅可以应用在诸如认知功能等领域的术语发现和抽取,还能够在概念抽取方法中作为候选概念产生工具使用。
-
-
-
-
-