-
公开(公告)号:CN103778243B
公开(公告)日:2017-02-08
申请号:CN201410047277.X
申请日:2014-02-11
Applicant: 北京信息科技大学
Abstract: 本发明提供一种领域术语抽取方法,包括步骤:对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理;对当前格式化领域文本进行词频统计;采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集;根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,得到第二候选领域术语集;对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;对第三候选领域术语集进行通用词库过滤处理,得到领域术语。本发明具有抽取效果较好的特点,可广泛应用于词语抽取领域。
-
公开(公告)号:CN103778243A
公开(公告)日:2014-05-07
申请号:CN201410047277.X
申请日:2014-02-11
Applicant: 北京信息科技大学
Abstract: 本发明提供一种领域术语抽取方法,包括步骤:对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理;对当前格式化领域文本进行词频统计;采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集;根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,得到第二候选领域术语集;对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;对第三候选领域术语集进行通用词库过滤处理,得到领域术语。本发明具有抽取效果较好的特点,可广泛应用于词语抽取领域。
-