一种基于N-Gram的新型关键词提取方法

    公开(公告)号:CN112163421A

    公开(公告)日:2021-01-01

    申请号:CN202011072560.X

    申请日:2020-10-09

    Applicant: 厦门大学

    Inventor: 陈骏轩 苏劲松

    Abstract: 本发明涉及一种基于N‑Gram的新型关键词提取方法,包含以下步骤:S1,获取用户输入的第一文本;S2,定义N=1,对所述第一文本进行N‑Gram分割,得到单字符合集,计算每个单字符的出现概率;S3,提取所述步骤S1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;S4,定义N=2;S5,提取所述步骤S4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;S6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。

    一种基于N-Gram的关键词提取方法

    公开(公告)号:CN112163421B

    公开(公告)日:2022-05-17

    申请号:CN202011072560.X

    申请日:2020-10-09

    Applicant: 厦门大学

    Inventor: 陈骏轩 苏劲松

    Abstract: 本发明涉及一种基于N‑Gram的关键词提取方法,包含以下步骤:S1,获取用户输入的第一文本;S2,定义N=1,对所述第一文本进行N‑Gram分割,得到单字符合集,计算每个单字符的出现概率;S3,提取所述步骤S1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;S4,定义N=2;S5,提取所述步骤S4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;S6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。

Patent Agency Ranking