基于自动分词的新闻文本处理方法

    公开(公告)号:CN113392189A

    公开(公告)日:2021-09-14

    申请号:CN202110939825.X

    申请日:2021-08-17

    Inventor: 黄振华 李惠惠

    Abstract: 本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本,对比时事文本与基础词组,确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同的待处理字符串,生成第一字符串和第二字符串以及中间文本。再对比中间文本与基础词组,确定第三字符串以及第四字符串,最后拼接第一、二、三、四字符串完成对新闻文本的分词处理。本方法通过对新闻文本的分词为文本语义识别提供技术基础。也有利于挖掘新闻的价值,能够更加精准的定位搜索。

    基于自动分词的新闻文本处理方法

    公开(公告)号:CN113392189B

    公开(公告)日:2022-02-08

    申请号:CN202110939825.X

    申请日:2021-08-17

    Inventor: 黄振华 李惠惠

    Abstract: 本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本,对比时事文本与基础词组,确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同的待处理字符串,生成第一字符串和第二字符串以及中间文本。再对比中间文本与基础词组,确定第三字符串以及第四字符串,最后拼接第一、二、三、四字符串完成对新闻文本的分词处理。本方法通过对新闻文本的分词为文本语义识别提供技术基础。也有利于挖掘新闻的价值,能够更加精准的定位搜索。

Patent Agency Ranking