-
公开(公告)号:CN113392189A
公开(公告)日:2021-09-14
申请号:CN202110939825.X
申请日:2021-08-17
Applicant: 东华理工大学南昌校区
IPC: G06F16/33 , G06F16/36 , G06F40/289
Abstract: 本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本,对比时事文本与基础词组,确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同的待处理字符串,生成第一字符串和第二字符串以及中间文本。再对比中间文本与基础词组,确定第三字符串以及第四字符串,最后拼接第一、二、三、四字符串完成对新闻文本的分词处理。本方法通过对新闻文本的分词为文本语义识别提供技术基础。也有利于挖掘新闻的价值,能够更加精准的定位搜索。
-
公开(公告)号:CN113392189B
公开(公告)日:2022-02-08
申请号:CN202110939825.X
申请日:2021-08-17
Applicant: 东华理工大学南昌校区
IPC: G06F16/33 , G06F16/36 , G06F40/289
Abstract: 本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本,对比时事文本与基础词组,确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同的待处理字符串,生成第一字符串和第二字符串以及中间文本。再对比中间文本与基础词组,确定第三字符串以及第四字符串,最后拼接第一、二、三、四字符串完成对新闻文本的分词处理。本方法通过对新闻文本的分词为文本语义识别提供技术基础。也有利于挖掘新闻的价值,能够更加精准的定位搜索。
-