-
公开(公告)号:CN112988981A
公开(公告)日:2021-06-18
申请号:CN202110525248.X
申请日:2021-05-14
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种基于遗传算法的自动标注方法,包括依次执行以下步骤:步骤1,预处理:获取评论,从评论中删除长度小于两个单词的评论和所有非字母数字字符,然后取小写字母,在标记化后剔除存在于NLTK语料库中的终止词,接下来,将单词简化为词根形式;步骤2,主题建模:采用LDA主题建模方法,给定一个评论列表R={r1,r2,…,rn},获得相应的词汇D={ω1,ω2,...,ωd},话题β={β1,β2,...,βk};步骤3,基于遗传算法的主题标注:设计适合该主题标注场景的染色体结构、适应度参数以及遗传算子。本发明的有益效果是:利于开发者和用户了解应用评论。
-
公开(公告)号:CN114429109A
公开(公告)日:2022-05-03
申请号:CN202210354868.6
申请日:2022-04-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F40/169 , G06K9/62
Abstract: 本发明提供了一种基于评论有用性的自动用户评论摘要的方法,包括依次执行以下步骤:步骤1:预处理;对评论文本进行词形还原;步骤2:评论有用性预测;提取可能会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性;步骤3:基于二元词语的情感‑话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感;步骤4:多要素话题和评论排序。本发明的有益效果是:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
-
公开(公告)号:CN114429109B
公开(公告)日:2022-07-19
申请号:CN202210354868.6
申请日:2022-04-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F40/169 , G06K9/62
Abstract: 本发明提供了一种基于评论有用性的自动用户评论摘要的方法,包括依次执行以下步骤:步骤1:预处理;对评论文本进行词形还原;步骤2:评论有用性预测;提取可能会影响评论有用性的特征,用所提取的特征来刻画评论,并使用随机森林分类模型预测评论的有用性;步骤3:基于二元词语的情感‑话题建模;向传统二元词语话题模型中加入情感变量,为评论同时建模话题和情感;步骤4:多要素话题和评论排序。本发明的有益效果是:1.本发明的方法可有效利用一些忽略的重要的评论特征辅助评论有用性预测、辅助后续的排序摘要任务;2.本发明的方法的话题的排序可以节约开发者的时间。
-
公开(公告)号:CN112988981B
公开(公告)日:2021-10-15
申请号:CN202110525248.X
申请日:2021-05-14
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种基于遗传算法的自动标注方法,包括依次执行以下步骤:步骤1,预处理:获取评论,从评论中删除长度小于两个单词的评论和所有非字母数字字符,然后取小写字母,在标记化后剔除存在于NLTK语料库中的终止词,接下来,将单词简化为词根形式;步骤2,主题建模:采用LDA主题建模方法,给定一个评论列表R={r1,r2,…,rn},获得相应的词汇D={ω1,ω2,...,ωd},话题β={β1,β2,...,βk};步骤3,基于遗传算法的主题标注:设计适合该主题标注场景的染色体结构、适应度参数以及遗传算子。本发明的有益效果是:利于开发者和用户了解应用评论。
-
-
-