-
-
公开(公告)号:CN107688630B
公开(公告)日:2020-05-22
申请号:CN201710719716.0
申请日:2017-08-21
Applicant: 北京工业大学
Abstract: 本发明公开一种基于语义的弱监督微博多情感词典扩充方法,包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。本发明方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。
-
公开(公告)号:CN108319584A
公开(公告)日:2018-07-24
申请号:CN201810058993.6
申请日:2018-01-22
Applicant: 北京工业大学
IPC: G06F17/27
CPC classification number: G06F17/277
Abstract: 本发明公开一种基于改进的FP-Growth算法的微博类短文本的新词发现方法,包括:获取文本语料,利用jieba进行分词、词性标注等预处理;通过优化的FP-Growth算法获得频繁项集词集,并对每个频繁项有序化;利用N-grams模型获取重复串,并与频繁项集取交集;通过词性过滤,过滤掉一些在构词结构上不常用的词性;利用改进的互信息,滑动迭代计算互信息来过滤新词;利用词性组合规则库再进行一次过滤;验证该方法获取新词的有效性。
-
公开(公告)号:CN107102983B
公开(公告)日:2020-12-04
申请号:CN201710259663.9
申请日:2017-04-20
Applicant: 北京工业大学
IPC: G06F40/216 , G06F40/289 , G06F40/30 , G06F40/247
Abstract: 本发明公开一种基于网络知识源的中文概念的词向量表示方法,首先对获取的百科知识源进行预处理得到知识源G,其次根据G构建语义特征词典;最后,根据语义特征词典构建概念的词向量表示。采用本发明的技术方案,有效降低了一词多义和同义词问题对概念相似性度量的影响。
-
公开(公告)号:CN107688630A
公开(公告)日:2018-02-13
申请号:CN201710719716.0
申请日:2017-08-21
Applicant: 北京工业大学
Abstract: 本发明公开一种基于语义的弱监督微博多情感词典扩充方法,包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。本发明方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。
-
-
-
-