一种中文微博评价对象的抽取方法

    公开(公告)号:CN104915443B

    公开(公告)日:2018-11-23

    申请号:CN201510366805.2

    申请日:2015-06-29

    Inventor: 张仰森 李景玉

    Abstract: 本发明提供一种中文微博评价对象的抽取方法,包括步骤:对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;构建中文微博的评价对象的候选库;以及利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。本发明的中文微博评价对象的抽取方法具有较高的准确率和较好的召回率。

    一种面向用户查询意图的汉语句子相似度分层计算方法及装置

    公开(公告)号:CN104133812B

    公开(公告)日:2017-03-08

    申请号:CN201410341855.0

    申请日:2014-07-17

    Inventor: 张仰森 李景玉

    Abstract: 本发明提供了一种面向用户查询意图的汉语句子相似度分层计算方法及装置,通过采用去除句末标点的编辑距离句子相似度算法对数据集进行相似度计算,确定一部分满足阈值的句子为相似句子,再采用基于关键词特征和语义特征的句子相似度算法,对数据集中的非相似句子进行相似度计算,从而再次确定一部分满足阈值的句子为相似句子,最后采用面向用户意图的句子相似度算法,对数据集中的非相似句子进行句子相似度计算,确定一部分满足阈值的句子为相似句子。至此,得到数据集中的所有相似句子。本发明计算简洁,效果良好,可以有效解决关键词差异大、长度长、句子结构复杂等问题。

    一种面向用户查询意图的汉语句子相似度分层计算方法及装置

    公开(公告)号:CN104133812A

    公开(公告)日:2014-11-05

    申请号:CN201410341855.0

    申请日:2014-07-17

    Inventor: 张仰森 李景玉

    Abstract: 本发明提供了一种面向用户查询意图的汉语句子相似度分层计算方法及装置,通过采用去除句末标点的编辑距离句子相似度算法对数据集进行相似度计算,确定一部分满足阈值的句子为相似句子,再采用基于关键词特征和语义特征的句子相似度算法,对数据集中的非相似句子进行相似度计算,从而再次确定一部分满足阈值的句子为相似句子,最后采用面向用户意图的句子相似度算法,对数据集中的非相似句子进行句子相似度计算,确定一部分满足阈值的句子为相似句子。至此,得到数据集中的所有相似句子。本发明计算简洁,效果良好,可以有效解决关键词差异大、长度长、句子结构复杂等问题。

Patent Agency Ranking