一种新词发现方法及装置

    公开(公告)号:CN106445915B

    公开(公告)日:2020-04-28

    申请号:CN201610826780.4

    申请日:2016-09-14

    Abstract: 本发明提供了一种成词概率的计算方法、新词发现方法及装置,所述计算方法包括:获取文本数据;对所述文本数据进行分词,获得候选词;获取所述候选词的词向量;根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选词未出现在词典中,将所述候选词标记为新词。可见,在本发明实施例中,无需人工总结规则,从而减少工作量,而且最终计算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

    一种自动构建模板库的方法及系统

    公开(公告)号:CN104991955B

    公开(公告)日:2018-06-12

    申请号:CN201510427822.2

    申请日:2015-07-17

    Abstract: 本发明公开了一种自动构建模板库的方法及系统,包括:获取大量请求语料;提取所述请求语料的语义信息;根据所述语义信息对所述请求语料进行抽象,得到对应所述请求语料的初级模板,并归入初级模板库;根据所述初级模板库中模板的语义信息,对所述初级模板库中的初级模板进行聚类,根据聚类结果生成高级模板库。由于根据语义信息对请求语料进行抽象得到初级模板库,并对初级模板库进行聚类得到高级模板库,使得模板构建的过程可以以统一的判断标准自动构建模板库,能有效减少冗余模板,进而提高模板库的查找效率。

Patent Agency Ranking