一种网页内容的多维度标注方法及装置

    公开(公告)号:CN109359301A

    公开(公告)日:2019-02-19

    申请号:CN201811219240.5

    申请日:2018-10-19

    Abstract: 本发明公开了一种网页内容的多维度标注方法及装置,该方法包括:将待标注的网页内容文本转换为词向量;根据词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;对待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建第二类维度规则知识库;将第二类维度实体词与第二类维度规则知识库进行匹配,得到第二类维度标注结果。本发明从网页的内容出发,利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注,解决了传统基于词频统计分类方法分类准确率低的问题;利用命名实体识别和规则知识库对第二类维度进行标注,丰富了网页的标注内容,提升了用户体验。

    一种微博话题实时监测方法与装置

    公开(公告)号:CN107515889A

    公开(公告)日:2017-12-26

    申请号:CN201710531249.9

    申请日:2017-07-03

    CPC classification number: G06F17/30867 H04L51/16 H04L51/32

    Abstract: 本发明公开了一种微博话题实时监测方法与系统。该方法包括:获取预定时间段内预定话题对应的全部微博数据;统计全部微博数据中预定特征信息的数量;确定预定特征信息的数量在预定特征信息对应的预定高斯分布模型中所处的数量区间范围;根据预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定预定话题是否异常。本发明通过确定被监测话题在预定时间段内的预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围来确定被监测话题是否异常,考虑到用户使用微博的时间习惯以及历史同期数据分布情况,排除了周期性活动的干扰,确保异常判断结果的准确性和可靠性。

Patent Agency Ranking