数据挖掘的方法和装置
    2.
    发明授权

    公开(公告)号:CN105653538B

    公开(公告)日:2019-12-20

    申请号:CN201410642239.9

    申请日:2014-11-13

    Abstract: 一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。上述方法可挖掘出准确的用户行为频率提升因素。此外,还提供一种数据挖掘的装置。

    结合用户情感表达方式的中文情感新词识别方法和系统

    公开(公告)号:CN105786991A

    公开(公告)日:2016-07-20

    申请号:CN201610089962.8

    申请日:2016-02-18

    CPC classification number: G06F17/30731 G06F17/2715

    Abstract: 本发明公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。通过本发明实施例解决了如何提高情感新词识别的精度和灵活度的技术问题。

    面向大规模分类体系的短文本标签方法、系统、装置

    公开(公告)号:CN110059181B

    公开(公告)日:2021-06-25

    申请号:CN201910202727.0

    申请日:2019-03-18

    Abstract: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。

    结合写作特征和序列特征的中文情感新词识别方法和系统

    公开(公告)号:CN105740236B

    公开(公告)日:2018-09-07

    申请号:CN201610066957.5

    申请日:2016-01-29

    Abstract: 本发明公开了一种结合写作特征和序列特征的中文情感新词识别方法和系统。该方法对于输入文本子句,基于情感词的作者写作特征和情感词的序列特征将文本子句表示为各种特征(如:字、词性等)的序列。然后,针对特征表示的文本子句,利用线性链条件随机场模型输出与文本子句对应的情感词标签序列。其中,线性链条件随机场模型基于包含传统情感词的文本训练得到。接着,基于文本子句中字的序列和情感词标签序列,利用有限状态自动机识别文本子句中的情感词,形成情感词集合。最后,利用中文旧词词库对情感词集合进行过滤,将未出现在中文旧词词库中的情感词作为中文情感新词。通过本发明实施例解决了如何提高情感新词识别精度和召回率的技术问题。

    一种结合推理和半自动学习的行为知识提取方法和装置

    公开(公告)号:CN103455638A

    公开(公告)日:2013-12-18

    申请号:CN201310452292.8

    申请日:2013-09-26

    Abstract: 本发明提出一种结合推理和半自动学习的行为知识提取方法和装置。本发明针对海量的开源文本,使用少量行为知识提取模板并利用行为知识间的语义关联,增量地从文本中获取行为前提、行为结果和行为间的时序关系三种主要的行为知识。本发明基于Bootstrapping分别获取上述三种行为知识,并基于行为知识间的语义关联,在Bootstrapping步骤中结合知识推理进行行为知识提取。本发明能够有效提高了行为知识提取的效率和质量,可在不同应用领域支持面向海量文本的行为自动建模和分析。

    一种预测行为规划的期望效用的方法

    公开(公告)号:CN102867224A

    公开(公告)日:2013-01-09

    申请号:CN201210322641.X

    申请日:2012-09-03

    Abstract: 本发明公开了一种预测行为规划的期望效用的方法,所述规划是指为达到一个目标的行为的集合,该方法根据所观察到的证据获得行为规划的期望效用值,所述方法包括:步骤S1.根据证据计算状态出现的概率,所述证据指的是对行为和状态的观察结果,所述状态指的是行为的前提和结果的出现情况;步骤S2.根据状态出现的概率计算行为发生的概率;步骤S3.根据行为出现的概率计算行为结果出现的概率和行为的期望效用值;步骤S4.根据行为结果出现的概率和行为的期望效用值计算行为规划结果本。出现的概率和行为规划的期望效用值。本发明能够用于分析行为意图。

    融合变体词识别的短文本审核方法及装置

    公开(公告)号:CN112287684B

    公开(公告)日:2024-06-11

    申请号:CN202011192254.X

    申请日:2020-10-30

    Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。

    融合变体词识别的短文本审核方法及装置

    公开(公告)号:CN112287684A

    公开(公告)日:2021-01-29

    申请号:CN202011192254.X

    申请日:2020-10-30

    Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。

Patent Agency Ranking