结合用户情感表达方式的中文情感新词识别方法和系统

    公开(公告)号:CN105786991A

    公开(公告)日:2016-07-20

    申请号:CN201610089962.8

    申请日:2016-02-18

    CPC classification number: G06F17/30731 G06F17/2715

    Abstract: 本发明公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。通过本发明实施例解决了如何提高情感新词识别的精度和灵活度的技术问题。

    融合变体词识别的短文本审核方法及装置

    公开(公告)号:CN112287684B

    公开(公告)日:2024-06-11

    申请号:CN202011192254.X

    申请日:2020-10-30

    Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。

    基于特征工程和表示学习的机器行为识别方法

    公开(公告)号:CN113608946B

    公开(公告)日:2023-09-12

    申请号:CN202110910834.6

    申请日:2021-08-10

    Abstract: 基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。

    一种多源数据映射关联细粒度不良信息检测方法

    公开(公告)号:CN116680419A

    公开(公告)日:2023-09-01

    申请号:CN202310955604.0

    申请日:2023-08-01

    Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。

    融合变体词识别的短文本审核方法及装置

    公开(公告)号:CN112287684A

    公开(公告)日:2021-01-29

    申请号:CN202011192254.X

    申请日:2020-10-30

    Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。

    基于言语行为理论的用户交互意图识别方法及系统

    公开(公告)号:CN107153672A

    公开(公告)日:2017-09-12

    申请号:CN201710171926.0

    申请日:2017-03-22

    Abstract: 本发明涉及一种基于言语行为理论的用户交互意图识别方法及系统,所述用户交互意图识别方法包括:基于外部知识源构建行为标记语词典;根据所述行为标记语词典,自动标注用户在社交媒体平台上输入的在线文本的意图;利用自动标注语料训练基于特征的分类器对所述在线文本的意图进行分类识别,确定用户的交互意图类别。本发明基于言语行为理论的用户交互意图识别方法通过基于外部知识源构建对应不同意图类别的行为标记语词典,并基于行为标记语词典自动标注扩充语料和基于特征分类识别,能够有效识别社交媒体中的用户交互意图,识别准确度高,可用于商务智能、社情舆情、决策评估等领域的意图分析与识别,应用范围广。

Patent Agency Ranking