基于言语行为理论的用户交互意图识别方法及系统

    公开(公告)号:CN107153672A

    公开(公告)日:2017-09-12

    申请号:CN201710171926.0

    申请日:2017-03-22

    Abstract: 本发明涉及一种基于言语行为理论的用户交互意图识别方法及系统,所述用户交互意图识别方法包括:基于外部知识源构建行为标记语词典;根据所述行为标记语词典,自动标注用户在社交媒体平台上输入的在线文本的意图;利用自动标注语料训练基于特征的分类器对所述在线文本的意图进行分类识别,确定用户的交互意图类别。本发明基于言语行为理论的用户交互意图识别方法通过基于外部知识源构建对应不同意图类别的行为标记语词典,并基于行为标记语词典自动标注扩充语料和基于特征分类识别,能够有效识别社交媒体中的用户交互意图,识别准确度高,可用于商务智能、社情舆情、决策评估等领域的意图分析与识别,应用范围广。

    面向大规模分类体系的短文本标签方法、系统、装置

    公开(公告)号:CN110059181B

    公开(公告)日:2021-06-25

    申请号:CN201910202727.0

    申请日:2019-03-18

    Abstract: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。

    结合写作特征和序列特征的中文情感新词识别方法和系统

    公开(公告)号:CN105740236B

    公开(公告)日:2018-09-07

    申请号:CN201610066957.5

    申请日:2016-01-29

    Abstract: 本发明公开了一种结合写作特征和序列特征的中文情感新词识别方法和系统。该方法对于输入文本子句,基于情感词的作者写作特征和情感词的序列特征将文本子句表示为各种特征(如:字、词性等)的序列。然后,针对特征表示的文本子句,利用线性链条件随机场模型输出与文本子句对应的情感词标签序列。其中,线性链条件随机场模型基于包含传统情感词的文本训练得到。接着,基于文本子句中字的序列和情感词标签序列,利用有限状态自动机识别文本子句中的情感词,形成情感词集合。最后,利用中文旧词词库对情感词集合进行过滤,将未出现在中文旧词词库中的情感词作为中文情感新词。通过本发明实施例解决了如何提高情感新词识别精度和召回率的技术问题。

    一种多源数据映射关联细粒度不良信息检测方法

    公开(公告)号:CN116680419B

    公开(公告)日:2023-12-26

    申请号:CN202310955604.0

    申请日:2023-08-01

    Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。

    一种特定场景语音内容识别优化方法

    公开(公告)号:CN117095673A

    公开(公告)日:2023-11-21

    申请号:CN202310830037.6

    申请日:2023-07-07

    Abstract: 本发明涉及语音识别领域,尤其为一种特定场景语音内容识别优化方法,包括如下步骤:包括如下步骤:S1:使用网络爬虫技术对网络中特定场景的语音进行爬取,获得初始语音数据;S2:提取初始语音数据并对初始语音数据进行数据预处理获得预处理数据;S3:通过卷积神经网络训练实用模型,对预处理数据进行语音识别并生成初始文本;S4:使用文本规范算法对初始文本进行文本润色保证输出最终文本的正确性。本发明通过对获取的语音进行预处理起到数据增强的作用保证了数据不失真,在获取到不失真的数据后对其进行特征提取确保了工作速度,对提取出的初始文本进行文本规范算法用常见的文本代替初始文本中出现的非人类语言,保证最后出现的文本不会出现错误。

Patent Agency Ranking