一种弹幕关键词提取方法、装置、设备及介质

    公开(公告)号:CN112989802B

    公开(公告)日:2023-06-20

    申请号:CN202110115490.X

    申请日:2021-01-28

    Abstract: 本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。

    基于语义联合的答案选取方法及系统

    公开(公告)号:CN113342950B

    公开(公告)日:2023-04-21

    申请号:CN202110625585.6

    申请日:2021-06-04

    Abstract: 本发明提供一种基于语义联合的答案选取方法,文本预处理与输入层对原始数据预处理,删除无正确答案问题,将问题与答案语义联合拼成文段序列,使用特殊标志分割将问题和答案句子区分,得到格式数组;语义编码层将格式数组输入,用自注意力机制使单词成为隐藏文段中其他单词信息的语义向量,并输入向前传播层,得到文段的向量表示;特征提取层获取向量表示作为问题和答案的语义信息,用线性函数将高维向量转化为低维;并用进行特征提取,获得语义语法信息;语义关联层使用分类,对语义语法信息的相关联程度进行评分,得到二维向量,选取后一维度的数值,得到关联度。本发明的方法在问答数据集上表现出优越的性能,提取答案与问题关键信息能力显著。

    一种基于知识图谱的web日志异常行为识别方法

    公开(公告)号:CN114328962A

    公开(公告)日:2022-04-12

    申请号:CN202111637283.7

    申请日:2021-12-29

    Abstract: 为提高对网络DNS服务器日志分析的能力,本发明综合多种技术,创新性的提出了构建面向域名解析系统的知识图谱。首先,应用域名解析、权威域名服务器、别名解析、自治系统等原理设计了基于aiohttp和dig技术相结合的自动化爬虫模型,构建了相应的领域知识库;其次基于该知识库设计了面向域名解析系统的知识图谱原型并完成了知识图谱的构建,其节点规模达近500万;最后,基于该知识图谱辅助完成web日志异常行为识别模型的构建。通过实验和实际应用反馈,该知识图谱在网络服务器日志异常行为检测与分析的过程中起到了关键作用,提高了web日志异常行为模型的识别率。

    融合语义与问题关键信息的多阶段注意力答案选取方法

    公开(公告)号:CN111597316A

    公开(公告)日:2020-08-28

    申请号:CN202010409957.7

    申请日:2020-05-15

    Abstract: 本发明公开了融合语义与问题关键信息的多阶段注意力答案选取方法,该方法包括两个阶段,第一阶段为:获取候选答案LSTM双向输出的语义表示,利用问题的关键信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算,筛选出相关度最高的候选答案;第二阶段为:获取筛选出的候选答案LSTM双向输出的语义表示,利用问题的语义信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示再次与问题的语义表示进行相关度计算,从候选答案中选取最佳答案。本发明可加强模型对候选答案关键信息的捕获能力,从而提升答案选取的准确率。

    一种基于情感计算与多头注意力机制的负面新闻识别方法

    公开(公告)号:CN110990564A

    公开(公告)日:2020-04-10

    申请号:CN201911133898.9

    申请日:2019-11-19

    Abstract: 本发明公开了一种基于情感计算与多头注意力机制的负面新闻识别方法,涉及网络舆情监测技术领域,解决的技术问题是如何解决客观性负面新闻难以识别的问题,包括如下具体步骤:(1)对网络新闻文本数据进行采集和预处理;(2)建立并扩充负向情感种子词库并进行感倾向度计算;(3)进行向量化表示,确定判别模型的输入;(4)建立负面新闻判别模型;(5)进行负面新闻识别。本发明有效地克服了对负面新闻难以识别的问题,在负面新闻文本的识别正确率及有效性上都取得了良好的效果。

    一种多特征融合的微博用户权威度评价方法

    公开(公告)号:CN107169873A

    公开(公告)日:2017-09-15

    申请号:CN201710455299.3

    申请日:2017-06-16

    CPC classification number: G06K9/629 G06Q50/01

    Abstract: 本发明公开了一种多特征融合的微博用户权威度评价方法,该方法在新浪微博的用户信息体系的基础上,总结出了用户基本信息完整度、用户传播影响力、用户活跃度以及用户平台指数4项影响用户权威度的特征,并分别给出了提取与计算方法。在用户信息传播影响力的计算中,提出了一种基于PageRank算法改进的UserRank模型,并通过实验验证了其相对于PageRank算法更加有效。最后,基于层次分析法确定了4项用户特征的权值,构建了多特征融合的微博用户权威度评价模型并进行了相关实验。实验结果表明,本发明提出的方法计算的微博用户权威度比较合理,为用户权威度的定量评价提供了一种可行的解决方案。

    一种多模态动态残差中文文本拼写纠错方法及系统

    公开(公告)号:CN119721012A

    公开(公告)日:2025-03-28

    申请号:CN202411847836.5

    申请日:2024-12-16

    Abstract: 本发明公开了一种多模态动态残差中文文本拼写纠错方法及系统,该方法包括:S100:对句子进行错误定位和掩码处理,得到错误汉字、错误汉字的嵌入特征和句子的掩码向量,以及将句子的原始嵌入特征作为初始残差嵌入矩阵;S200:提取错误汉字的音频特征和字形特征并进行基于注意力机制的融合,得到错误汉字的多模态表征特征,利用多模态表征特征替换初始残差嵌入矩阵中错误汉字的残差嵌入特征;S300:使用句子的掩码向量进行编码,编码结果结合当前的残差嵌入特征进行分类,并输出纠正后的句子。本申请使用错误汉字的多模态信息修正传统残差结构,通过增强模型对错误汉字的干预,来降低模型被错误信息误导的风险,从而提高纠错精度。

    一种领域评审专家行为轨迹的知识图谱构建方法

    公开(公告)号:CN114297404B

    公开(公告)日:2024-10-01

    申请号:CN202111637269.7

    申请日:2021-12-29

    Abstract: 本发明提供一种领域评审专家行为轨迹的知识图谱构建方法,采用自顶向下与自底向上相结合的方法完成构建。通过爬虫进行数据采集并预处理;定义领域本体,建立模式结构;利用自然语言处理技术进行知识抽取;针对同名专家的多类属性特征,提出基于地点一致性与时间重合性相结合的行为轨迹相似度匹配算法,结合编辑距离和余弦相似度确定消歧专家,实现知识融合;最后将知识存储在图数据库neo4j中,查找专家间建立的直接关系路径和间接关系路径,完成亲密度计算。本发明的方法同名专家消歧的F1值为93%,相比现有技术提高16%,解决了知识图谱中实体歧义问题。该知识图谱可有效表示专家行为轨迹及社会关系等,计算专家亲密度,为评审专家的遴选提供知识基础。

    一种基于知识增强的生成式摘要方法

    公开(公告)号:CN118332098A

    公开(公告)日:2024-07-12

    申请号:CN202410294986.1

    申请日:2024-03-14

    Abstract: 本发明涉及文本生成技术领域,具体公开了一种基于知识增强的生成式摘要方法,用以解决缺乏语义一致性,造成了事实性错误的问题。该方法通过从原始文本中抽取开放域三元组作为事实知识,设计关注语义偏差的损失函数,引导模型在解码模块关注事实知识的语义表征,进而生成与原文语义一致的摘要。在LCSTS数据集上进行了充分的实验,实验结果表明论文提出的模型在ROUGE和BLEU评价指标上均有显著的提升。

    一种面向网络社交媒体的语言暴力倾向性检测方法

    公开(公告)号:CN117763143A

    公开(公告)日:2024-03-26

    申请号:CN202311482270.6

    申请日:2023-11-08

    Abstract: 本发明公开了一种面向网络社交媒体的语言暴力倾向性检测方法,涉及文本识别技术领域,包括一种基于RoBERTa‑WWM‑BiGRU的语言暴力倾向性文本识别方法,包括建立语言暴力倾向性识别模型,所述语言暴力倾向性识别模型包括输入层、RoBERTa‑WWM编码层、Bi‑GRU编码层、线性层、Sigmoid解码层;建立BullyDatasetNew和ViolenceDataSet;利用深度学习方式对模型参数进行调优;选用召回率、精确率、F1值作为模型准确性的评价指标,最终实现语言暴力检测,实验结果表明,本模型在BullyDatasetNew公开数据集上的F1值为97.93%,与ERNIE相比提升了0.6%;并在自建的开源数据集ViolenceDataSet上,F1值为90.58%,与ERNIE相比提升了3.59%。

Patent Agency Ranking