-
公开(公告)号:CN116049387A
公开(公告)日:2023-05-02
申请号:CN202111257904.9
申请日:2021-10-27
Applicant: 广州市刑事科学技术研究所 , 厦门市美亚柏科信息股份有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/216 , G06F40/211 , G06F18/241 , G06N3/042 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提出了一种基于图卷积的短文本分类方法、装置、设备及存储介质,该方法包括:对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于上述结果构建多特征融合图的矩阵;使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;构建位置嵌入向量,后与单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,进行分类。本发明提出了融合词性、依存性、文档信息的文本多特征图表示方法,提升分类的准确率,克服了背景技术中的缺陷。
-
公开(公告)号:CN113919358A
公开(公告)日:2022-01-11
申请号:CN202111294527.6
申请日:2021-11-03
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明给出了一种基于主动学习的命名实体识别方法和系统,包括获取待训练文本数据,对部分待训练文本数据进行标注;对每条文本进行预训练获得字符向量矩阵,将其中的字符向量输入双向LSTM进行训练,获得输入文本的语义信息特征;利用自注意力机制获取每条文本中字之间的相互关系,并将结果输出至条件随机场,计算输入字对应的最优标签序列,以最大概率的序列作为字的最终实体类别标签,获取标注文本数据的训练模型;利用训练模型对未标注文本数据进行预测,确定该条文本的置信度值,响应于一文本的置信度大于预设阈值,将该条文本作为待标注数据集进行标注,并循环上述步骤。本发明可实现更准确高效地标记数据以达到应用需求性能。
-
公开(公告)号:CN112052687B
公开(公告)日:2023-11-21
申请号:CN202010912076.7
申请日:2020-09-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/279 , G06F16/332 , G06F16/33 , G06F18/214
-
公开(公告)号:CN111783474B
公开(公告)日:2023-04-07
申请号:CN202010684529.5
申请日:2020-07-16
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/211 , G06F16/35 , G06N3/08 , G06Q50/00
Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。
-
公开(公告)号:CN112052687A
公开(公告)日:2020-12-08
申请号:CN202010912076.7
申请日:2020-09-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/279 , G06F16/332 , G06F16/33 , G06K9/62
Abstract: 本发明提出了一种基于深度可分离卷积的语义特征处理方法、装置及介质,该方法包括:获取聊天数据使用词向量模型进行分词得到分词集合,将所述分词集合预处理为片段词嵌入矩阵;使用深度可分离卷积的不同高度的卷积核对片段词嵌入矩阵进行特征提取得到二维特征张量后拼接得到三维特征张量;使用一维最大池化操作提取出每个卷积核输出的最大值,将所有最大值拼接得到聊天文本的语义特征向量。本发明首先将聊天文本分割成子片段,片段中的每一句聊天作为词嵌入矩阵的每个通道维度,并设计了多尺度深度可分离一维卷积核获取子片段的语义特征,再提取每个卷积核中的最显著特征拼接成为该子片段的语义特征向量,其提取语义特征连续,更为符合聊天数据的上下文特征。
-
公开(公告)号:CN111783474A
公开(公告)日:2020-10-16
申请号:CN202010684529.5
申请日:2020-07-16
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/30 , G06F40/211 , G06F16/35 , G06N3/08 , G06Q50/00
Abstract: 本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。
-
公开(公告)号:CN113411222B
公开(公告)日:2021-11-19
申请号:CN202110878735.4
申请日:2021-08-02
Applicant: 广州市刑事科学技术研究所 , 广州市高奈特网络科技有限公司
Abstract: 本发明公开了存储器、APP服务器主机地址分析方法、装置和设备,其中所述方法,包括步骤:在安卓系统的环境下,捕获待分析APP的运行过程的网络数据包;从网络数据包中过滤出待分析APP的预设运行阶段的分段网络数据包;通过获取预设运行阶段的分段网络数据包中的远端主机HOST并去重,分别获取各预设运行阶段的初选远端主机HOST;通过对各预设运行阶段的初选远端主机HOST进行交集运算,以及,使用公用服务器字典从初选远端主机HOST剔除公用服务器主机地址,获取待分析APP的服务器主机地址。本发明能够有效的减少人工操作和人工分析,进而也就有效的减少了人工工作量、提高了工作效率。
-
公开(公告)号:CN115794749A
公开(公告)日:2023-03-14
申请号:CN202310044853.4
申请日:2023-01-30
Applicant: 广州市刑事科学技术研究所 , 广州市公安局黄埔区分局 , 上海歆仁信息科技有限公司
Inventor: 韩冰 , 彭风华 , 侯旭东 , 莫传莹 , 赵伟 , 寇睿 , 李文瑞 , 欧荣安 , 李庭轩 , 程瑞琪 , 范晨龙 , 姜富学 , 黄文正 , 王江涛 , 徐新忠 , 杨卓远
IPC: G06F16/16 , G06F16/172 , G06F16/174 , G06F16/61
Abstract: 本发明公开了提取移动终端数据的方法、设备和存储介质,所述方法包括:获取所述目标目录中子目录的目录层级;当所述目录层级数大于预设层数时,在遍历缓存进行到预设进度后执行数据提取命令;当某一子目录中文件的碎片文件的数量和比例大于预设阈值时,在执行数据提取命令前将所述子目录中的所有文件进行打包。本发明根据现有技术中数据提取的效率低下的产生的多方面原因,采用了针对性的技术手段,包括:让遍历时间和数据提取时间相叠加,以充分利用遍历过程的时间;在进行数据提取前对数量巨大且碎片化严重的文件进行打包来减少握手次数,以提高传输效率。
-
公开(公告)号:CN113411222A
公开(公告)日:2021-09-17
申请号:CN202110878735.4
申请日:2021-08-02
Applicant: 广州市刑事科学技术研究所 , 广州市高奈特网络科技有限公司
Abstract: 本发明公开了存储器、APP服务器主机地址分析方法、装置和设备,其中所述方法,包括步骤:在安卓系统的环境下,捕获待分析APP的运行过程的网络数据包;从网络数据包中过滤出待分析APP的预设运行阶段的分段网络数据包;通过获取预设运行阶段的分段网络数据包中的远端主机HOST并去重,分别获取各预设运行阶段的初选远端主机HOST;通过对各预设运行阶段的初选远端主机HOST进行交集运算,以及,使用公用服务器字典从初选远端主机HOST剔除公用服务器主机地址,获取待分析APP的服务器主机地址。本发明能够有效的减少人工操作和人工分析,进而也就有效的减少了人工工作量、提高了工作效率。
-
公开(公告)号:CN115238688A
公开(公告)日:2022-10-25
申请号:CN202210973829.4
申请日:2022-08-15
Applicant: 广州市刑事科学技术研究所 , 广州市公安局黄埔区分局 , 上海歆仁信息科技有限公司
IPC: G06F40/289 , G06F16/22 , G06F16/31 , G06F16/36 , G06F40/30
Abstract: 本发明公开了电子信息数据关联关系分析方法、装置、设备和存储介质,所述方法包括,构建NLP分词模型和NLP语义模型时,包括步骤:对已有的各分析对象的不同类型的电子信息数据,进行逆向解析和/或数据转换,生成对应的明文文本数据;将明文文本数据处理为结构化数据或半结构化数据,并根据预设的多层级的数据分类体系结构存储;根据明文文本数据中的特定数据生成关键信息并设定对应的标注信息;构建包括多个资料库的资料库集;以资料库集中的关键信息和明文文本数据为训练语料进行NLP分词模型的训练和NLP语义模型的训练。本发明可以提高针对风控或内审等场景下电子信息数据的关联、分析和研判的效率和分析结果的准确性和有效性。
-
-
-
-
-
-
-
-
-