-
公开(公告)号:CN114461953A
公开(公告)日:2022-05-10
申请号:CN202011243214.3
申请日:2020-11-09
Applicant: 北京中科闻歌科技股份有限公司 , 国科智安(北京)科技有限公司 , 深圳中科闻歌科技有限公司
IPC: G06F16/958 , G06F16/955
Abstract: 本发明实施例涉及一种网站监管方法、装置、电子设备及存储介质,包括:从目标网站的网页源码中提取重定向统一资源定位符URL;获取所述重定向URL所指向的网页;将所述重定向URL进行向量化表示得到第一向量,以及将所述网页进行向量化表示得到第二向量;根据所述第一向量和所述第二向量确定所述目标网站是否为违法违规网站。由此,可以实现在网站内嵌的情况下也能够有效地识别出违法违规网站,提升了违法违规网站识别的准确率。
-
公开(公告)号:CN114218381A
公开(公告)日:2022-03-22
申请号:CN202111493451.X
申请日:2021-12-08
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种立场识别方法、装置、设备及介质。其中,立场识别方法包括:获取待识别的目标文本;对目标文本进行语义识别处理,得到目标文本的整体语义向量;基于预先定义的话题分类模板,对目标文本进行话题识别处理,得到目标文本的话题表示向量;基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。根据本公开实施例,能够准确地识别出目标文本所涉及的话题表示向量,从而可以结合文本语义与文本话题对目标文本进行更准确的立场识别。
-
公开(公告)号:CN113505221A
公开(公告)日:2021-10-15
申请号:CN202010214386.1
申请日:2020-03-24
Applicant: 国家计算机网络与信息安全管理中心 , 北京中科闻歌科技股份有限公司 , 北京中科闻歌智安科技有限公司
Abstract: 本发明公开了一种企业虚假宣传风险识别方法、设备和存储介质。该方法包括:在目标企业对应的多个企业舆情文本中,提取疑似风险文本;在每个疑似风险文本中提取对应种类的风险特征,形成每个疑似风险文本对应的风险特征向量;将多个疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型,使风险识别模型对每个疑似风险文本进行识别,并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本;根据确定出的所有风险文本的信息,确定目标企业对应的虚假宣传风险强度值;如果虚假宣传风险强度值大于预设的风险阈值,则确定目标企业存在虚假宣传风险。本发明可以避免人工匹配规则的局限性,提升了虚假宣传风险识别的准确性。
-
公开(公告)号:CN113496118A
公开(公告)日:2021-10-12
申请号:CN202010266045.9
申请日:2020-04-07
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/242 , G06F40/279 , G06N20/10
Abstract: 本发明公开了一种新闻主体识别方法、设备和计算机可读存储介质。该方法包括:获取待识别新闻文本,并对新闻文本进行预处理;利用预设的分词词典,对预处理后的新闻文本执行带词性标注的分词处理,得到多个被标注词性的分词;在词性被标注为主体的分词中查询预设的目标主体,并在新闻文本中提取目标主体对应的多种主体特征;将目标主体对应的多种主体特征输入预先训练的主体识别模型中,获取主体识别模型输出的识别结果。在本发明中,将目标主体对应的多种主体特征作为主体识别模型的输入,使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体,弥补了新闻主体识别的技术空白。
-
公开(公告)号:CN111026866B
公开(公告)日:2020-10-23
申请号:CN201911019149.3
申请日:2019-10-24
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/35 , G06F40/289
Abstract: 本发明公开了一种面向领域的文本信息抽取聚类方法、设备和存储介质。该方法包括:获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;将所述文本信息集合输入预先训练的抽取聚类模型;通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。本发明将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。
-
公开(公告)号:CN113139116B
公开(公告)日:2024-03-01
申请号:CN202010060445.4
申请日:2020-01-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F16/28
Abstract: 本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观
-
公开(公告)号:CN113450116A
公开(公告)日:2021-09-28
申请号:CN202010214388.0
申请日:2020-03-24
Applicant: 国家计算机网络与信息安全管理中心 , 北京中科闻歌科技股份有限公司 , 北京中科闻歌智安科技有限公司
Abstract: 本申请涉及一种交易风险分析方法,包括:获取待分析数据,待分析数据包括:交易数据以及舆情数据;对交易数据进行定量分析得到第一数据特征,对舆情数据进行定量分析得到第二数据特征;对第一数据特征进行判别确定交易数据的第一风险类型,对第二数据特征进行判别确定舆情数据的第二风险类型,对第一风险类型以及第二风险类型分别进行向量化,得到第一特征向量和第二特征向量;将第一特征向量和第二特征向量输入预先训练的预警模型,由预警模型根据第一特征向量和第二特征向量进行计算得到风险指数;根据风险指数确定待分析数据的风险分析结果。本方案采用机器学习的方法对交易风险进行分级预警,从而大大提高交易风险预警的准确性和有效性。
-
公开(公告)号:CN109815296B
公开(公告)日:2020-12-22
申请号:CN201811654206.0
申请日:2018-12-29
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本发明实施例涉及一种公证文档的人物知识库构建方法、装置及存储介质,所述方法包括:接收输入的公证文档数据;从所述公证文档数据中提取人名信息;从所述公证文档数据中提取与所述人名信息对应的属性信息;根据所述人名信息和所述属性信息更新数据库,当后续需要使用有关该人物的公证文档数据时,通过数据库调取,即可获取该人物的属性信息,节省人工查询的时间,提升办事效率。
-
公开(公告)号:CN111026866A
公开(公告)日:2020-04-17
申请号:CN201911019149.3
申请日:2019-10-24
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/35 , G06F40/289
Abstract: 本发明公开了一种面向领域的文本信息抽取聚类方法、设备和存储介质。该方法包括:获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;将所述文本信息集合输入预先训练的抽取聚类模型;通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。本发明将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。
-
公开(公告)号:CN109815395A
公开(公告)日:2019-05-28
申请号:CN201811608345.X
申请日:2018-12-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F16/957
Abstract: 本发明实施例涉及一种网页垃圾信息过滤方法、装置及存储介质,所述方法包括:按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;对多个所述目标数据进行预处理;将经预处理后的多个目标数据进行向量化;确定经过向量化处理后的多个目标数据对应的多个相似度值;基于多个所述相似度值确定所述原始文本中的异常文本,够准确的提高内容识别系统的准确性和鲁棒性。
-
-
-
-
-
-
-
-
-