-
公开(公告)号:CN110119444B
公开(公告)日:2023-06-30
申请号:CN201910330573.3
申请日:2019-04-23
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/34 , G06F40/205 , G06F40/242 , G06F40/284 , G06F40/30 , G06N3/0442 , G06N3/0455
Abstract: 本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,通过将抽取式摘要和生成式摘要相结合,对公文数据进行筛选与预处理,同时增强了抽取式摘要生成的弱标签数据的语义含义,学习了一个公文文本摘要自动生成模型来实现公文摘要的自动生成,相对于传统的基于端到端并加入注意力机制的摘要生成方法,本方法解决了缺少训练数据的问题,并针对公文数据的特征进行了数据筛选与语义增强,从而能够更准确的表征公文文本的语义含义。
-
公开(公告)号:CN109597895B
公开(公告)日:2021-10-22
申请号:CN201811332469.X
申请日:2018-11-09
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/36 , G06F16/335 , G06F16/35
Abstract: 本发明提供一种基于知识图谱的公文搜索方法,其步骤如下:收集数据‑公文语义刻画‑公文图谱刻画‑搜索‑展示。本发明能有效解决“一词多义”或“多词一义”的问题,且能及时更新公开发布的公文,覆盖绝大部分主要发布机构,将其应用于专用领域,搜索结构更精确,更合理。
-
公开(公告)号:CN112580331A
公开(公告)日:2021-03-30
申请号:CN202011469945.X
申请日:2020-12-15
Applicant: 国家工业信息安全发展研究中心 , 中电科大数据研究院有限公司 , 中译语通科技股份有限公司
IPC: G06F40/211 , G06F40/253 , G06F40/295 , G06F16/28 , G06F16/36 , G06N3/08
Abstract: 本发明实施例提供一种政策文本的知识图谱构建方法及系统。方法包括:获取待构建知识图谱的政策文本;基于模式匹配技术对政策文本进行处理,得到政策文本的框架信息;基于深度学习技术对政策文本进行处理,得到政策文本的属性信息;基于句法分析技术对政策文本中的每一单句进行处理,得到每一单句的实体关系信息;基于政策文本的框架信息、政策文本的属性信息以及政策文本中每一单句的实体关系信息,构建政策文本的知识图谱。本发明实施例提供的方法及系统,通过基于模式匹配的政策文本框架提取、基于神经网络的政策文本属性信息提取和基于句法分析的政策文本实体关系抽取,能够完成对政策文本的解析,从而构建得到政策文本对应的知识图谱。
-
公开(公告)号:CN110119444A
公开(公告)日:2019-08-13
申请号:CN201910330573.3
申请日:2019-04-23
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,通过将抽取式摘要和生成式摘要相结合,对公文数据进行筛选与预处理,同时增强了抽取式摘要生成的弱标签数据的语义含义,学习了一个公文文本摘要自动生成模型来实现公文摘要的自动生成,相对于传统的基于端到端并加入注意力机制的摘要生成方法,本方法解决了缺少训练数据的问题,并针对公文数据的特征进行了数据筛选与语义增强,从而能够更准确的表征公文文本的语义含义。
-
公开(公告)号:CN109582759B
公开(公告)日:2021-10-22
申请号:CN201811361247.0
申请日:2018-11-15
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种衡量公文相似性的方法,包括以下步骤:构建本体知识库‑B公文文本预处理‑计算四类信息的相似性‑计算公文剩余内容的相似性‑公文相似性。本发明获取的公文相似性,可被用于公文的检索,搜索,推荐,能提高公务员日常工作的便利,且利用了最新的本体知识库方法来计算公文相似性,相比传统经典算法,如doc2vec,LDA,计算精确度更高。
-
公开(公告)号:CN111078834A
公开(公告)日:2020-04-28
申请号:CN201911231215.3
申请日:2019-12-05
Applicant: 电子科技大学 , 中电科大数据研究院有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/284 , G06K9/62
Abstract: 本发明公开了一种基于深度森林的文本对象推荐方法,属于推荐技术领域。本发明针对现有的基于深度学习的推荐方法的推荐方案的不足,通过将梯度提升与深度森林结合,提出一种结合了梯度提升和深度森林的推荐模型,并将其用于推荐文本对象。即本发明将用户和文本对象的特征信息输入到所设置的推荐模型中,则会输出一个0-1的值,其代表了预测该用户会与该文本对象发生交互的可能性,即用户与文本对象的交互概率预测值。对每个用户,为其将未接触过的文本对象进行以交互概率预测值从大到小的排序,其中排名前K的文本对象将作为推荐列表推荐给该用户。
-
公开(公告)号:CN110297913A
公开(公告)日:2019-10-01
申请号:CN201910507540.1
申请日:2019-06-12
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种电子公文实体抽取方法,包括如下步骤:A.预处理;B.构造特征;C.训练实体抽取模型;D.获取语料;E.获取词向量;F.训练算法模型。本发明采用传统的序列标注算法与深度学习算法相结合,利用传统序列算法需要少语料标注的优点,采用半监督的方法扩充语料,解决深度学习算法需要人工标注大量语料的费时费力问题;在CRF模型中添加最大正向及逆向词典、句法和语义特征,充分考虑了实体词出现的前后边界词特性,让算法更具泛化能力;采用dilated CNN与BiLSTM-CRF相结合,dilated CNN将字符级向量与字符级位置特征作为外部特征,与词性向量一起拼接到词向量中,可以一定程度表达出更多的语义和上下相关信息。
-
公开(公告)号:CN111078834B
公开(公告)日:2021-10-26
申请号:CN201911231215.3
申请日:2019-12-05
Applicant: 电子科技大学 , 中电科大数据研究院有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/284 , G06K9/62
Abstract: 本发明公开了一种基于深度森林的文本对象推荐方法,属于推荐技术领域。本发明针对现有的基于深度学习的推荐方法的推荐方案的不足,通过将梯度提升与深度森林结合,提出一种结合了梯度提升和深度森林的推荐模型,并将其用于推荐文本对象。即本发明将用户和文本对象的特征信息输入到所设置的推荐模型中,则会输出一个0‑1的值,其代表了预测该用户会与该文本对象发生交互的可能性,即用户与文本对象的交互概率预测值。对每个用户,为其将未接触过的文本对象进行以交互概率预测值从大到小的排序,其中排名前K的文本对象将作为推荐列表推荐给该用户。
-
公开(公告)号:CN110147362A
公开(公告)日:2019-08-20
申请号:CN201910271964.2
申请日:2019-04-04
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/215 , G06F16/951 , G06F16/9535
Abstract: 本发明公开了一种基于事件驱动的公文数据采集和处理系统及其方法,属于大数据技术领域,包括:数据采集服务模块,数据清洗服务模块,数据抽取计算服务模块,数据索引服务模块,日志模块;其采集和处理方法包括:分布式数据采集方式中的分布式爬虫抓取发布在网站上的公文数据,发送给数据采集服务模块处理,在通过数据抽取计算服务模块进行抽取计算,然后通过数据索引服务模块入库存放于数据库中,日志模块记录整个采集与处理过程。本发明采用分布式爬虫进行各个公文发布网站进行抓取,有效解决海量多源异构公文数据的采集和处理时效问题。
-
公开(公告)号:CN109597895A
公开(公告)日:2019-04-09
申请号:CN201811332469.X
申请日:2018-11-09
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/36 , G06F16/335 , G06F16/35
Abstract: 本发明提供一种基于知识图谱的公文搜索方法,其步骤如下:收集数据-公文语义刻画-公文图谱刻画-搜索-展示。本发明能有效解决“一词多义”或“多词一义”的问题,且能及时更新公开发布的公文,覆盖绝大部分主要发布机构,将其应用于专用领域,搜索结构更精确,更合理。
-
-
-
-
-
-
-
-
-