一种抽取式与生成式相结合的公文摘要生成模型

    公开(公告)号:CN110119444A

    公开(公告)日:2019-08-13

    申请号:CN201910330573.3

    申请日:2019-04-23

    Inventor: 宋荣伟 王进 王鹏

    Abstract: 本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,通过将抽取式摘要和生成式摘要相结合,对公文数据进行筛选与预处理,同时增强了抽取式摘要生成的弱标签数据的语义含义,学习了一个公文文本摘要自动生成模型来实现公文摘要的自动生成,相对于传统的基于端到端并加入注意力机制的摘要生成方法,本方法解决了缺少训练数据的问题,并针对公文数据的特征进行了数据筛选与语义增强,从而能够更准确的表征公文文本的语义含义。

    一种衡量公文相似性的方法

    公开(公告)号:CN109582759B

    公开(公告)日:2021-10-22

    申请号:CN201811361247.0

    申请日:2018-11-15

    Abstract: 本发明提供了一种衡量公文相似性的方法,包括以下步骤:构建本体知识库‑B公文文本预处理‑计算四类信息的相似性‑计算公文剩余内容的相似性‑公文相似性。本发明获取的公文相似性,可被用于公文的检索,搜索,推荐,能提高公务员日常工作的便利,且利用了最新的本体知识库方法来计算公文相似性,相比传统经典算法,如doc2vec,LDA,计算精确度更高。

    基于深度森林的文本对象推荐方法

    公开(公告)号:CN111078834A

    公开(公告)日:2020-04-28

    申请号:CN201911231215.3

    申请日:2019-12-05

    Abstract: 本发明公开了一种基于深度森林的文本对象推荐方法,属于推荐技术领域。本发明针对现有的基于深度学习的推荐方法的推荐方案的不足,通过将梯度提升与深度森林结合,提出一种结合了梯度提升和深度森林的推荐模型,并将其用于推荐文本对象。即本发明将用户和文本对象的特征信息输入到所设置的推荐模型中,则会输出一个0-1的值,其代表了预测该用户会与该文本对象发生交互的可能性,即用户与文本对象的交互概率预测值。对每个用户,为其将未接触过的文本对象进行以交互概率预测值从大到小的排序,其中排名前K的文本对象将作为推荐列表推荐给该用户。

    一种电子公文实体抽取方法

    公开(公告)号:CN110297913A

    公开(公告)日:2019-10-01

    申请号:CN201910507540.1

    申请日:2019-06-12

    Abstract: 本发明提供了一种电子公文实体抽取方法,包括如下步骤:A.预处理;B.构造特征;C.训练实体抽取模型;D.获取语料;E.获取词向量;F.训练算法模型。本发明采用传统的序列标注算法与深度学习算法相结合,利用传统序列算法需要少语料标注的优点,采用半监督的方法扩充语料,解决深度学习算法需要人工标注大量语料的费时费力问题;在CRF模型中添加最大正向及逆向词典、句法和语义特征,充分考虑了实体词出现的前后边界词特性,让算法更具泛化能力;采用dilated CNN与BiLSTM-CRF相结合,dilated CNN将字符级向量与字符级位置特征作为外部特征,与词性向量一起拼接到词向量中,可以一定程度表达出更多的语义和上下相关信息。

    基于深度森林的文本对象推荐方法

    公开(公告)号:CN111078834B

    公开(公告)日:2021-10-26

    申请号:CN201911231215.3

    申请日:2019-12-05

    Abstract: 本发明公开了一种基于深度森林的文本对象推荐方法,属于推荐技术领域。本发明针对现有的基于深度学习的推荐方法的推荐方案的不足,通过将梯度提升与深度森林结合,提出一种结合了梯度提升和深度森林的推荐模型,并将其用于推荐文本对象。即本发明将用户和文本对象的特征信息输入到所设置的推荐模型中,则会输出一个0‑1的值,其代表了预测该用户会与该文本对象发生交互的可能性,即用户与文本对象的交互概率预测值。对每个用户,为其将未接触过的文本对象进行以交互概率预测值从大到小的排序,其中排名前K的文本对象将作为推荐列表推荐给该用户。

    一种基于事件驱动的公文数据采集和处理系统及其方法

    公开(公告)号:CN110147362A

    公开(公告)日:2019-08-20

    申请号:CN201910271964.2

    申请日:2019-04-04

    Abstract: 本发明公开了一种基于事件驱动的公文数据采集和处理系统及其方法,属于大数据技术领域,包括:数据采集服务模块,数据清洗服务模块,数据抽取计算服务模块,数据索引服务模块,日志模块;其采集和处理方法包括:分布式数据采集方式中的分布式爬虫抓取发布在网站上的公文数据,发送给数据采集服务模块处理,在通过数据抽取计算服务模块进行抽取计算,然后通过数据索引服务模块入库存放于数据库中,日志模块记录整个采集与处理过程。本发明采用分布式爬虫进行各个公文发布网站进行抓取,有效解决海量多源异构公文数据的采集和处理时效问题。

Patent Agency Ranking