-
公开(公告)号:CN111783418B
公开(公告)日:2024-04-05
申请号:CN202010517766.2
申请日:2020-06-09
Applicant: 北京北大软件工程股份有限公司
IPC: G06F40/205 , G06F40/247 , G06F40/30
Abstract: 本发明涉及一种中文词义表示学习方法及装置,包括获取训练语料,生成全局上下文矩阵;对HowNet知识库进行解析,生成词义‑词相似度矩阵;根据所述全局上下文矩阵和词义‑词相似度矩阵,计算生成全局词义上下文向量;对所述全局词义上下文向量进行词义软消歧;采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。本发明通过提出的上下文软消歧机制,能够捕捉词的真正词义,提高深度学习模型在下游任务的效果。
-
公开(公告)号:CN110413954B
公开(公告)日:2023-08-04
申请号:CN201910686793.X
申请日:2019-07-29
Applicant: 北京北大软件工程股份有限公司
IPC: G06F40/106 , G06F40/186 , G06F3/12
Abstract: 本发明涉及一种制式文件打印预览方法、装置、设备和存储介质,该方法包括:获取格式优化规则、打印设置参数、表单模板数据和表单数据;装载并解析所述表单模板数据和表单数据,以确定生成所述制式文件的基础框架信息和版式调优过程的客体信息;根据所述格式优化规则、打印设置参数、基础框架信息和客体信息,基于已装载模板文件进行格式优化和调整,以生成页面形式的制式文件;将所述页面形式的制式文件转化为矢量图形式进行预览。实现了打印格式的智能优化,以及,在脱离打印设备情况下的制式文件预览生成。
-
公开(公告)号:CN110413954A
公开(公告)日:2019-11-05
申请号:CN201910686793.X
申请日:2019-07-29
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明涉及一种制式文件打印预览方法、装置、设备和存储介质,该方法包括:获取格式优化规则、打印设置参数、表单模板数据和表单数据;装载并解析所述表单模板数据和表单数据,以确定生成所述制式文件的基础框架信息和版式调优过程的客体信息;根据所述格式优化规则、打印设置参数、基础框架信息和客体信息,基于已装载模板文件进行格式优化和调整,以生成页面形式的制式文件;将所述页面形式的制式文件转化为矢量图形式进行预览。实现了打印格式的智能优化,以及,在脱离打印设备情况下的制式文件预览生成。
-
公开(公告)号:CN111797241B
公开(公告)日:2023-08-22
申请号:CN202010552821.1
申请日:2020-06-17
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明涉及一种基于强化学习的事件论元抽取方法及装置,包括构建事件检测模型,构建论元检测模型,构建实体选择模型,将实体选择模型选择的待检测实体输入到论元检测模型进行检测,采集预测结果的损失,根据预测结果的损失更新论元检测模型的参数;根据待检测实体更新实体选择模型;通过更新后的论元检测模型和更新后的实体选择模型对句子中的实体进行检测,并将检测结果引入更新后的论元检测模型和更新后的实体选择模型进行更新,循环直至遍历所有实体。本发明能够在检测当前论元的时候,引入已知论元的信息,通过引入已知论元信息和强化学习技术,能够有效利用论元间交互关系,提高论元检测效果。
-
公开(公告)号:CN111797225B
公开(公告)日:2023-08-22
申请号:CN202010550450.3
申请日:2020-06-16
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/34 , G06F40/284 , G06N3/0464 , G06N3/0442 , G06N3/049 , G06N3/08
Abstract: 本发明公开了一种文本摘要生成方法和装置,涉及自然语言文本的自动摘要技术;在获取输入文本之后,通过采用编码器对文本进行处理得到编码器的环境向量;然后再根据根据编码器的环境向量采用解码器解码生成摘要。在编码器对整个文本信息编码过程中加入具有感知关键词注意力机制网络的合并层,调整最终得到的编码器的环境向量。使编码器的环境向量既考虑文本的整体性,又关注文本中的关键词。最终通过解码器解码后得到的摘要更加精确,更加符合输入文本。
-
公开(公告)号:CN109614460B
公开(公告)日:2023-03-10
申请号:CN201811542431.5
申请日:2018-12-17
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/30 , G06F16/2458 , G06Q50/18
Abstract: 本申请涉及法条数据处理方法、装置、存储介质及电子设备,属于数据处理技术领域。本申请包括:获取数据库中的法条数据;通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂;根据确定出的所述句式复杂程度对法条进行拆分处理。通过本申请可以实现根据法条的句式复杂程度对法条进行相应的拆分处理,有助于满足对法条的拆分处理精准度需求。
-
公开(公告)号:CN109684448B
公开(公告)日:2021-01-12
申请号:CN201811542429.8
申请日:2018-12-17
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/332 , G06F16/36
Abstract: 本申请涉及一种智能问答方法,属于自然语言处理技术领域。本申请在获取用户输入的自然语言问句后,通过预设的组合模板判断该问句是否存在复杂语义,如果判断出存在复杂语义,利用组合模板解析复杂语义部分内容得到第一解析信息,以及利用自然语言模型解析简单语义部分内容得到第二解析信息,然后综合第一解析信息和第二解析信息得到能够表达自然语言问句完整语义的图查询语言,进而进行查询得到答案。本申请使用组合模板对问句复杂语义内容进行处理,并基于知识图谱作问答,利用知识图谱对数据非常好的描述能力,实现本申请在具体应用中无需使用大量的质量高的问答语料,进而有助于提升对包含复杂语义的自然语言问句回答的准确性。
-
公开(公告)号:CN109523446A
公开(公告)日:2019-03-26
申请号:CN201811220594.1
申请日:2018-10-19
Applicant: 北京北大软件工程股份有限公司
IPC: G06Q50/26
Abstract: 本发明实施例公开一种面向价格领域的大数据处理分析系统,包括:价格数据获取模块,用于利用预设数据获取方式,获取多源异构的价格数据;分布式处理模块,用于采用大数据分布式处理技术,对价格数据进行处理;大数据分析模块,用于对处理后的价格数据进行大数据分析;可视化展示模块,用于将大数据分析后得到的数据结果通过可视的、交互的方式进行展示。本发明实施例采用多样化的先进数据采集方式,能高效、准确的获取不同渠道多种复杂数据结构的价格数据,通过采用可靠、高效、高扩展性、高容错性的分布式数据处理方法,提高了数据处理效率,通过可视化展示模块可随时查看、监测和管理,能实现价格数据资源及时交换共享,大数据融合处理。
-
公开(公告)号:CN111831783B
公开(公告)日:2023-12-08
申请号:CN202010644404.X
申请日:2020-07-07
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/36 , G06F16/35 , G06F40/30 , G06N5/025 , G06N5/04 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/045
Abstract: 本造成的计算成本问题,以及目标实体与非目标本发明提供了一种篇章级关系抽取方法,涉 实体之间的逻辑推理问题。及自然语言处理技术领域,主要解决了针对篇章级文档,计算资源耗费问题和目标实体与非目标实体之间的逻辑推理的技术问题。该发明包括:输入待处理文档,所述文档为篇章级文档;基于双向注意力约束对所述文档进行处理,得到实体与句子的抽象语义表示,所述抽象语义表示具有全局信息和逻辑推理信息;基于所述抽象语义表示判断所述文档中的目标实体对的关系类型。开发者可以使用本发明所述的方法高效准确地进(56)对比文件郭凤羽 等.基于语境交互感知和模式筛选的隐式篇章关系识别.计算机学报.2020,(第05期),901-915.李京谕 等.基于联合注意力机制的篇章级机器翻译.中文信息学报.2019,(第12期),45-53.刘鉴 等.基于双向LSTM和自注意力机制的中文关系抽取研究.山西大学学报(自然科学版).2020,(第01期),8-13.马语丹 等.结合实体共现信息与句子语义特征的关系抽取方法.中国科学:信息科学.2018,(第11期),1533-1545.
-
公开(公告)号:CN111475623B
公开(公告)日:2023-08-22
申请号:CN202010273401.X
申请日:2020-04-09
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/36
Abstract: 本申请涉及一种基于知识图谱的案件信息语义检索方法及装置,基于知识图谱的案件信息语义检索方法包括根据法律文书构建法治知识图谱;对用户输入的问题进行简单识别和意图识别;定义sparql语言查询模板,根据意图识别结果匹配相应sparql语言查询模板在法治知识图谱中进行第一检索,为第一检索结果赋予第一置信度;搭建全文搜索引擎,将简单识别结果在全文搜索引擎中进行第二检索,为第二检索结果赋予第二置信度;根据第一置信度和所述第二置信度输出最终检索结果。本申请可以充分挖掘实体之间的联系,完成复杂的多跳语义检索,即使法治知识图谱的语义检索出现不能满足要求的输出时也可以基于全文搜索引擎返回检索结果,进一步提高检索效率和准确性。
-
-
-
-
-
-
-
-
-