一种基于转移矩阵构建关系抽取模型的方法

    公开(公告)号:CN106970981A

    公开(公告)日:2017-07-21

    申请号:CN201710193366.9

    申请日:2017-03-28

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于转移矩阵构建关系抽取模型的方法。本方法为:1)选择基础关系抽取模型M,其输入为一个句子或描述同一对主体和客体的一组句子,其输出为输入句子或输入的一组句子所描述的关系的分布pi,并在中间结果中生成输入句子或输入的一组句子的向量表示si;2)根据si构建一个转移矩阵Ti;3)将该模型M输出的关系分布pi乘以该转移矩阵Ti并归一化,得到输入句子或输入的一组句子可能被标注成的关系的分布oi;4)以该关系分布oi拟合有噪声的标注为目标,训练该基础关系抽取模型M直到达到预设的终止条件,得到关系抽取模型。本模型可以免受噪声的影响,从而可以取得更好的关系抽取效果。

    一种基于序列标注模型的学科术语抽取方法及系统

    公开(公告)号:CN104794169A

    公开(公告)日:2015-07-22

    申请号:CN201510145663.7

    申请日:2015-03-30

    Abstract: 本发明公开了一种基于序列标注模型的学科术语抽取方法及系统,属于数据抽取技术领域。该方法首先对训练语料中的学科术语进行标注和类别标签设置,得到标注序列,并以训练语料作为观察序列、标注序列作为状态序列,训练出学科术语抽取模型,以该模型为抽取器初步抽取出待抽取语料中的学科术语,再利用学科术语之间的相似度进行初步抽取结果的筛选,筛选出属于对应学科领域的真正学科学术。通过本发明所述的抽取方法及系统,在进行学科术语的抽取时,通过将少量的训练语料进行学科术语的标注,实现了语料中学科术语的快速、准确的提取,同时还能够不断完善学科领域的已有知识体系结构,克服了传统学科术语抽取方法的不足。

    一种大规模数据集上的关系查询方法

    公开(公告)号:CN102332009B

    公开(公告)日:2013-09-04

    申请号:CN201110259125.2

    申请日:2011-09-02

    Applicant: 北京大学

    Abstract: 本发明公开了一种大规模数据集上的关系查询方法,属于语义网领域。本方法为:1)计算语义数据有向图G中只包含同一种标签的连通子图;2)合并连通子图,将有向图G划分为若干子图;3)计算合并后的每一子图中最强连通子图C,并计算其二部图;4)将所有子图C的最短路径存储到一路径集合RS中;5)记录划分的每一子图中具有标签非冗余路径的两个点的标签,得到每一子图的标签集合;6)利用标签集合判断有向图G中是否存在符合查询条件的路径;如果有,则返回查询路径结果;否则,在子图之间进行遍历,根据集合RS确定可到达目标节点的子图,然后利用该子图的标签集合返回查询路径结果。本发明支持海量数据的关系查询,并且扩展性强。

    一种向移动设备定时推送数据的方法

    公开(公告)号:CN101674318A

    公开(公告)日:2010-03-17

    申请号:CN200810119830.0

    申请日:2008-09-11

    Abstract: 本发明涉及一种向移动设备定时推送数据的方法,属于移动应用领域和数据传输领域。现有的向移动设备推送数据的方法无法做到定时、分批推送,严重影响了服务器向移动设备推送数据的效率。本发明所述的方法是将发送到手机等移动设备上的数据组织成一个文本信息,在规定的时间点及延时范围内将数据文件的下载地址分批分量的发送到手机等移动设备上,手机等移动设备解析了下载地址后通过GPRS(或其它无线网络)将数据文件内容下载到客户终端并按规则进行展示,从而达到定时、分批向移动设备发送数据并展示的效果。

    一种自动识别数字文档版心的方法

    公开(公告)号:CN101017479A

    公开(公告)日:2007-08-15

    申请号:CN200710063772.X

    申请日:2007-02-09

    Abstract: 本发明涉及一种自动识别数字文档版心的方法,属于文档处理技术领域。随着数字文档的广泛应用,对数字文档版心的识别技术也要求越来越精确,但是现有的技术,均是通过手工操作来完成数字文档的版心的识别,效率低下,特别是当数字文档的数据量很大而又排版不规则时,需要人工一页一页的去确定版心,非常不方便。本发明所述的方法,当输入一个含有版式信息的数字文档时,根据页眉、页脚的特征信息、主体字体的识别和多页间重复度的计算,自动识别出数字文档的版心。采用本发明所述的方法,能够高效准确的识别数字文档的版心,为数字文档的进一步加工和应用提供了良好的基础。

    一种中医文献内容分析方法和装置

    公开(公告)号:CN114444467A

    公开(公告)日:2022-05-06

    申请号:CN202111581455.3

    申请日:2021-12-22

    Abstract: 本发明公开了一种中医文献内容分析方法和装置。本方法为:对获取的文言文本进行预处理,得到无监督预训练数据对所选大规模语言模型Bert进行预训练;将上述预训练后的模型Bert与条件随机场模型结合得到序列标注模型;用标注的中医文献内容分析数据对得到的序列标注模型进行训练;将待分析中医文献的每个段落切分成子句输入所述序列标注模型,得到每个子句的编码序列,根据子句的编码序列生成对应子句所属标签的概率分布序列;将子句的概率分布序列输入条件随机场模型,得到子句的序列标注为不同标签序列的概率;选择最大概率的标签序列作为预测结果,合并相邻预测为同标签的子句,连接文献各个段落,得到所述中医文献的内容分析结果。

    一种中文事件抽取方法
    27.
    发明授权

    公开(公告)号:CN107122416B

    公开(公告)日:2021-07-06

    申请号:CN201710209305.7

    申请日:2017-03-31

    Applicant: 北京大学

    Abstract: 本发明公开了一种中文事件抽取方法。本方法为:1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。本发明解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。

    一种面向多源网络百科的知识库构建方法

    公开(公告)号:CN107239481B

    公开(公告)日:2021-03-12

    申请号:CN201710236165.2

    申请日:2017-04-12

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向多源网络百科的知识库构建方法。本方法为:1)从设定的若干网络百科抓取页面,并从抓取的每一页面中抽取页面的类别信息;2)基于类别信息构建类别树,并将类别信息和类别树对应,形成知识库的类别体系;提取每个网络百科对应页面的的别名信息构建该网络百科的概念词典;3)对抓取的页面进行去重,得到知识库的概念集合;4)从页面集合中每一页面的页面信息框和正文中抽取三元组信息;5)将三元组中的客体转换成标准格式,然后根据得到的标准化三元组和类别体系建立知识库。本发明不仅可以输出实体的类别体系,还可以对三元组中的实体进行链接,得到高质量的三元组知识,适用于多个网络百科混合生成知识库的需求。

    一种结合正则表达式和神经网络的自然语言任务处理方法和装置

    公开(公告)号:CN110909864A

    公开(公告)日:2020-03-24

    申请号:CN201911006241.6

    申请日:2019-10-22

    Applicant: 北京大学

    Abstract: 本发明公开一种结合正则表达式和神经网络模型的自然语言任务处理方法和装置。本方法为:1)给定一个自然语言相关的任务,针对该任务涉及的具体领域,获取正则表达式形式的领域知识,得到正则表达式集合;2)针对该任务选择一个基础的能够解决该任务的神经网络模型;3)在神经网络模型的训练过程中引入正则表达式集合中蕴含的领域知识,从而提升神经网络模型针对该任务的性能,正则表达式和神经网络模型的结合可以在不同层面上进行,包括输入层,模块层和输出层。本发明能够基于正则表达式形式的领域知识对神经网络模型的特定模块进行微调,并且辅助神经网络的训练,从而提升神经网络模型在该任务上的性能。

    一种中文事件抽取方法
    30.
    发明公开

    公开(公告)号:CN107122416A

    公开(公告)日:2017-09-01

    申请号:CN201710209305.7

    申请日:2017-03-31

    Applicant: 北京大学

    Abstract: 本发明公开了一种中文事件抽取方法。本方法为:1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。本发明解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。

Patent Agency Ranking