-
公开(公告)号:CN114942977B
公开(公告)日:2025-04-04
申请号:CN202210599144.8
申请日:2022-05-30
Applicant: 北京邮电大学
IPC: G06F16/334 , G06F16/353 , G06N3/0464 , G06F40/211 , G06N3/08
Abstract: 本发明是一种基于支持句预测的多任务文档级关系抽取方法及装置,属于计算机自然语言处理中信息抽取技术领域。本发明装置包括文档预处理模块,预训练语言模型,图网络编码模块,图传播模块,支持句识别模块和关系分类模块。本发明方法包括:将文档分句、预处理;以句子为单位使用预训练语言模型进行编码;根据文档结构和预定规则构建图网络;对图网络进行卷积操作;寻找实体对的支持句,获取关系推理路径;对实体对进行关系分类;预先将寻找实体对的前馈神经网络与关系分类的全连接神经网络一起训练。本发明提高了对复杂语境下文档的实体关系的挖掘,及文档级关系的抽取效率,能进一步帮助实现信息抽取、自动问答等多种NLP任务的准确性。
-
公开(公告)号:CN119181347A
公开(公告)日:2024-12-24
申请号:CN202411469392.6
申请日:2024-10-21
Applicant: 北京邮电大学
IPC: G10L13/02 , G10L13/027 , G10L25/60 , G10L25/30
Abstract: 本发明公开了一种用于藏语数据增强的监督学习zs‑TTS生成与质量评估系统,属于语音智能合成技术领域。本发明系统包括预处理模块、零样本文本到语音合成模块和合成语音质量评估模块;预处理模块对采集的藏语语音数据处理获取样本;零样本文本到语音合成模块使用监督学习的zs‑TTS模型生成藏语语音,在TTS模型基础上引入参考编码器,优化生成对抗网络的损失函数构成;合成语音质量评估模块对合成音频结合多个指标进行评分,并引入动态阈值机制以平衡样本质量和数量。本发明系统实现在极短时长输入样本的情况下快速学习说话人风格并生成高质量藏语语音样本的能力,为低资源语言的语音处理任务提供了一种有效的通用型数据增强方案。
-
公开(公告)号:CN116975257A
公开(公告)日:2023-10-31
申请号:CN202310974692.9
申请日:2023-08-03
Applicant: 北京邮电大学
IPC: G06F16/34 , G06F40/211 , G06F40/232 , G06F40/253
Abstract: 本发明是一种基于句法结构删减的自动文摘事实性增强方法,涉及大数据资源服务、数据挖掘技术。本发明方法包括:分析待纠错摘要文本语法结构获取对应的语法依存树;后序遍历语法依存树,根据语法依存关系尝试剪枝子树,获得候选摘要,并在按序访问下一子树前先将被剪枝子树还原;预先在服务器部署多个事实评价指标模型;实时调用服务器上多个事实评价指标模型,对每个候选摘要进行事实性评价,优选当后一摘要在所有事实评价指标上都优于前一摘要时,认为后一摘要更优,输出最佳摘要。本发明首次将语法结构删减应用于后纠错方案,极大地扩充了可以应对的错误范围,提高了自动文摘模型生成摘要的事实准确性,能广泛地作用于已有的自动文摘模型中。
-
公开(公告)号:CN113837654A
公开(公告)日:2021-12-24
申请号:CN202111195681.8
申请日:2021-10-14
Applicant: 北京邮电大学 , 中国电力科学研究院有限公司
Inventor: 杨楠 , 李蕾 , 黄宇鹏 , 卫泽晨 , 李昕航 , 肖孟豪 , 张风彬 , 王哲 , 俞灵 , 齐晓琳 , 韩昳 , 邱成建 , 刘幸蔚 , 宋旭日 , 张琳 , 罗雅迪 , 李章文 , 於益军 , 李劲松
Abstract: 本发明是一种面向多目标的智能电网分层调度方法,涉及电网控制及人工智能技术。本发明方法包括:构建多目标电网运行评估模型,对电网运行状态从安全、经济和环保性三方面评估;建立双层调度结构,下层决策层对调度策略在局部进行优化,上层优化层对调度策略在全局进行优化;决策层对电网中每个机组建立一个智能体,智能体输出为机组的有功功率输出调整值;优化层包含三个多层感知器,分别用于评估电网的安全、经济和环保性;双层调度结构优化调度策略后,还使用拓扑分析法调整优化动作,避免在电网调度中出现孤岛。本发明实现在安全、经济、环保三个维度对电网运行状态进行量化评估,获取的调度策略更加有效,且适用于大规模电网的实时调度。
-
公开(公告)号:CN109191276A
公开(公告)日:2019-01-11
申请号:CN201810789859.3
申请日:2018-07-18
Applicant: 北京邮电大学
Abstract: 本发明提出一种基于强化学习的P2P网络借贷机构风险评估方法,属于网络大数据处理及电子信息技术领域。包括:首先,采集P2P网贷企业的公司简介文本信息,进行分词;然后,对所有文档的词,使用信息增益提取关键词;其次,使用Max-min ACLA算法构造强化学习模型;在强化学习模型的训练过程中,采用动态改变权重的方法更新样本权重;最后,利用训练好的强化学习模型对待评估机构进行风险评估。本发明采用了强化学习模型来解决文本分类数据少且数据不平衡的问题,同时通过动态更新样本权重的方法加快模型训练的收敛速度,节省了大量时间,使其具有更强的实用性。本发明针对公司简介文本提取关键词特征,非常易于实现。
-
公开(公告)号:CN108600013A
公开(公告)日:2018-09-28
申请号:CN201810388188.X
申请日:2018-04-26
Applicant: 北京邮电大学
IPC: H04L12/24
CPC classification number: H04L41/12
Abstract: 本发明实施例提供一种动态网络的重叠社区发现方法及装置,包括:获取待检测动态网络的初始重叠社区集合;确定变化后的待检测动态网络中的变化后的节点集合、以及变化后的节点集合中的节点之间的有向边;确定变化节点集合;根据随机游走算法,记录变化节点与初始重叠社区集合中每个初始重叠社区的相遇次数;计算最大相遇次数与最小相遇次数的平均值;确定相遇次数大于平均值时对应的初始重叠社区,并将变化节点划分到对应的初始重叠社区中,得到变化后的待检测动态网络的重叠社区集合。本发明实施例通过确定变化节点所属的重叠社区,将变化节点划分到所属的重叠社区中,从而发现变化后的动态网络的重叠社区集合。
-
公开(公告)号:CN103150350B
公开(公告)日:2016-01-27
申请号:CN201310052203.0
申请日:2013-02-18
Applicant: 北京邮电大学 , 北京市科学技术情报研究所
Abstract: 本发明提供了一种构建关系网络的方法和装置,技术方案为:对所有样本文本进行分析,统计任意两个区域名称共同出现的样本文本数、该两个区域均未出现的样本文本数、以及该两个区域名称中仅一个区域名称出现的样本文本数,根据统计结果确定该两个区域之间的紧密程度和主从程度;从所有样本文本中提取包含所述任意两个区域名称的完整语句,对提取的每个完整语句进行句法分析,根据句法分析结果以及预设情感词典统计该两个区域之间的友好程度;根据所述任意两个区域之间的紧密程度、友好程度和主从程度确定该两个区域之间的关系。本发明能够提高国际关系计算的准确性。
-
公开(公告)号:CN102081598B
公开(公告)日:2012-07-04
申请号:CN201110029493.8
申请日:2011-01-27
Applicant: 北京邮电大学
IPC: G06F17/22
Abstract: 本发明公开了一种检测文本重复的方法:根据一文本中每一个词语的TF值及其是否在标题中出现得到该词语的权值,顺序从文本中取出权值最高的若干词语作为关键词集框架;对于得到关键词集框架的任意两篇文本,依次判断一篇文本关键词集框架中的每一个词语是否在另一篇文本的关键词集框架中,当该词语属于两篇文本的关键词集框架、且在两篇文本中的权值匹配时,将表征匹配程度的匹配值加1,直至一篇文本关键词集框架中最后一个词语,根据得到的匹配值得到两篇文本的相似度;根据相似度及一相似度阈值判断出两篇文本是否为重复的文本。应用本发明所述的检测文本重复的方法,能够有效地检测出信息重复的文本,提高在众多文本中查找有效信息的效率。
-
公开(公告)号:CN101872363B
公开(公告)日:2011-12-07
申请号:CN201010218156.9
申请日:2010-06-24
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种抽取关键词的方法,应用于关键词长度较长、且内容较新的文本,该方法包括:首先,将通过现有方法抽取出的所有关键词作为候选关键词集;其次;通过考查各个候选关键词在文本中的关联度,将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集;最后,将部分候选关键词和部分候选未登录词作为最终抽取出的关键词集。由于本发明方法不仅考虑了词语在文本中的权值,而且还考虑了词语在文本中的关联度,因此,对于关键词长度较长、且内容较新的文本来说,采用本发明抽取关键词的方法能够准确地抽取出其中长度较长的关键词,提高了抽取关键词的准确度。
-
公开(公告)号:CN101655837B
公开(公告)日:2010-10-13
申请号:CN200910092461.5
申请日:2009-09-08
Applicant: 北京邮电大学
Abstract: 本发明公开了一种对语音识别后文本进行检错并纠错的方法,用于依次对语音识别后文本中的文本句进行检错并纠错:分别创建所述语音识别后文本中的文本句所属领域的第二语法知识库、第二语义知识库和第二语境知识库;基于所述第二语法知识库和所述第二语义知识库定位文本句中的锚点词,并基于所述第二语境知识库抽取所述定位的锚点词的实例;基于第一语义知识库和所述抽取的实例对文本句进行检错;基于第一语法知识库和所述抽取的实例对检错后得到的错误词语进行纠错。应用本发明所述的方法,能够对语音识别后文本进行准确的检错并纠错,从而提高语音识别率、实现人类与机器的自由交流。
-
-
-
-
-
-
-
-
-