-
公开(公告)号:CN107015967A
公开(公告)日:2017-08-04
申请号:CN201710203905.2
申请日:2017-03-30
Applicant: 武汉大学
Abstract: 本发明公开了一种学术文本词汇功能框架构建方法,包括定义学术文本词汇功能的概念和类别和构建学术文本词汇功能的框架两步骤;词汇功能框架的提出帮助研究者明确了词汇功能的界定范围,不但使得文献标注的效率有所提高,而且为学术文本词汇功能自动识别任务提供了理论框架和基础。基于词汇功能框架的自动识别任务应有更高的效率和更好的效果。
-
公开(公告)号:CN119166746A
公开(公告)日:2024-12-20
申请号:CN202411091807.0
申请日:2024-08-09
IPC: G06F16/33 , G06F18/22 , G06F40/30 , G06N3/045 , G06N3/0455
Abstract: 本发明公开了一种大小模型语义理解下的查新点新颖性评估方法及装置,包括:利用根据查新点抽取查新关键词并构建检索式,根据检索式在查新数据库中筛选出相关文献;以查新点为参考模板,利用从筛选的文献摘要中,抽取相关步骤并总结相关点;采用从查新点和相关步骤概述中,抽取结构化语义信息,并对齐相似表述;根据结构化语义信息,计算查新点与相关点间各维度相似距离,并计算查新点新颖性得分;根据得分结合查新点及相似片段的内容采用大语言模型生成对比结果,并根据对比结果动态构建提示模板,生成汇总的查新结论,自动生成可读结果文本。本发明能够提高查新点新颖性评估的全面性、准确性和可读性,规避大模型幻觉风险。
-
公开(公告)号:CN105005620A
公开(公告)日:2015-10-28
申请号:CN201510437403.7
申请日:2015-07-23
Applicant: 武汉大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种基于查询扩展的有限数据源数据获取方法,本发明通过查询扩展技术执行多次查询以获取尽可能多的记录,可以有效地避开返回记录数的限制;以最少的查询次数穷尽此类数据源中的相关文档,本发明通过多次查询直至穷尽有限数据源中所有相关文档;本发明将该方法应用与实际的信息检索中,能以较少的查询扩展次数从有限数据源中获取所有相关的数据。
-
公开(公告)号:CN119166745A
公开(公告)日:2024-12-20
申请号:CN202411088368.8
申请日:2024-08-09
IPC: G06F16/33 , G06F16/35 , G06F18/22 , G06F40/216 , G06F40/284 , G06F40/211 , G06F40/289 , G06N3/045
Abstract: 本发明属于计算机技术领域,具体涉及一种基于大模型抽取与术语对齐的查新检索式构建方法及装置,包括:基于历史论文迭代构建术语库;基于大模型信息抽取获取与查新点相关的不同分面初始检索词;基于SPO结构识别初始检索词的关系构建初始检索式,在本地论文库实施初步检索获取相关论文;基于初始检索式与论文句子的相似度以及初始检索词与术语库术语之间的相关性构建候选检索词集;判断候选检索式与初始检索式是否为相近领域,为相近领域时将其作为标准检索词;将不同分面的标准检索词组合,得到不同长度的检索式。本发明能够自动生成高质量多位面的查新检索式,提升科技查新的效率和质量。
-
公开(公告)号:CN112487134A
公开(公告)日:2021-03-12
申请号:CN202011441092.9
申请日:2020-12-08
Applicant: 武汉大学
IPC: G06F16/31 , G06F16/34 , G06F40/211 , G06F40/268 , G06F40/289
Abstract: 本发明涉及计算机技术,具体涉及一种基于极简摘要策略的科技文本问题方法抽取的方法,包括获取科技文档数据集;对非结构化文本进行预处理,获取训练语料标签;利用BERT预训练模型对预处理后的文本进行向量化表征;采用Transformer模型搭建seq2seq架构的深度神经网络作为编码器、解码器,生成限定内容与样式的极简摘要;应用词性分析和句法分析算法抽取所生成极简摘要中的问题方法词。该方法包括数据爬取、自然语言处理和深度学习,能够实现大规模的科技文本自动化处理,并从中抽取出具有对应关系的问题词与方法词。
-
公开(公告)号:CN108415887A
公开(公告)日:2018-08-17
申请号:CN201810131230.X
申请日:2018-02-09
Applicant: 武汉大学
Abstract: 本发明公开了一种PDF文件向OFD文件转化的方法,首先输入PDF文件;然后利用机器视觉技术对PDF文件进行版面分析,得到版面的内容分布,再解析PDF文件数据,获得该文件中的所有元素的对象,以及对象信息;然后将对象与版面分布进行映射,定位文字、图片、表格、公式等元素,接着利用映射之后的对象信息,将PDF的对象转化为OFD格式的对象;最后将OFD对象按照输出要求进行排版,并输出OFD文件。本发明能够以较高的正确率自动将单个或批量PDF文件转换为OFD文件,并且有效地保证了PDF文件中的图片、表格、公式等特殊元素的正确性。降低了储存在PDF文件中的信息的使用难度,提高了PDF文件向OFD文件的转换效率。
-
公开(公告)号:CN118862862A
公开(公告)日:2024-10-29
申请号:CN202410881678.9
申请日:2024-07-03
Applicant: 武汉大学
IPC: G06F40/205 , G06F40/30 , G06N20/00
Abstract: 公开了一种文献原创性评估方法、装置、设备及存储介质,属于计算机技术领域,该方法包括:基于第一数据集,训练第一大语言模型,第一数据集包括多篇文献以及每篇文献的外部参数,第一大语言模型用于基于第一文献以及第一文献的外部参数,生成第一文献的第一原创性评分;基于第二数据集和多篇文献中的每篇文献的原创性评分,训练第二大语言模型,第二大语言模型用于基于第一文献的公开评审意见、第一文献被引用时的上下文以及第一原创性评分,生成第一文献的第一原创性评审意见和修正后的第一原创性评分。该方法能够准确、高效地实现文献原创性评估。
-
公开(公告)号:CN117634447A
公开(公告)日:2024-03-01
申请号:CN202311572963.4
申请日:2023-11-22
Applicant: 武汉大学
IPC: G06F40/186 , G06F40/169
Abstract: 本发明公开了一种细粒度标注的文档版式分析数据集的自动生成方法及系统,由仿真论文生成和细粒度标注信息生成两个阶段组成。第一阶段包括基于上下文无关语法构建一种可以生成论文框架latex文件的系统;从真实论文数据中抽取作者、图像、表格和公式插入到latex文件中;选取若干期刊的cls文件加入源码,使系统可以生成版式丰富且包含真实论文中提取的元数据的仿真论文。第二阶段在Latex文件中对各个文档组成结构添加不同颜色的标注并使用计算机视觉算法获得其坐标,即获得了细粒度标注的文档版式分析数据集。本发明的优点为:针对文档版式分析任务,将数据标注转为标注数据的生成,大量节省了数据标注的人力物力,且生成的仿真论文与真实论文有高度一致性。
-
公开(公告)号:CN108415887B
公开(公告)日:2021-04-16
申请号:CN201810131230.X
申请日:2018-02-09
Applicant: 武汉大学
IPC: G06F40/151 , G06F40/189 , G06F16/11
Abstract: 本发明公开了一种PDF文件向OFD文件转化的方法,首先输入PDF文件;然后利用机器视觉技术对PDF文件进行版面分析,得到版面的内容分布,再解析PDF文件数据,获得该文件中的所有元素的对象,以及对象信息;然后将对象与版面分布进行映射,定位文字、图片、表格、公式等元素,接着利用映射之后的对象信息,将PDF的对象转化为OFD格式的对象;最后将OFD对象按照输出要求进行排版,并输出OFD文件。本发明能够以较高的正确率自动将单个或批量PDF文件转换为OFD文件,并且有效地保证了PDF文件中的图片、表格、公式等特殊元素的正确性。降低了储存在PDF文件中的信息的使用难度,提高了PDF文件向OFD文件的转换效率。
-
-
-
-
-
-
-
-