基于CN-DBpedia的实体识别与链接系统和方法

    公开(公告)号:CN108491375B

    公开(公告)日:2022-04-12

    申请号:CN201810173270.0

    申请日:2018-03-02

    Applicant: 复旦大学

    Abstract: 本发明公开了一种基于CN‑DBpedia的实体识别与链接系统和方法。该系统包括实体链接模块和实体识别模块;实体链接模块包括同义词匹配单元和实体链接单元;实体识别模块包括分词器、词概率计算单元和实体判别单元。本发明构建了实体与词语的语义关系,从而能在极少的上下文中挖掘到与实体的关系。本发明将基于机器学习的实体识别算法与非监督的分词算法融合。能从全局性的角度考虑实体名划分的合理性,又扩展了分词的词表空间,以更加合理的算法计算实体词的成词概率。本发明先链接再识别,使得实体识别时充分利用到了文本的语义信息,实现更好的分词与实体识别。

    无监督的领域知识图谱自动化构建系统

    公开(公告)号:CN112948570A

    公开(公告)日:2021-06-11

    申请号:CN201911263803.5

    申请日:2019-12-11

    Applicant: 复旦大学

    Abstract: 本发明的目的在于实现领域知识图谱的自动化构建。具体地,本发明提供了一种无监督的领域知识图谱自动化构建系统,用于基于预定领域的领域语料建立该领域的领域知识图谱,其特征在于,包括:领域词挖掘模块,基于统计和规则相结合的词汇挖掘方法从领域文本文档中挖掘出领域相关的词语,从而输出领域词表;关系挖掘模块,通过预定规则初步建立起领域词表中的领域词之间的关系;概念挖掘模块,用于采用聚类手段进行概念挖掘从而进一步丰富领域词之间的关系。本发明的系统能够基于各领域均存在的文档作为切入点进行知识图谱构建,很好地适应于不同的领域;另一方面,构建过程不需要领域专家参与,能够降低工作量以及构建成本。

    面向工业领域的文档信息抽取方法

    公开(公告)号:CN119493820A

    公开(公告)日:2025-02-21

    申请号:CN202311032603.5

    申请日:2023-08-16

    Applicant: 复旦大学

    Abstract: 本发明提供了一种面向工业领域的文档信息抽取方法,具有这样的特征,包括以下步骤:步骤S1,对通用大模型进行第一阶段微调,得到简单微调模型;步骤S2,根据现有的公开数据构建复杂抽取指令数据集;步骤S3,根据复杂抽取指令数据集对简单微调模型进行第二阶段微调,得到复杂微调模型;步骤S4,对现有的目标场景的文档数据进行转换,得到对应的工业领域抽取数据集;步骤S5,根据工业领域抽取数据集对复杂微调模型的模型参数进行低秩调整得到适配模型;步骤S6,将原始工业文档以及预设的抽取任务指令和提示输入适配模型得到抽取信息。总之,本方法能够提高利用通用大模型抽取工业文档信息的准确性。

    面向教育的大语言模型提问能力评测装置

    公开(公告)号:CN119248910A

    公开(公告)日:2025-01-03

    申请号:CN202410780038.9

    申请日:2024-06-17

    Applicant: 复旦大学

    Abstract: 本发明提供了一种面向教育的大语言模型提问能力评测装置,具有这样的特征,包括:数据存储模块用于存储多个普通领域上下文、专业学科领域上下文和跨学科领域上下文;普通领域问题生成模块用于生成六级普通领域问题;专业学科领域问题生成模块用于生成六级专科领域问题;跨学科领域问题生成模块用于生成跨学科问题;普通领域评估模块用于根据所有六级普通领域问题得到普通领域提问能力结果;专业学科领域评估模块用于根据所有六级专科领域问题得到专科领域提问能力结果;跨学科领域评估模块用于根据所有跨学科问题得到跨学科领域提问能力结果。总之,本装置能够从普通、专业学科和跨学科三个领域分别量化评估大语言模型的教学提问能力。

    一种基于自裁剪异构图的自然语言转结构化查询方法

    公开(公告)号:CN118467562A

    公开(公告)日:2024-08-09

    申请号:CN202310090344.5

    申请日:2023-02-09

    Applicant: 复旦大学

    Abstract: 本发明提供一种基于自裁剪异构图的自然语言转结构化查询方法,首先基于专家知识的异构图构建规则使用数据库模式和问句来构建异构图,并融入了专家知识形成的规则来约束异构图中边的构建,相比全量异构图拥有更少但是更加重要的信息,更好地建模了问句与数据库模式之间的联系,能够促进模型学习到正确的SQL语言特征,提升模型的准确率和执行率。然后针对数据库模式中元素的重要程度问题,提出一种自裁剪机制,根据二分类模型判断异构图中节点与问句的是否存在关联,并裁剪掉图中与问句无关的节点和边,帮助模型剔除与问句相对无关的信息,从而实现了精细化的数据过滤,减少了结构化模式信息中无用信息的噪声,提升了模型的检索响应速度与准确率。

    基于大规模预训练生成模型的文档级简历解析方法

    公开(公告)号:CN116205211A

    公开(公告)日:2023-06-02

    申请号:CN202211643987.X

    申请日:2022-12-20

    Abstract: 本发明公开了一种基于大规模预训练生成模型的文档级简历解析方法,步骤S1:采用文档格式解析模块识别简历文档,提取出简历文档中的文字数据,分析文字数据的逻辑流,并根据逻辑流将文字数据组织成统一的文本格式;步骤S2:采用区块划分模块输入简历文档的统一文本格式文字数据,并通过所述区块划分模型将文字数据划分到对应的信息区块中;步骤S3:采用细粒度信息抽取模块输入简历文档的区块划分结果,输出以键值对形式存储的细粒度抽取信息。本发明实现了处理不同格式的简历文档,实现端到端的基于滑动窗口的生成式大模型简历解析,实现包含长文本的文档级信息抽取,提升了简历解析的鲁棒性和泛化能力。

    一种融合实体信息与热度的知识图谱推荐系统

    公开(公告)号:CN112966091B

    公开(公告)日:2022-10-14

    申请号:CN201911272709.6

    申请日:2019-12-12

    Applicant: 复旦大学

    Abstract: 本发明的目的在于提出能够充分利用知识图谱中语义信息以及图结构信息的推荐系统,该系统的主要特点包括:采用了实体的语义相似度的计算方法;采用了针对实体推荐应用的实体嵌入的计算方法;结合了图谱中的语义信息与图结构信息推荐实体。推荐系统具体包括:实体相似度计算模块,获取知识图谱的文本信息输入后计算获得实体的相似度;图谱嵌入式表示学习模块,以知识图谱中实体间的关系作为输入获得实体的嵌入式表示;以及实体推荐生成模块,基于用户的点击反馈数据,将实体相似度计算模块得到的相似度以及图谱嵌入式表示学习模块得到的嵌入式表示融合成最终相似度分数,从而让推荐应用向用户推荐实体。

    自动检测屏蔽的通用分布式爬虫系统

    公开(公告)号:CN103491165A

    公开(公告)日:2014-01-01

    申请号:CN201310431787.2

    申请日:2013-09-22

    Applicant: 复旦大学

    Abstract: 本发明属于分布式系统和人工智能技术领域,具体为一种自动检测屏蔽的通用分布式爬虫系统。该系统采用星型网络架构,包括一个核心节点Master和多个从机Slave,核心节点Master控制集群中的从机Slave。本发明中采用全自动检测被屏蔽页面的算法,其通过检测爬虫下载的页面的大小和Token编辑距离的分布的随机性来检测是否出现异常情况,以自动分辨当前获取的页面是否是有效数据。本发明的系统可以自动分辨当前集群中的每台机器是否被屏蔽,以进行更好的任务调度,从而更大程度地利用机器资源和网络资源。

Patent Agency Ranking