-
公开(公告)号:CN108491375B
公开(公告)日:2022-04-12
申请号:CN201810173270.0
申请日:2018-03-02
Applicant: 复旦大学
IPC: G06F40/295 , G06F40/30 , G06F40/247
Abstract: 本发明公开了一种基于CN‑DBpedia的实体识别与链接系统和方法。该系统包括实体链接模块和实体识别模块;实体链接模块包括同义词匹配单元和实体链接单元;实体识别模块包括分词器、词概率计算单元和实体判别单元。本发明构建了实体与词语的语义关系,从而能在极少的上下文中挖掘到与实体的关系。本发明将基于机器学习的实体识别算法与非监督的分词算法融合。能从全局性的角度考虑实体名划分的合理性,又扩展了分词的词表空间,以更加合理的算法计算实体词的成词概率。本发明先链接再识别,使得实体识别时充分利用到了文本的语义信息,实现更好的分词与实体识别。
-
公开(公告)号:CN112948570A
公开(公告)日:2021-06-11
申请号:CN201911263803.5
申请日:2019-12-11
Applicant: 复旦大学
IPC: G06F16/335 , G06F16/35 , G06F16/36
Abstract: 本发明的目的在于实现领域知识图谱的自动化构建。具体地,本发明提供了一种无监督的领域知识图谱自动化构建系统,用于基于预定领域的领域语料建立该领域的领域知识图谱,其特征在于,包括:领域词挖掘模块,基于统计和规则相结合的词汇挖掘方法从领域文本文档中挖掘出领域相关的词语,从而输出领域词表;关系挖掘模块,通过预定规则初步建立起领域词表中的领域词之间的关系;概念挖掘模块,用于采用聚类手段进行概念挖掘从而进一步丰富领域词之间的关系。本发明的系统能够基于各领域均存在的文档作为切入点进行知识图谱构建,很好地适应于不同的领域;另一方面,构建过程不需要领域专家参与,能够降低工作量以及构建成本。
-
公开(公告)号:CN119493820A
公开(公告)日:2025-02-21
申请号:CN202311032603.5
申请日:2023-08-16
Applicant: 复旦大学
Abstract: 本发明提供了一种面向工业领域的文档信息抽取方法,具有这样的特征,包括以下步骤:步骤S1,对通用大模型进行第一阶段微调,得到简单微调模型;步骤S2,根据现有的公开数据构建复杂抽取指令数据集;步骤S3,根据复杂抽取指令数据集对简单微调模型进行第二阶段微调,得到复杂微调模型;步骤S4,对现有的目标场景的文档数据进行转换,得到对应的工业领域抽取数据集;步骤S5,根据工业领域抽取数据集对复杂微调模型的模型参数进行低秩调整得到适配模型;步骤S6,将原始工业文档以及预设的抽取任务指令和提示输入适配模型得到抽取信息。总之,本方法能够提高利用通用大模型抽取工业文档信息的准确性。
-
公开(公告)号:CN119248910A
公开(公告)日:2025-01-03
申请号:CN202410780038.9
申请日:2024-06-17
Applicant: 复旦大学
IPC: G06F16/332 , G06Q50/20 , G06Q10/0639
Abstract: 本发明提供了一种面向教育的大语言模型提问能力评测装置,具有这样的特征,包括:数据存储模块用于存储多个普通领域上下文、专业学科领域上下文和跨学科领域上下文;普通领域问题生成模块用于生成六级普通领域问题;专业学科领域问题生成模块用于生成六级专科领域问题;跨学科领域问题生成模块用于生成跨学科问题;普通领域评估模块用于根据所有六级普通领域问题得到普通领域提问能力结果;专业学科领域评估模块用于根据所有六级专科领域问题得到专科领域提问能力结果;跨学科领域评估模块用于根据所有跨学科问题得到跨学科领域提问能力结果。总之,本装置能够从普通、专业学科和跨学科三个领域分别量化评估大语言模型的教学提问能力。
-
公开(公告)号:CN116304092B
公开(公告)日:2024-09-24
申请号:CN202310237736.X
申请日:2023-03-02
Applicant: 深圳今日人才信息科技有限公司 , 复旦大学
IPC: G06F16/36 , G06F16/901 , G06F16/35 , G06Q10/1053
Abstract: 本发明公开一种面向招聘领域的职位概念自动获取与图谱扩展的方法,包括如下步骤:构建概念生成模型、层级文本分类模型;将岗位描述文本输入层级文本分类模型,输出与其对应的三级概念标签;判断该岗位描述文本是否属于现有的Taxonomy中的某个概念实体,若不属于,则调用概念生成模型生成与该岗位描述文本对应的新概念实体;在现有的Taxonomy中,寻找与该新概念实体对应的上位概念实体,并将该新概念实体作为上位概念实体的下位词。本发明设计了从概念生成到概念分类,再到概念扩展的完整自动化框架,整个框架流程和各模块的触发关系是具有独创性的,且在实际业务场景中验证了有效性。
-
公开(公告)号:CN118467562A
公开(公告)日:2024-08-09
申请号:CN202310090344.5
申请日:2023-02-09
Applicant: 复旦大学
IPC: G06F16/242 , G06F16/2452 , G06N3/047 , G06N3/048 , G06N3/08 , G06N3/0442
Abstract: 本发明提供一种基于自裁剪异构图的自然语言转结构化查询方法,首先基于专家知识的异构图构建规则使用数据库模式和问句来构建异构图,并融入了专家知识形成的规则来约束异构图中边的构建,相比全量异构图拥有更少但是更加重要的信息,更好地建模了问句与数据库模式之间的联系,能够促进模型学习到正确的SQL语言特征,提升模型的准确率和执行率。然后针对数据库模式中元素的重要程度问题,提出一种自裁剪机制,根据二分类模型判断异构图中节点与问句的是否存在关联,并裁剪掉图中与问句无关的节点和边,帮助模型剔除与问句相对无关的信息,从而实现了精细化的数据过滤,减少了结构化模式信息中无用信息的噪声,提升了模型的检索响应速度与准确率。
-
公开(公告)号:CN116450800A
公开(公告)日:2023-07-18
申请号:CN202310034610.2
申请日:2023-01-10
Applicant: 深圳今日人才信息科技有限公司 , 复旦大学
IPC: G06F16/335 , G06F16/33 , G06N3/0895 , G06Q10/1053
Abstract: 本发明公开了一种基于大规模预训练语言模型和对比学习的简历推荐方法,本发明通过预训练语言模型,利用自监督学习方式在大量无标注语料上学习文本表示,相对传统的词向量模型可以更好地理解语言,获得更好的文本特征向量。通过充分利用预训练语言模型的这一优势,将简历和岗位描述文本分别使用预训练语言模型进行表示,得到文本特征向量后再进行基于对比学习的微调训练,优化特征向量所在的隐式特征空间内的分布情况,进而增强文本表示,可以在相同或较小的标注数据集大小上取得远胜于传统模型的表示效果与匹配准确度。
-
公开(公告)号:CN116205211A
公开(公告)日:2023-06-02
申请号:CN202211643987.X
申请日:2022-12-20
Applicant: 深圳今日人才信息科技有限公司 , 复旦大学
IPC: G06F40/205 , G06F40/103 , G06F40/30 , G06F40/151 , G06F40/284
Abstract: 本发明公开了一种基于大规模预训练生成模型的文档级简历解析方法,步骤S1:采用文档格式解析模块识别简历文档,提取出简历文档中的文字数据,分析文字数据的逻辑流,并根据逻辑流将文字数据组织成统一的文本格式;步骤S2:采用区块划分模块输入简历文档的统一文本格式文字数据,并通过所述区块划分模型将文字数据划分到对应的信息区块中;步骤S3:采用细粒度信息抽取模块输入简历文档的区块划分结果,输出以键值对形式存储的细粒度抽取信息。本发明实现了处理不同格式的简历文档,实现端到端的基于滑动窗口的生成式大模型简历解析,实现包含长文本的文档级信息抽取,提升了简历解析的鲁棒性和泛化能力。
-
公开(公告)号:CN112966091B
公开(公告)日:2022-10-14
申请号:CN201911272709.6
申请日:2019-12-12
Applicant: 复旦大学
IPC: G06F16/335 , G06F16/36
Abstract: 本发明的目的在于提出能够充分利用知识图谱中语义信息以及图结构信息的推荐系统,该系统的主要特点包括:采用了实体的语义相似度的计算方法;采用了针对实体推荐应用的实体嵌入的计算方法;结合了图谱中的语义信息与图结构信息推荐实体。推荐系统具体包括:实体相似度计算模块,获取知识图谱的文本信息输入后计算获得实体的相似度;图谱嵌入式表示学习模块,以知识图谱中实体间的关系作为输入获得实体的嵌入式表示;以及实体推荐生成模块,基于用户的点击反馈数据,将实体相似度计算模块得到的相似度以及图谱嵌入式表示学习模块得到的嵌入式表示融合成最终相似度分数,从而让推荐应用向用户推荐实体。
-
公开(公告)号:CN103491165A
公开(公告)日:2014-01-01
申请号:CN201310431787.2
申请日:2013-09-22
Applicant: 复旦大学
Abstract: 本发明属于分布式系统和人工智能技术领域,具体为一种自动检测屏蔽的通用分布式爬虫系统。该系统采用星型网络架构,包括一个核心节点Master和多个从机Slave,核心节点Master控制集群中的从机Slave。本发明中采用全自动检测被屏蔽页面的算法,其通过检测爬虫下载的页面的大小和Token编辑距离的分布的随机性来检测是否出现异常情况,以自动分辨当前获取的页面是否是有效数据。本发明的系统可以自动分辨当前集群中的每台机器是否被屏蔽,以进行更好的任务调度,从而更大程度地利用机器资源和网络资源。
-
-
-
-
-
-
-
-
-