-
公开(公告)号:CN104035917A
公开(公告)日:2014-09-10
申请号:CN201410253673.8
申请日:2014-06-10
Applicant: 复旦大学
Abstract: 本发明属于文本语义处理、语义网技术领域,具体为一种基于语义空间映射的知识图谱管理方法和系统。本发明方法包括:语义向量构建、语义空间映射、知识图谱管理;知识图谱管理又包括三个分为:语义聚类、语义去重、语义标注。对于知识图谱的边/结点,首先将描述其的文本单元向语义空间投影,并通过向量累积获得其在语义空间上的向量表示;在此基础上,实现知识图谱的多项管理任务;系统包括对应的语义向量构建、语义空间映射、知识图谱管理3个模块。本发明克服了传统知识图谱管理方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,并且向量累积的方式使其能轻松应对词语个数的不同,易于实现进一步的诸如语义聚类、语义去重、语义标注等知识图谱管理任务。
-
公开(公告)号:CN104008092A
公开(公告)日:2014-08-27
申请号:CN201410255166.8
申请日:2014-06-10
Applicant: 复旦大学
Abstract: 本发明属于文本语义处理技术领域,具体为一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。本发明对于待抽取关系的实体对:首先对包含二者的语句进行语法依存分析;然后将分析结果视作Graph,并计算Graph中对应这两个实体的结点间最短路径,来抽取出实体间关系;继而将路径上的词语向语义空间投影并进行累积,获得该关系在语义空间上的向量表示;对于多组实体对的场景,使用聚类方法对关系进行聚类并构建关系模型;依据表征输入实体对间关系的语义向量与关系模型之间的语义相似度实现关系的识别。本发明克服了传统方法在进行实体间关系比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,提高了关系比较准确性和处理的灵活性。
-
公开(公告)号:CN103699687A
公开(公告)日:2014-04-02
申请号:CN201410003459.7
申请日:2014-01-03
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于网络爬虫技术领域,具体为一种基于枚举的网络实体爬取方法。该方法分为三个部分:对目标网络实体进行采样和预处理、对样本进行特征聚类和特征合并、生成可枚举的表达式。即;通过一定采样方式、采样规模来对目标网络实体进行采样,并对可转化样本进行样本分解;将分解后的样本进行k均值聚类操作,并进行类内噪音去除;利用特征合并、特征补全和优化枚举顺序的方法生成一个或者一组可以枚举的表达式。本发明建立了一种全新的爬取技术及其算法框架,在覆盖率、可分布性和额外时间代价等方面优于传统的基于关系的网络爬虫技术,在进行网络大规模实体爬取时具有更好的效果。
-
公开(公告)号:CN103577549A
公开(公告)日:2014-02-12
申请号:CN201310481674.3
申请日:2013-10-16
Applicant: 复旦大学
IPC: G06F17/30
CPC classification number: G06F17/30876
Abstract: 本发明属于无线通信网络技术领域,具体为一种基于微博标签的人群画像系统和方法,本发明系统包含微博标签推荐和标签主题聚类两大模块,其中第一模块中采用一个涵盖三个步骤的标签推荐算法。第一步为同质性标签推荐,第二步为共现性标签扩展;第三步则是以中文知识图谱为基础建立语义网络,利用网络拓扑特性来度量标签之间的语义相似度,从而去除语义相同或相似的标签,保证用来刻画用户的标签精炼性。本发明利用微博用户标签具有广泛的商业应用价值,同时也为互联网用户标签的挖掘算法和中文知识图谱的应用指明了研究方向。
-
公开(公告)号:CN119493820A
公开(公告)日:2025-02-21
申请号:CN202311032603.5
申请日:2023-08-16
Applicant: 复旦大学
Abstract: 本发明提供了一种面向工业领域的文档信息抽取方法,具有这样的特征,包括以下步骤:步骤S1,对通用大模型进行第一阶段微调,得到简单微调模型;步骤S2,根据现有的公开数据构建复杂抽取指令数据集;步骤S3,根据复杂抽取指令数据集对简单微调模型进行第二阶段微调,得到复杂微调模型;步骤S4,对现有的目标场景的文档数据进行转换,得到对应的工业领域抽取数据集;步骤S5,根据工业领域抽取数据集对复杂微调模型的模型参数进行低秩调整得到适配模型;步骤S6,将原始工业文档以及预设的抽取任务指令和提示输入适配模型得到抽取信息。总之,本方法能够提高利用通用大模型抽取工业文档信息的准确性。
-
公开(公告)号:CN119248910A
公开(公告)日:2025-01-03
申请号:CN202410780038.9
申请日:2024-06-17
Applicant: 复旦大学
IPC: G06F16/332 , G06Q50/20 , G06Q10/0639
Abstract: 本发明提供了一种面向教育的大语言模型提问能力评测装置,具有这样的特征,包括:数据存储模块用于存储多个普通领域上下文、专业学科领域上下文和跨学科领域上下文;普通领域问题生成模块用于生成六级普通领域问题;专业学科领域问题生成模块用于生成六级专科领域问题;跨学科领域问题生成模块用于生成跨学科问题;普通领域评估模块用于根据所有六级普通领域问题得到普通领域提问能力结果;专业学科领域评估模块用于根据所有六级专科领域问题得到专科领域提问能力结果;跨学科领域评估模块用于根据所有跨学科问题得到跨学科领域提问能力结果。总之,本装置能够从普通、专业学科和跨学科三个领域分别量化评估大语言模型的教学提问能力。
-
公开(公告)号:CN116304092B
公开(公告)日:2024-09-24
申请号:CN202310237736.X
申请日:2023-03-02
Applicant: 深圳今日人才信息科技有限公司 , 复旦大学
IPC: G06F16/36 , G06F16/901 , G06F16/35 , G06Q10/1053
Abstract: 本发明公开一种面向招聘领域的职位概念自动获取与图谱扩展的方法,包括如下步骤:构建概念生成模型、层级文本分类模型;将岗位描述文本输入层级文本分类模型,输出与其对应的三级概念标签;判断该岗位描述文本是否属于现有的Taxonomy中的某个概念实体,若不属于,则调用概念生成模型生成与该岗位描述文本对应的新概念实体;在现有的Taxonomy中,寻找与该新概念实体对应的上位概念实体,并将该新概念实体作为上位概念实体的下位词。本发明设计了从概念生成到概念分类,再到概念扩展的完整自动化框架,整个框架流程和各模块的触发关系是具有独创性的,且在实际业务场景中验证了有效性。
-
公开(公告)号:CN118467725A
公开(公告)日:2024-08-09
申请号:CN202310090342.6
申请日:2023-02-09
Applicant: 复旦大学
Abstract: 本发明提供一种面向多标签文本分类的知识增强型文档‑标签注意力方法,首先创新性地挖掘并选择多标签文档的外部知识,以丰富文档内容,并将文档与知识联合进行编码和训练,提高文档和知识之间潜在语义的交互性。同时还对构建的标签集进行嵌入,从而捕获每个文档对应标签集之间的上下文关系。之后,基于文档‑知识‑标签的全局注意力机制,即为文档‑标签对和知识‑标签对采用加权注意力机制来融合文档、知识和标签之间的全局信息,分配权重以获得依赖和独立的标签表示,从而捕获文档、知识分别与标签集之间的交互特征。最后基于文档、知识和标签的全局表示来预测每个文档的所有标签。该方法解决了多标签文本分类中文档不丰富和标签依赖性的问题。
-
公开(公告)号:CN118467562A
公开(公告)日:2024-08-09
申请号:CN202310090344.5
申请日:2023-02-09
Applicant: 复旦大学
IPC: G06F16/242 , G06F16/2452 , G06N3/047 , G06N3/048 , G06N3/08 , G06N3/0442
Abstract: 本发明提供一种基于自裁剪异构图的自然语言转结构化查询方法,首先基于专家知识的异构图构建规则使用数据库模式和问句来构建异构图,并融入了专家知识形成的规则来约束异构图中边的构建,相比全量异构图拥有更少但是更加重要的信息,更好地建模了问句与数据库模式之间的联系,能够促进模型学习到正确的SQL语言特征,提升模型的准确率和执行率。然后针对数据库模式中元素的重要程度问题,提出一种自裁剪机制,根据二分类模型判断异构图中节点与问句的是否存在关联,并裁剪掉图中与问句无关的节点和边,帮助模型剔除与问句相对无关的信息,从而实现了精细化的数据过滤,减少了结构化模式信息中无用信息的噪声,提升了模型的检索响应速度与准确率。
-
公开(公告)号:CN117956236A
公开(公告)日:2024-04-30
申请号:CN202410062442.2
申请日:2024-01-16
Applicant: 复旦大学
IPC: H04N21/475 , H04N21/234 , H04N21/24 , H04N21/44 , G06T7/00 , G06Q50/04
Abstract: 本发明提供了一种面向制造业视频内容质量的自动评估方法及系统,其中方法包括如下步骤:步骤S1,使用视频文本对语言模型进行预训练工作,步骤S2,对经过视频内容预训练的语言模型的单选题QA能力进行初始化微调,步骤S3,对单选能力初始化后的语言模型在视频相关专业题目上进行继续微调,步骤S4,得到视频内容及单选能力增强的语言模型的答题准确率;步骤S5,根据答题准确率对视频的内容质量进行评估。本发明创新性地使用大规模预训练语言模型和单选题QA实现制造业视频内容质量的自动化评估,同时用视频文本和参考文档分别生成训练单选题和测试单选题,确保语言模型能够充分学习视频中的知识,并以参考文档为标准对视频的内容质量进行准确评估。
-
-
-
-
-
-
-
-
-