-
公开(公告)号:CN118821796A
公开(公告)日:2024-10-22
申请号:CN202410726533.1
申请日:2024-06-06
Applicant: 北京理工大学
IPC: G06F40/58 , G06F16/34 , G06F40/186 , G06F40/216 , G06F40/284 , G06N3/0455 , G06N3/084
Abstract: 本发明涉及一种基于大模型多阶段数据增强的跨语言简讯生成方法,属于计算机自然语言处理技术领域。本方法通过指令微调技术,利用英文原文和中文简讯之间的对应关系,生成适合大模型学习的指令微调语料。本发明将大模型应用于跨语言科技简讯生成领域,以及结合多阶段数据增强框架,提高了模型在特定任务上的表现,同时保持了模型的泛化能力,解决了传统跨语言文本摘要任务样本不足等问题,避免了传统跨语言任务流水线方法中的误差传播,能够更快地进行推理。本方法通过串行结构学习多个相关任务,并通过辅助任务数据进行增强,从共享的知识中受益,提高了性能,增强泛化能力,有效应对数据稀缺性。
-
公开(公告)号:CN116628301A
公开(公告)日:2023-08-22
申请号:CN202310420021.8
申请日:2023-04-19
Applicant: 北京理工大学
IPC: G06F16/951 , G06F16/958 , G06F16/955 , G06F16/36
Abstract: 本发明涉及一种基于知识驱动的网页表格抽取与结构化处理方法,属于计算机科学中的信息处理技术领域。该方法包括:解析Web网页内容数据,判断是否存在表格;若存在表格,提取所有表格的内容并存储;获取表格后,对每一行数据和每一列数据进行解析,判断是实体还是属性;对表格项内容进行匹配,得到每一个表项对应的标签;根据表项标签,获取行列标签;计算行列置信度,判断表头实体属性;以及生成包括实体、属性、以及属性值的结构化三元组。本发明通过融合规则与自然语言处理技术,基于知识库对网页表格数据进行抽取解析,使得结构化后的信息更加清晰、准确、和实用,为各种装备性能参数的构建提供技术支持,具有很大的实用价值。
-
公开(公告)号:CN115374784A
公开(公告)日:2022-11-22
申请号:CN202210810750.X
申请日:2022-07-11
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种多模态信息选择性融合的中文命名实体识别方法,属于自然语言处理技术领域。本发明有效解决了如何将字音和字形这两个重要信息有效融入命名实体识别中,通过在命名实体识别的输入中,加入携带语义信息的字符的拼音与偏旁部首序列,赋予了向量更强的语义信息。采用选择性融合,能够动态地控制字音和字形特征所占的权重,有效提升了命名实体识别性能。本发明能够为机器翻译、问答系统和阅读理解等自然语言处理任务提供有效支持。
-
公开(公告)号:CN114706972A
公开(公告)日:2022-07-05
申请号:CN202210275509.1
申请日:2022-03-21
Applicant: 北京理工大学
IPC: G06F16/34 , G06F16/35 , G06F40/30 , G06F40/216 , G06F40/211 , G06K9/62
Abstract: 本发明涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成技术领域。针对科技情报领域的多文档文本生成,首先基于LDA主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。
-
公开(公告)号:CN113065002A
公开(公告)日:2021-07-02
申请号:CN202110417960.8
申请日:2021-04-19
Applicant: 北京理工大学
IPC: G06F16/36 , G06F40/30 , G06F40/289 , G06F40/242
Abstract: 本发明涉及一种基于知识图谱和上下文语境的中文语义消歧方法,属于自然语言处理技术领域。本发明通过构建消歧知识图谱和基于上下文语境的语义消歧,可以在没有显式语义标注的由原句和完成消歧修改后的结果组成的获取数据集中抽取歧义词实体和消歧词实体以及它们之间的关系,同时将上下文语境作为消歧词实体的属性,从而将消歧知识沉淀于知识图谱,赋能语义消歧工作。本发明可以在新的待消歧文本中准确地发现已登录的歧义词。本发明实现了上下文语境的向量表示和基于向量的相似度计算,使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境。
-
公开(公告)号:CN104636425B
公开(公告)日:2018-02-13
申请号:CN201410795679.8
申请日:2014-12-18
Abstract: 本发明涉及一种网络个体或群体情绪认知能力预测与可视化方法,属于互联网舆情信息挖掘与分析领域。本发明对现有情感词典中收录的常用情感词做了整合,同时考虑了网络环境中具有情感倾向的网络情感新词及表情字符,最大限度地包含了社交媒体平台上的情感元素,并在此基础上构建了情感词本体库;确定网络个体情绪分叉点位置,用情绪认知能力指数描述网络个体的情绪认知能力水平,并以可视化的方式对多个网络个体之间的情绪分叉点差异进行展示。通过本发明可揭示网络个体或群体情绪认知能力水平的演化规律,尤其是对典型网络个体或群体的情绪动态变化过程及其情绪突变的临界点进行预测,帮助相关管理者对网络舆论进行合理引导,营造和谐网络环境。
-
公开(公告)号:CN114443855B
公开(公告)日:2025-05-06
申请号:CN202210020693.5
申请日:2022-01-10
Applicant: 北京理工大学
IPC: G06F16/36 , G06F16/31 , G06F16/951 , G06F16/35 , G06F40/263 , G06F40/295 , G06F40/30 , G06N3/045 , G06N3/0464 , G06N3/042
Abstract: 本发明涉及一种基于图表示学习的知识图谱跨语言对齐方法,属于自然语言处理技术领域。在知识图谱构建阶段,通过爬取网站数据作为来源。然后,过滤筛选多语言实体并抽取其结构化数据组成三元组,构建知识图谱。在对齐阶段,通过图表示学习,将不同来源的知识图谱生成对应的嵌入矩阵,在图嵌入基础上,依靠已对齐实体,将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐。本方法充分利用了知识图谱结构信息,通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐,保证了融合后的数据更准确全面,提高了在跨语言领域进行快速分析和智能搜索的效率。
-
公开(公告)号:CN119271873A
公开(公告)日:2025-01-07
申请号:CN202411045781.6
申请日:2024-08-01
Applicant: 北京理工大学
IPC: G06F16/9535 , G06Q50/20 , G06Q10/0639 , G06F18/213 , G06N3/0455 , G06N3/0895
Abstract: 本发明涉及一种基于知识追踪模型的个性化编程题推荐方法,属于信息推荐技术领域。本方法通过知识追踪模型,将学习者的知识状态变化过程融合到编程题推荐过程中,使所推荐的编程题符合学习者当前的学习进程和学习能力。本发明提出了一种基于特征增强和注意力机制的知识追踪模型,充分利用编程题信息和学习者历史知识状态信息更准确地预测学习者未来的答题表现。结合上述模型,本发明采用了个性化编程题推荐策略,将学习者的知识状态变化情况融入推荐过程,从而推荐出符合学习者当前的学习进程和学习能力的编程题。本方法能够更加准确地预测学习者在下一个时间步的答题表现,使编程题推荐策略能够及时根据学习者的知识状态变化情况调整推荐题目。
-
公开(公告)号:CN118446202A
公开(公告)日:2024-08-06
申请号:CN202410558437.0
申请日:2024-05-08
Applicant: 北京理工大学
IPC: G06F40/194 , G06F40/16 , G06F18/22 , G06F18/214 , G06F18/21 , G06F18/25
Abstract: 本发明涉及一种基于写作风格的生成文本来源检测方法,属于人工智能与文本检测技术领域,该方法包括:S1,生成文本内容的识别与编码;S2,特征提取;S3,特征输入与融合;S4,损失函数计算与优化;S5,训练模型;S6,根据训练好的模型,验证集评估模型的准确率和召回率,根据结果优化模型参数。在步骤S3中,对于每个文本样本,使用Llama2计算其困惑度分数。本发明使用多维特征融合框架,通过计算文本困惑度分数和嵌入向量并将其融合来代表各个文本生成源的写作风格,有效捕获了群体写作风格的核心特征,增强了文本源的区分能力,显著地提升了基于写作风格的识别性能,对保护文本的真实性有重要的意义。
-
公开(公告)号:CN117407703A
公开(公告)日:2024-01-16
申请号:CN202310673127.9
申请日:2023-06-07
Applicant: 北京理工大学
IPC: G06F18/214 , G06N3/045 , G06N3/048 , G06N3/082 , G06F18/22 , G06F40/30 , G06F40/216
Abstract: 本发明涉及一种基于机器阅读理解的冲突因素编码预测方法,属于自然语言处理技术领域。本方法根据冲突文本发布时间判断当前冲突发展阶段,确定可选因素列表;通过BERT微调的模型对冲突文本和可选冲突因素进行向量化表示;计算冲突文本和冲突因素的语义相似度,筛选与冲突文本最相关的冲突因素和冲突因素最相关的冲突文本句子;利用“冲突文本‑相关冲突因素”集合,生成原始冲突因素标注数据集;利用基于BERT微调的机器阅读理解模型,将处理好的冲突因素标注数据输入模型,获得冲突文本的相关冲突因素标注预测。本发明有效解决了基于海量新闻文本的冲突因素标注预测问题,提高了冲突量化分析效率。降低了冲突量化模型的使用者门槛。
-
-
-
-
-
-
-
-
-