-
公开(公告)号:CN119830861A
公开(公告)日:2025-04-15
申请号:CN202411683578.1
申请日:2024-11-22
Applicant: 北京理工大学东南信息技术研究院
IPC: G06F40/151 , G06N5/022
Abstract: 本申请提供一种基于大模型智能匹配招投标文件的方法,方法包括:步骤一、对招投标文件进行预处理;步骤二、对预处理后的文档进行数据清洗,以建立预训练数据集;步骤三、对数据清洗后的txt文本进行处理,将txt文本拆分成多个指标项;步骤四、利用大模型中的指令跟随功能,对指标文本中的各项指标进行提问,从而生成微调数据集;步骤五、基于基座大模型进行预训练和微调;步骤六、将提示语、指标项和对应投标文件片段构建成模板,并将模板输入到训练好的大语言模型中,引导训练好的大语言模型推理回答。本申请提升大模型在专业领域回答准确性,从而使模型在回答时表现得更为出色。
-
公开(公告)号:CN119337864A
公开(公告)日:2025-01-21
申请号:CN202411298131.2
申请日:2024-09-18
Applicant: 北京理工大学东南信息技术研究院
IPC: G06F40/232 , G06F40/30 , G06F40/186
Abstract: 本申请提供一种融合用户语义和过往纠错记录的纠错大模型迭代训练方法,方法包括:纠错元数据构造:利用大模型指令数据集的构造方式,对篇章句子在内的数据进行纠错元数据的构造;输入为用户指定的待纠错文本;通过接受批改大模型的输出,调用动态反馈模块将批阅反馈发送给用户决策模块;用户决策模块接受输出结果,进行纠错意见和纠错结果的满意度反馈,并将用户的满意度反馈结果进行记录和重新组装,返回给动态反馈模块。本申请能够更准确地识别和纠正作文中的错误。
-
公开(公告)号:CN119311797A
公开(公告)日:2025-01-14
申请号:CN202411264441.2
申请日:2024-09-10
Applicant: 北京理工大学东南信息技术研究院
IPC: G06F16/332 , G06F16/33 , G06N5/04 , G06F18/2411 , G06F18/214
Abstract: 本申请提供一种基于情感信息的人格识别方法,方法包括:步骤一,对会话中的人格识别进行定义,将会话中的人格识别问题形式化为自然语言推理I问题;步骤二,构建情感对话内容;步骤三,构建人格描述;整理并总结每个人格特质的积极和消极描述,描述用于在NLI问题中作为假设,提供关于行为特征和情感表达倾向的详细信息;步骤四,训练并推理自然语言推理。本申请提高了人机交互的互动质量和个性化体验。
-
公开(公告)号:CN114638227B
公开(公告)日:2025-01-10
申请号:CN202011477961.3
申请日:2020-12-15
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司 , 北京理工大学
IPC: G06F40/295 , G06F16/35 , G06F18/2415
Abstract: 本发明公开了一种命名实体识别方法、装置及存储介质,包括:以token分别使用字和分词后的词两种方式使用BERT模型进行预训练;预训练完成后,分别利用输出部分Transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息;在Transformer最后一层位置上面串接一个softmax分类层;分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值。采用本发明,能够提高模型性能;捕捉到的是真正意义上的双向上下文信息;对实体槽位进行补充进行编码,合理利用。
-
公开(公告)号:CN114328856B
公开(公告)日:2024-08-27
申请号:CN202111409606.7
申请日:2021-11-25
Applicant: 北京理工大学
IPC: G06F16/332 , G06F40/58
Abstract: 本发明涉及一种面向文本翻译人员的关键词提示方法,属于计算机应用和计算机辅助翻译技术领域。本发明首先将输入序列转换为词向量序列,再将词向量序列通过自注意力神经网络编码器计算,得到输入的源语言句子中每个单词的重要性得分。将得分经过最大最小值缩放后,作为最终得分。最终标注出输入源语言句子各个单词的重要性,用于提示翻译人员重点关注重要词汇。本方法通过事先对输入源语言单词进行重要性标注,以提示翻译人员重点关注这些词汇,避免错译、漏译情况发生,提升翻译准确度。同时,翻译校对人员也可以利用本方法提升校对工作的效率。
-
公开(公告)号:CN113836893B
公开(公告)日:2024-07-23
申请号:CN202111074789.1
申请日:2021-09-14
Applicant: 北京理工大学
IPC: G06F40/211 , G06F40/242 , G06F40/253 , G06F40/284 , G06N3/045 , G06N3/0442 , G06N3/08
Abstract: 本发明提出了一种融入多个段落信息的抽取式机器阅读理解方法,属于自然语言处理中的阅读理解技术领域。所述融入多个段落信息的抽取式机器阅读理解方法依托的阅读理解系统包括段落评分器、段落阅读器和答案选择器,包括以下步骤:S1,段落评分器根据问题和段落的相关程度得出段落包含正确答案的可能性;S2,段落阅读器根据问题抽取出段落中最有可能的N个答案,并量化它们是正确答案的可能性;S3,答案选择器融合段落阅读器和段落评分器的结果,将答案和答案所在段落可能性相乘,得出整篇文章中最有可能的答案。所述方法摆脱了现有技术对输入长度的限制,可以帮助用户在科研论文上进行阅读理解,从而快速了解论文内容,紧跟领域内最新进展。
-
公开(公告)号:CN112685538B
公开(公告)日:2022-10-14
申请号:CN202011612232.4
申请日:2020-12-30
Applicant: 北京理工大学
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/211 , G06F40/30 , G06F40/289
Abstract: 本发明涉及一种结合外部知识的文本向量检索方法,属于开放域文档检索应用技术领域。本方法旨在文本向量空间模型的框架中,引入语言本身的句法结构和词性信息来获得问题的子条件结构,将问题表示成若干个子条件,同时通过BM25算法召回文档来计算问题每个子条件的重要程度,为问题最终的表示提供额外的训练标签。本方法通过提取的子条件以及BM25算法引入的相应的权重分数来优化现有表示方法,最终达到提升文本向量方法检索性能的目的。本方法可以利用基于预训练的深度学习模型获得更好的表示能力和泛化能力,能够更好的建模问题和文档的语义信息,提升了开放域检索的检索质量。
-
公开(公告)号:CN113435211B
公开(公告)日:2022-07-19
申请号:CN202110811087.0
申请日:2021-07-19
Applicant: 北京理工大学
Abstract: 本发明涉及一种结合外部知识的文本隐式情感分析方法,属于自然语言处理情感分析技术领域。本方法利用TransE模型对常识知识数据集预训练。对常识知识数据集中的每个知识子图,通过注意力机制计算每个知识子图的向量表示。对于需要进行隐式情感分析的句子采用预训练的单词特征向量表示文本序列中的每个单词的向量化表示,并与知识图特征向量表示进行拼接,得到结合外部知识的单词融合特征表示。使用双向长短时记忆网络对融合外部知识的单词表示进行句子层面的文本编码。通过注意力机制决定每个词语在表示学习过程中的重要性。最后将句子表示通过Softmax层计算对应的概率向量。本方法丰富了句子语义表达,更好建模句子表示,提升了文本隐式情感分析性能。
-
公开(公告)号:CN114398467A
公开(公告)日:2022-04-26
申请号:CN202111477094.8
申请日:2021-12-06
Applicant: 北京理工大学
IPC: G06F16/332 , G06F40/211
Abstract: 本发明涉及一种基于元擦除的证据句自动抽取方法,属于自然语言处理中的机器阅读理解技术领域。本方法无需人工标注,通过在句子级别进行擦除,根据每句话对答案的贡献程度来进行证据句的选择,实现自动选择证据句,并能够根据提升效果的幅度来评估证据句的选择,从而使多选阅读理解数据集能够根据证据句来解释模型行为。对比现有技术,本方法能够在证据句抽取与标注方面节省大量的时间和人力,并且得到很好的效果。
-
公开(公告)号:CN114386417A
公开(公告)日:2022-04-22
申请号:CN202111620499.2
申请日:2021-12-28
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/237
Abstract: 本发明涉及一种融入词边界信息的中文嵌套命名实体识别方法,属于自然语言处理中的信息抽取技术领域。本方法结合了中文场景特有的语言形态问题,利用外部的词表向模型中融入词级别信息,对于边界敏感的嵌套命名实体识别任务,模型更加关注于词边界问题,并且利用预训练模型抽取丰富的语义信息向量表示,保证模型在词级别和句子级别都能更好地建模,提升了实体识别的准确性,有效解决了现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题。
-
-
-
-
-
-
-
-
-