-
公开(公告)号:CN119148992A
公开(公告)日:2024-12-17
申请号:CN202410973076.6
申请日:2024-07-19
Applicant: 北京理工大学
IPC: G06F8/30 , G06F18/2411 , G06N3/044 , G06N3/0455 , G06N3/096
Abstract: 本发明涉及一种知识和数据双轮驱动的代码生成方法,具体涉及一种基于知识和数据双轮驱动的用于自动生成编程语言的方法,属于自然语言处理技术领域。本发明代码生成方法包括下列步骤:S1,构建编程语言知识库;S2,设置分类器模型;S3,设置代码生成模型;以及S4,根据知识库、分类器模型和代码生成模型进行知识和数据双轮驱动的代码生成。与现有技术相比,本发明将知识和数据两方面信息结合进行代码生成,所涉及到的模型结构相对独立,使用者可以根据实际训练资源,自由选择合适尺寸的分类器模型和代码生成模型完成训练,在代码数据量较小、代码生成模型参数量较小的情形下依然具有不错的表现。
-
公开(公告)号:CN118779443A
公开(公告)日:2024-10-15
申请号:CN202410159540.8
申请日:2024-02-04
Applicant: 北京理工大学
IPC: G06F16/34 , G06F16/35 , G06F16/33 , G06F40/216 , G06F40/247 , G06F40/237 , G06F40/58 , G06N5/025 , G06N3/045
Abstract: 一种基于mT5和词频信息熵的多语共同关注主题检测方法,属于社交媒体信息挖掘技术领域。本方法采用多语言词频信息熵的统计方法,充分考虑共同关注的话题在多语言中分布较为平均的特点,实现不同文化所共同关注的主题词提取;使用mBERT进行同义词聚合,在构建词表过程中实现了冗余词汇的识别,降低输出词汇的冗余程度;通过改进BERTopic中主题词提取算法,使用微调后的mT5对单文档进行主题词的提取,由传统的单语言主题检测改进到多语言的模式,在一定程度上避免潜在价值主题词遗漏的问题。本发明适用于社交媒体信息挖掘技术领域,提高共同关注主题的检测识别能力,并提升主题词的输出质量。
-
公开(公告)号:CN114707516B
公开(公告)日:2024-08-13
申请号:CN202210322393.2
申请日:2022-03-29
Applicant: 北京理工大学
Abstract: 本发明公开了一种基于对比学习的长文本语义相似度计算方法,属于人工智能、自然语言处理技术领域。本发明主要解决的技术问题为小样本场景下长文本语义匹配问题。首先通过爬虫、人工采集手段构建通用、领域数据库。其次使用领域数据库和通用数据库中包含的主题、标题、关键短语等篇章结构信息构建模型,通过有监督的文本表示学习方法对比学习进行训练。最后使用该模型对待评价文本进行预测来获得相似度打分,经过人工修正模块对该语义打分进行修正,并决定是否将该文本加入领域数据库进一步扩大训练资源。定期使用领域资源库更新模型,实现小样本下高精度语义相似度计算。
-
公开(公告)号:CN116502636A
公开(公告)日:2023-07-28
申请号:CN202310241423.1
申请日:2023-03-14
Applicant: 北京理工大学
IPC: G06F40/284 , G06F40/166 , G06N3/0442 , G06N3/0455 , G06N3/096 , G06N5/02
Abstract: 本发明公开了一种基于知识驱动的跨语言简讯生成方法,属于自然语言处理技术领域。首先通过Bi‑RNN网络模拟单词之间的相互作用,采用原型文档和简讯之间的双向注意机制分析相互依赖关系,最终根据隐状态的加权求和得到“简讯模式”。然后基于多任务学习来共享解码器的参数,通过共享整个解码器来执行翻译和简讯生成任务。最后将获取的知识融合在跨语言简讯生成模型的解码器中,让其参与到最终简讯生成的过程,使用预训练‑微调范式,进一步解决低资源的问题。本方法能够生成更专业、更符合要求的科技简讯,解决了低资源的问题,即使在训练数据资源较少的情况下,也能跨语言生成较高质量的科技简讯。
-
公开(公告)号:CN114385859A
公开(公告)日:2022-04-22
申请号:CN202111631648.5
申请日:2021-12-29
Applicant: 北京理工大学
IPC: G06F16/783 , G06F16/735
Abstract: 本发明公开了一种面向视频内容的多模态检索方法,属于多媒体分析与处理技术领域。本方法面向视频内容,对视频数据和检索数据中的多模态特征进行提取和转化,将多模态特征转化为文本特征,然后通过对文本特征的检索实现对视频内容的检索与定位。本方法充分利用了视频内容中的多模态特征,并支持利用多模态数据进行检索,方便用户以多种方式进行针对视频内容的检索,使无标注情况下针对视频内容的检索更加准确全面。本方法极大方便了用户以多种形式在海量视频数据中快速寻找到自己感兴趣的内容,可以在海量无标注视频中找到用户所感兴趣的内容,节约了人工观看视频进行筛选的时间,可用于视频敏感内容筛选、目标人锁定等,实现数据的高效利用。
-
公开(公告)号:CN105653518A
公开(公告)日:2016-06-08
申请号:CN201510997788.2
申请日:2015-12-25
Applicant: 北京理工大学
CPC classification number: G06F17/2775 , G06F17/30867 , G06K9/6218 , G06K9/6267 , G06Q50/01
Abstract: 本发明涉及一种基于微博数据的特定群体发现及扩充方法,属于社交网络分析及数据挖掘领域。本发明具体步骤为,采集相关群体信息;进行信息的整合与映射;针对文本数据进行特征提取;计算用户相似度;类别群体自检测;特定群体属性提取,判定类别,群体扩充。本发明巧妙的避免了使用网络模型中数据稀疏或不全面而不能进行群体识别的问题。本发明可以投入大规模数据计算,具有较高的稳定性。
-
公开(公告)号:CN104636425A
公开(公告)日:2015-05-20
申请号:CN201410795679.8
申请日:2014-12-18
CPC classification number: G06F16/367 , G06Q50/01
Abstract: 本发明涉及一种网络个体或群体情绪认知能力预测与可视化方法,属于互联网舆情信息挖掘与分析领域。本发明对现有情感词典中收录的常用情感词做了整合,同时考虑了网络环境中具有情感倾向的网络情感新词及表情字符,最大限度地包含了社交媒体平台上的情感元素,并在此基础上构建了情感词本体库;确定网络个体情绪分叉点位置,用情绪认知能力指数描述网络个体的情绪认知能力水平,并以可视化的方式对多个网络个体之间的情绪分叉点差异进行展示。通过本发明可揭示网络个体或群体情绪认知能力水平的演化规律,尤其是对典型网络个体或群体的情绪动态变化过程及其情绪突变的临界点进行预测,帮助相关管理者对网络舆论进行合理引导,营造和谐网络环境。
-
公开(公告)号:CN114707511B
公开(公告)日:2024-06-18
申请号:CN202210275512.3
申请日:2022-03-21
Applicant: 北京理工大学
IPC: G06F40/30 , G06F40/289 , G06F16/215 , G06F16/29 , G06F16/9537
Abstract: 本发明涉及一种基于开源时空数据的时空目标描述文字生成方法,属于时空数据分析与挖掘技术领域。本方法通过分析时空目标数据的特点,经过数据清洗、行为描述短语生成、位置描述短语生成和目标描述生成,提取时空目标活动轨迹的语义信息,生成目标活动状态文字描述,可用于时空数据语义理解等。本方法能够对不含显示语义信息的时空数据进行理解,能够准确、高效地分析时空数据中各时空目标的行为模式,并能够准确识别时空数据在地图上所经过的地理位置,不依赖于在线网络,可以实现面向海量时空数据的快速语义感知,为时空数据语义分析提供技术支撑。本发明拓展了时空数据的应用范围,具有良好的应用前景。
-
公开(公告)号:CN114706972B
公开(公告)日:2024-06-18
申请号:CN202210275509.1
申请日:2022-03-21
Applicant: 北京理工大学
IPC: G06F16/34 , G06F16/35 , G06F40/30 , G06F40/216 , G06F40/211
Abstract: 本发明涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成技术领域。针对科技情报领域的多文档文本生成,首先基于LDA主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。
-
公开(公告)号:CN114707511A
公开(公告)日:2022-07-05
申请号:CN202210275512.3
申请日:2022-03-21
Applicant: 北京理工大学
IPC: G06F40/30 , G06F40/289 , G06F16/215 , G06F16/29 , G06F16/9537
Abstract: 本发明涉及一种基于开源时空数据的时空目标描述文字生成方法,属于时空数据分析与挖掘技术领域。本方法通过分析时空目标数据的特点,经过数据清洗、行为描述短语生成、位置描述短语生成和目标描述生成,提取时空目标活动轨迹的语义信息,生成目标活动状态文字描述,可用于时空数据语义理解等。本方法能够对不含显示语义信息的时空数据进行理解,能够准确、高效地分析时空数据中各时空目标的行为模式,并能够准确识别时空数据在地图上所经过的地理位置,不依赖于在线网络,可以实现面向海量时空数据的快速语义感知,为时空数据语义分析提供技术支撑。本发明拓展了时空数据的应用范围,具有良好的应用前景。
-
-
-
-
-
-
-
-
-