Patent search ap:("北京理工大学") AND inv:"王彦浩" Page 1

1.

发明公开
一种基于对比学习的长文本语义相似度计算方法有权

公开(公告)号：CN114707516A

公开(公告)日：2022-07-05

申请号：CN202210322393.2

申请日：2022-03-29

Applicant: 北京理工大学

Inventor： 王彦浩 , 张华平 , 商建云

IPC: G06F40/30 , G06F40/289 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种基于对比学习的长文本语义相似度计算方法，属于人工智能、自然语言处理技术领域。本发明主要解决的技术问题为小样本场景下长文本语义匹配问题。首先通过爬虫、人工采集手段构建通用、领域数据库。其次使用领域数据库和通用数据库中包含的主题、标题、关键短语等篇章结构信息构建模型，通过有监督的文本表示学习方法对比学习进行训练。最后使用该模型对待评价文本进行预测来获得相似度打分，经过人工修正模块对该语义打分进行修正，并决定是否将该文本加入领域数据库进一步扩大训练资源。定期使用领域资源库更新模型，实现小样本下高精度语义相似度计算。

2.

发明授权
一种基于对比学习的长文本语义相似度计算方法有权

公开(公告)号：CN114707516B

公开(公告)日：2024-08-13

申请号：CN202210322393.2

申请日：2022-03-29

Applicant: 北京理工大学

Inventor： 王彦浩 , 张华平 , 商建云

IPC: G06F18/22 , G06F40/30 , G06F40/289 , G06F16/35 , G06N3/045 , G06N3/084 , G06N3/09

Abstract: 本发明公开了一种基于对比学习的长文本语义相似度计算方法，属于人工智能、自然语言处理技术领域。本发明主要解决的技术问题为小样本场景下长文本语义匹配问题。首先通过爬虫、人工采集手段构建通用、领域数据库。其次使用领域数据库和通用数据库中包含的主题、标题、关键短语等篇章结构信息构建模型，通过有监督的文本表示学习方法对比学习进行训练。最后使用该模型对待评价文本进行预测来获得相似度打分，经过人工修正模块对该语义打分进行修正，并决定是否将该文本加入领域数据库进一步扩大训练资源。定期使用领域资源库更新模型，实现小样本下高精度语义相似度计算。

Patent Agency Ranking