-
公开(公告)号:CN108549635A
公开(公告)日:2018-09-18
申请号:CN201810310200.5
申请日:2018-04-09
IPC: G06F17/27
Abstract: 本发明涉及一种专利文献领域术语抽取方法,包括:专利文本预处理、术语标注、字序列标注、语料划分和CRFs模型训练及预测。本发明利用条件随机场模型对专利文献中的术语进行抽取,采用字序列标注的方法,建立字级层面的特征来抽取术语,减少了分词对特征提取带来的噪音干扰,同时,基于构建的领域核心词典自动标注训练语料和测试语料中的术语,减少了人工标注的成本,在不同词位类别标注下训练的模型的抽取效果好,准确率、召回率和F值较高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105224520B
公开(公告)日:2018-03-13
申请号:CN201510623936.4
申请日:2015-09-28
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种中文专利文献术语自动识别方法,包括以下步骤:步骤1):基于专利标题自动生成词性规则;步骤2):手工构建停用词表;步骤3):对生成的所述词性规则按照所含词性的个数进行分类;步骤4):利用TermRank排序算法对候选术语进行排序。本发明首先利用统计学方法从专利标题中自动学习出构成术语的词性规则,解决了人工总结术语词性规则的不足;采用TermRank排序方法对候选术语进行排序,综合考虑了专利文献中的语言学和统计学特征,能够较好的区分术语和非术语,具有较高的可靠性,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105678327A
公开(公告)日:2016-06-15
申请号:CN201610001335.4
申请日:2016-01-05
Applicant: 北京信息科技大学 , 北京城市系统工程研究中心
Abstract: 本发明涉及一种面向中文专利的实体间非分类关系抽取方法,包括以下步骤:步骤1):初始化概念对所在的基本关系集合;步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;步骤3):进行特征选择,获得特征向量;步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。本发明将中文专利本体中实体间非分类关系抽取限定为满足SAO结构的实体间关系抽取,提出句法分析特征和关系词词典特征并结合传统特征的方法,使用支持向量机进行关系抽取,从而解决了SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题,该方法优于传统关系抽取方法,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105528340A
公开(公告)日:2016-04-27
申请号:CN201510863564.2
申请日:2015-12-02
IPC: G06F17/27
CPC classification number: G06F17/277 , G06F17/271 , G06F17/274
Abstract: 本发明涉及一种多动词汉语概念复合块的动词层次分类的方法,包括以下步骤:步骤1)对汉语句子进行词语切分和词性标记;步骤2)将所述句子分割为小句;步骤3)将所述小句中的多个动词进行层次划分;步骤4)将动词分为两类;步骤5)利用改进的CCC分析器对动词进行分析;步骤6)针对多动词的小句进行分析直到队列元素为空。本发明可以减少因动词的层次分析错误而导致的句子整体层次错误,从而提高组块分析的准确性,为后续进行复杂句的句法语义分析打下了很好的基础,可以很好地满足实际应用的需要。
-
公开(公告)号:CN119991157A
公开(公告)日:2025-05-13
申请号:CN202411597818.6
申请日:2024-11-11
Applicant: 中国人民解放军军事科学院军事科学信息研究中心 , 北京信息科技大学
IPC: G06Q30/02 , G06Q10/0635 , G06Q50/18 , G06F16/353 , G06F18/243 , G06F18/25 , G06N3/045 , G06N3/0455 , G06N3/096 , G06N5/04 , G06N5/01 , G06N20/20
Abstract: 本发明公开多指标融合的中文专利价值评估方法,属于专利价值评估技术领域。该方法包括:步骤1、提取专利文本维度特征;包括:基于大语言模型GLM从说明书摘要中提取短文本特征,以及基于HBert模型从权利要求书中提取长文本特征;步骤2、提取专利基本信息指标特征;包括技术维度指标、经济维度指标、法律维度指标以及企业维度指标;步骤3、基于专利文本维度特征和专利基本信息指标特征,利用XGBoost模型进行专利价值等级评估。
-
公开(公告)号:CN115329046A
公开(公告)日:2022-11-11
申请号:CN202211001959.8
申请日:2022-08-21
Applicant: 北京信息科技大学 , 北京市工程咨询有限公司
Abstract: 本发明涉及自然语言处理领域的文本检索技术,提升了现有方法在语义匹配上的不足,包括以下步骤:围绕在工程咨询报告范围获取实验所需数据,每个标题标注60段文本数据;将数据以[CLS]标题[SEP]段落[SEP]的形式传入BERT模型,得到标题和段落的向量表示;基于向量分别构建图拓扑结构,并利用图卷积神经网络GCN获取全局结构特征;针对具有上下文信息和全局特征的向量表示,利用排序模型得到第一个得分;将段落对应关键词利用Word2Vec得到向量表示,基于余弦相似度得到第二个得分,对两个得分加权平均得到最终匹配结果;训练模型并更新参数,在测试集上提取文本特征并进行检索。本发明能够提升文本检索的准确性。
-
公开(公告)号:CN115204519A
公开(公告)日:2022-10-18
申请号:CN202210972465.8
申请日:2022-08-17
Applicant: 北京信息科技大学
Abstract: 本发明涉及自然语言处理领域的专利质量等级预测研究,其主要步骤如下:1.利用融合多特征的功效词抽取模型对功效短语进行识别;2.基于Albert‑BiLSTM模型对专利文本中包含的主题词进行抽取;3.将抽取完成的功效短语与主题词用K‑means算法进行聚类,人工构建技术功效矩阵,得到相应的技术功效与技术规模;4.将专利中包含的结构化数字信息单独量化或组合,结合长文本得到132个评价指标,并利用美国专利数据训练一个迁移学习模型,同时利用主动学习技术进行中文数据集的扩充;5.将技术功效矩阵与132个指标相结合进行迁移训练并更新参数,得到最终的预测模型。本发明有效提升了专利质量评估的准确性。
-
公开(公告)号:CN112785529A
公开(公告)日:2021-05-11
申请号:CN202110157624.4
申请日:2021-02-05
Applicant: 北京信息科技大学
Abstract: 本申请公开了一种模板图像匹配矫正方法,包括:矫正模板图像制作;特征点检测与特征点描述;特征点匹配;单应矩阵估计;文档图像矫正。所述矫正模板图像制作,包括:选取一张领域内的透视倾斜文档图像,通过交互式选取其四个顶点,通过透视变换将其矫正得到文档图像的正向平行视图图像。本申请实施例提供的模板图像匹配矫正方法,使用简单便捷、矫正速度快、矫正效果好、抗干扰性强且能够有效避免当文档图像倾斜角较大时引起的矫正文档图像侧立或倒立的情况,可以有效胜任领域性的文档图像矫正任务。
-
公开(公告)号:CN112784603A
公开(公告)日:2021-05-11
申请号:CN202110157623.X
申请日:2021-02-05
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种专利功效短语识别方法,包括:融合字符级特征和单词级特征;对字符级特征使用word2vec或Bert进行向量化,对单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量;在嵌入层融合各特征向量输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列。本申请实施例提供的专利功效短语识别方法,融合了融合字符级特征和单词级特征,使用注意力机制将词表匹配得到的对应字符的单词集合向量化后,与字符级各特征的向量表示融合为最终的输入向量,在精确度、召回率和F1值这三个方面的表现均更为优秀,精确度高,召回率高,F1值高,有效提高了专利功效短语的识别效果。
-
公开(公告)号:CN111027637A
公开(公告)日:2020-04-17
申请号:CN201911315621.8
申请日:2019-12-19
Applicant: 北京洛奇智慧医疗科技有限公司 , 北京信息科技大学
Abstract: 本申请公开了一种文字检测方法及计算机可读存储介质,方法包括:对图像进行预处理;利用CTPN网络模型对预处理后的图像进行文字检测。所述对图像进行预处理包括图像矫正、图像切割和图像增强。所述图像切割包括:通过霍夫直线检测,得到若干线段;通过水平扫描来拼接线段;统计每一行像素覆盖的情况,最大覆盖行即为直线行;将检测的若干条水平直线进行排序,最大间隔的相邻直线之间即为待检测区域;剔除敏感区域,保留待检测区域。本申请实施例提供的文字检测方法,进行图像矫正,敏感信息去除和图像增强的预处理,采用改进的CTPN网络进行文字检测,检测的准确率、召回率、F1值均大大提升,能够很好地满足实际应用的需要。
-
-
-
-
-
-
-
-
-