-
公开(公告)号:CN106570179A
公开(公告)日:2017-04-19
申请号:CN201610991857.3
申请日:2016-11-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。
-
公开(公告)号:CN106126654A
公开(公告)日:2016-11-16
申请号:CN201610479968.6
申请日:2016-06-27
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于用户名相似度的跨网站用户关联方法,步骤包括:1)对多个用户名中的字符进行过滤,仅保留英文字母和数字;2)找出上述处理过的用户名的特征,并获取该特征的自信息值,根据该自信息值得到自信息向量;3)根据上述自信息向量,得到所述多个用户名间的相似度,如果该相似度大于给定的阈值τ,则判断所述多个用户名属于同一用户。本方法通过多个用户名间的相似度来判断其是否属于同一用户,对属于同一用户的不同网站上的账户可实现关联。
-
公开(公告)号:CN117688345A
公开(公告)日:2024-03-12
申请号:CN202311496024.6
申请日:2023-11-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种数据服务方法及系统,所述方法包括:通过用户行为来确定需要捕获的原始数据,并结合标注任务所确定的数据格式,得到原始数据集;基于原始数据集进行数据生成,以得到生成数据集;结合用户配置的标注任务,已训练的数据标注模型对原始数据集和生成数据集内的数据进行标注,以得到标注数据集;将数据标注模型、原始数据集、生成数据集和标注数据集存储到数据中心后,设置数据标注模型或数据的权限和检索标签;其中,数据中心设有一提供模型标注服务的数据标注接口和一提供模型管理服务的模型管理接口。本发明可以为数据提供全面服务的同时,能够高效的完成从数据采集到数据使用的完整工作。
-
公开(公告)号:CN116226557A
公开(公告)日:2023-06-06
申请号:CN202211726541.3
申请日:2022-12-29
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9538 , G06F16/957 , G06F16/955 , G06F16/35 , G06F40/295 , G06V10/764
Abstract: 本发明公开一种待标注数据的拾取方法、装置、电子设备和存储介质,涉及数据标注领域。所述方法包括:获取用户所参与的标注任务;基于所述标注任务,为所述用户提供用于固定数据的输入格式;在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,以得到数据捕获区域;通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容;基于所述输入格式,将所述网页区域和内容传输给数据标注系统。本发明可以精准完成数据获取和格式校验并同步提交到标注系统,大幅提升标注效率。
-
公开(公告)号:CN112651243A
公开(公告)日:2021-04-13
申请号:CN202011481330.9
申请日:2020-12-15
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/216 , G06F40/242 , G06F16/35
Abstract: 本发明公开了一种基于融入结构化实体信息的缩写项目名称识别方法及电子装置,包括:获取知识库锚文本、常用项目名词典及缩写项目名称,结合实体边界识别模块、命名实体抽取模块及缩写项目名称识别模块,对一预训练编码器进行训练,得到缩写项目名称识别模型;将测试文本输入所述缩写项目名称识别模型,识别所述测试文本中的缩写项目名称。本发明提高了文本中缩写项目名称的识别率与召回率。
-
公开(公告)号:CN112651234A
公开(公告)日:2021-04-13
申请号:CN202011502018.3
申请日:2020-12-18
Applicant: 中国科学院信息工程研究所
IPC: G06F40/253 , G06F40/30 , G06F40/117 , G06F40/169 , G06F40/247
Abstract: 本发明公开一种半开放信息抽取的方法及装置,涉及自然语言处理领域,通过将目标实体和无结构文本前后拼接构成组合文本,处理得到目标实体感知的上下文表示;再将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示,对私有表示进行谓语和宾语的抽取,以及进行边界对齐;最后通过谓语和宾语组合,查找起始和结束位置组合在边界对齐矩阵中是否有相应的标签,如果找到,则保留 元组并作为输出的关系知识。本发明能够克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足。
-
公开(公告)号:CN112651243B
公开(公告)日:2023-11-03
申请号:CN202011481330.9
申请日:2020-12-15
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/216 , G06F40/242 , G06F16/35
Abstract: 本发明公开了一种基于融入结构化实体信息的缩写项目名称识别方法及电子装置,包括:获取知识库锚文本、常用项目名词典及缩写项目名称,结合实体边界识别模块、命名实体抽取模块及缩写项目名称识别模块,对一预训练编码器进行训练,得到缩写项目名称识别模型;将测试文本输入所述缩写项目名称识别模型,识别所述测试文本中的缩写项目名称。本发明提高了文本中缩写项目名称的识别率与召回率。
-
公开(公告)号:CN115965010A
公开(公告)日:2023-04-14
申请号:CN202211365738.9
申请日:2022-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/279 , G06F40/30
Abstract: 本发明公开了一种基于两阶段训练策略的术语抽取方法。本方法为:1)获取目标领域的多篇文档并对其中的术语进行标注,得到该目标领域的术语训练集;2)基于中文预训练语言模型构建术语抽取模型,并利用所述术语训练集对所述术语抽取模型进行训练,得到术语知识模型;3)使用教师学生网络对所述政务术语知识模型进行自训练调优,获得术语抽取模型;4)将所述目标领域的一篇文档a输入所述术语抽取模型,得到该文档a中的术语。本发明通过两阶段训练策略和泛化交叉熵损失函数来缓解远程监督标注数据带来的错误标签问题,从而提升术语抽取模型的泛化能力,最后通过实验论证了该方法的可行性和高效性。
-
公开(公告)号:CN106570179B
公开(公告)日:2019-11-19
申请号:CN201610991857.3
申请日:2016-11-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。
-
-
-
-
-
-
-
-