-
公开(公告)号:CN110909535A
公开(公告)日:2020-03-24
申请号:CN201911244893.3
申请日:2019-12-06
Applicant: 北京百分点信息科技有限公司
IPC: G06F40/232 , G06F40/295
Abstract: 本公开涉及一种命名实体校对方法、装置、可读存储介质及电子设备。方法包括:基于中文分词结果,从待识别文本中提取第一命名实体,所述第一命名实体包括第一人名和/或第一职务;基于预设的数据库,从所述待识别文本中提取第二命名实体,所述第二命名实体包括第二人名和/或第二职务,所述预设的数据库中包括预设的人名和/或职务;根据所述第二命名实体,对所述第一命名实体进行纠错处理。由于是基于预设的数据库提取的第二命名实体,所以,所提取的第二命名实体较为准确,进而基于该较为准确的第二命名实体辅助对第一命名识别进行纠错处理,可以提高对待识别文本中的第一命名实体校对的准确度。
-
公开(公告)号:CN110134950A
公开(公告)日:2019-08-16
申请号:CN201910349756.X
申请日:2019-04-28
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开了一种字词结合的文本自动校对方法,首先分别采用如下两种查错方法进行查错:1)基于n-gram语言模型的查错方法;2)基于lstm语言模型的查错方法;然后将两种方法的查错结果求交集,得到最终的查错结果。本发明方法基于词符嵌入(word embeddings)技术、双向lstm网络、CRF(Conditional Random Field,条件随机场)模型等实现对输入文本进行分词与词性标注,在此基础上基于n-gram模型、双向lstm语言模型以及规则策略,实现文本中存在的错误查找。
-
公开(公告)号:CN108199795A
公开(公告)日:2018-06-22
申请号:CN201711485067.9
申请日:2017-12-29
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开了一种设备状态的监测方法和装置,该方法包括:获取对设备进行监测得到的监测数据;根据预先确定的状态监测模型,确定监测数据对应的异常值,状态监测模型根据设备的历史监测数据确定得到,异常值用于表征设备是否处于异常状态;根据异常值,对设备的状态进行监测。本发明实施例预先确定用于对设备的状态进行监测的状态监测模型,在对该设备的状态进行监测时,可以根据实时获取的该设备的监测数据,确定得到用于表征该设备状态的异常值,根据该异常值对设备的状态进行监测。这样,可以实现对设备状态的模型分析和智能监测,进而提高对设备状态进行监测的准确度和精确度,以及提高故障应对能力和智能化水平。
-
公开(公告)号:CN112541062A
公开(公告)日:2021-03-23
申请号:CN202011364569.8
申请日:2020-11-27
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/216 , G06F40/30
Abstract: 本公开涉及一种平行语料对齐方法、装置、存储介质及电子设备,所述方法包括:确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,在与所述目标搜索范围对对应的文本中确定目标对,确定目标对在待对齐源文本和待对齐目标文本中的位置序号,基于位置序号重新确定新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空,解决了相关技术中对齐效率较低的问题。
-
公开(公告)号:CN110543549A
公开(公告)日:2019-12-06
申请号:CN201910818133.2
申请日:2019-08-30
Applicant: 北京百分点信息科技有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F17/27
Abstract: 本申请公开了语义等价性判断方法及装置。该方法包括:根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量;将第一语句所对应的多个向量与第二语句所对应的多个向量进行匹配,并根据匹配结果生成相似度表示;将相似度表示拼接后通过模型的相似度表示层进行筛选;将筛选结果输入模型的自注意层,并通过自注意层计算自注意力值,自注意力值反映第一语句和第二语句的内部结构;根据自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。由于该方法对多个句子之间语义是否等价的判断结果,相对于现有技术准确性更高,因此能够用于解决现有技术中的问题。
-
公开(公告)号:CN110162632A
公开(公告)日:2019-08-23
申请号:CN201910414328.0
申请日:2019-05-17
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开了一种新闻专题事件发现的方法,主要包括:S1、对每篇给定的新闻文章进行事件主题句识别;S2、对每篇给定的新闻文章进行事件核心元素抽取;S3、利用步骤S2中提取的每篇新闻文章的事件核心元素判别文章相似性。本发明方法基于事件元素抽取(Event extraction)技术、话题追踪检测(Topic Detection and Tracking)、事件关系发现及专题新闻增量追加技术,来实现新闻文本的专题事件发现和聚类,实现新闻文本的基于话题进行专题聚类和发现的方法,使用者无需提供标注训练数据,也无需提供事件类型模板,无需了解相关领域知识,即可实现高质量的专题聚类和事件发现。
-
公开(公告)号:CN109858041A
公开(公告)日:2019-06-07
申请号:CN201910172675.7
申请日:2019-03-07
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi-LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。
-
公开(公告)号:CN108199795B
公开(公告)日:2019-05-10
申请号:CN201711485067.9
申请日:2017-12-29
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明公开了一种设备状态的监测方法和装置,该方法包括:获取对设备进行监测得到的监测数据;根据预先确定的状态监测模型,确定监测数据对应的异常值,状态监测模型根据设备的历史监测数据确定得到,异常值用于表征设备是否处于异常状态;根据异常值,对设备的状态进行监测。本发明实施例预先确定用于对设备的状态进行监测的状态监测模型,在对该设备的状态进行监测时,可以根据实时获取的该设备的监测数据,确定得到用于表征该设备状态的异常值,根据该异常值对设备的状态进行监测。这样,可以实现对设备状态的模型分析和智能监测,进而提高对设备状态进行监测的准确度和精确度,以及提高故障应对能力和智能化水平。
-
公开(公告)号:CN106021433B
公开(公告)日:2019-05-10
申请号:CN201610321688.2
申请日:2016-05-16
Applicant: 北京百分点信息科技有限公司
Abstract: 本发明实施例提供一种商品评论数据的口碑分析方法及装置,包括:接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapp i ng算法得到的;判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
-
公开(公告)号:CN107016571A
公开(公告)日:2017-08-04
申请号:CN201710209687.3
申请日:2017-03-31
Applicant: 北京百分点信息科技有限公司
CPC classification number: G06Q30/0202 , G06K9/6267
Abstract: 本发明公开一种数据预测方法及其系统,其中所述方法包括:通过数据库获取单一业务的数据信息,其中所述数据信息包括多维度的特征变量;通过多元回归方法,结合最小信息准则AIC值与贝叶斯信息准则BIC值,对所述多维度的特征变量进行数据筛选,过滤数据噪音;将数据筛选后的特征变量导入到机器学习模型中,对数据进行建模分析。通过本发明有效提高了数据预测的精准度。
-
-
-
-
-
-
-
-
-