一种模板化的数据处理方法及装置

    公开(公告)号:CN111459474A

    公开(公告)日:2020-07-28

    申请号:CN202010176562.7

    申请日:2020-03-13

    Abstract: 本申请公开一种模板化的数据处理方法及装置。所述方法包括:确定包含待处理数据、以及框架标识的数据处理请求;获取为所述框架标识对应的大数据处理框架预设的特殊处理逻辑,所述特殊处理逻辑包括相比于其他大数据处理框架、具有特殊性的处理逻辑;根据所述特殊处理逻辑,以及预设的算子模板,生成适配于所述大数据处理框架的目标算子,所述预设的算子模板中包括适配于多种大数据处理框架的通用处理逻辑、以及为特殊处理逻辑预留的空位;响应于所述数据处理请求,根据所述待处理数据,利用所述目标算子执行数据处理。

    语义等价性判断方法和装置

    公开(公告)号:CN110543549A

    公开(公告)日:2019-12-06

    申请号:CN201910818133.2

    申请日:2019-08-30

    Abstract: 本申请公开了语义等价性判断方法及装置。该方法包括:根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量;将第一语句所对应的多个向量与第二语句所对应的多个向量进行匹配,并根据匹配结果生成相似度表示;将相似度表示拼接后通过模型的相似度表示层进行筛选;将筛选结果输入模型的自注意层,并通过自注意层计算自注意力值,自注意力值反映第一语句和第二语句的内部结构;根据自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。由于该方法对多个句子之间语义是否等价的判断结果,相对于现有技术准确性更高,因此能够用于解决现有技术中的问题。

    一种新闻专题事件发现的方法

    公开(公告)号:CN110162632A

    公开(公告)日:2019-08-23

    申请号:CN201910414328.0

    申请日:2019-05-17

    Abstract: 本发明公开了一种新闻专题事件发现的方法,主要包括:S1、对每篇给定的新闻文章进行事件主题句识别;S2、对每篇给定的新闻文章进行事件核心元素抽取;S3、利用步骤S2中提取的每篇新闻文章的事件核心元素判别文章相似性。本发明方法基于事件元素抽取(Event extraction)技术、话题追踪检测(Topic Detection and Tracking)、事件关系发现及专题新闻增量追加技术,来实现新闻文本的专题事件发现和聚类,实现新闻文本的基于话题进行专题聚类和发现的方法,使用者无需提供标注训练数据,也无需提供事件类型模板,无需了解相关领域知识,即可实现高质量的专题聚类和事件发现。

    一种半监督学习结合自定义词典的命名实体识别方法

    公开(公告)号:CN109858041A

    公开(公告)日:2019-06-07

    申请号:CN201910172675.7

    申请日:2019-03-07

    Abstract: 本发明公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi-LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。

    一种数据检索语句生成方法及装置

    公开(公告)号:CN111367907A

    公开(公告)日:2020-07-03

    申请号:CN202010098697.6

    申请日:2020-02-18

    Abstract: 本发明公开了一种数据检索语句生成方法、装置、电子设备以及计算机可读存储介质。该方法包括:接收数据检索语句生成请求;数据检索语句生成请求包含检索语句模板标识和关键词;响应于检索语句生成请求,从实例池中获取实例作为目标实例;实例池存储有预先设置的实例;调用获取的目标实例执行基于模板引擎的数据检索语句生成方法。采用该方法可以提高数据检索语句的生成效率。

    语句等价性判断方法和装置

    公开(公告)号:CN110633359A

    公开(公告)日:2019-12-31

    申请号:CN201910832807.4

    申请日:2019-09-04

    Abstract: 本申请实施例公开了一种语句等价性判断方法和装置,所述方法包括:获取待判断等价性的语句;将所述语句输入预先训练的等价性判断模型,所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到;通过所述等价性判断模型对所述语句进行等价性判断,得到等价性判断结果。通过本申请实施例,可以提高语句等价性判断的效率和精确性。

    一种大数据组件的监控方法、装置、电子设备

    公开(公告)号:CN110515795A

    公开(公告)日:2019-11-29

    申请号:CN201910687478.9

    申请日:2019-07-29

    Abstract: 本申请公开了一种大数据组件的监控方法,以解决现有技术中由于通常需要依赖人工装载和删除监控模块,从而导致监控过程自动化程度较低的问题。方法包括:监听服务器上是否存在待监控的目标组件;所述服务器,用于运行所述待监控的目标组件;若监听到所述服务器上存在待监控的目标组件,则判断可用监控方案列表中是否存在与所述目标组件相匹配的监控方案,所述可用监控方案列表用于存储预先配置的大数据组件监控方案;若是,则获取与所述目标组件相匹配的所述监控方案并加载,以对所述目标组件进行监控。本申请还公开一种大数据组件的监控装置、电子设备及计算机可读存储介质。

    一种基于优先级的实时ID拉通引擎方法

    公开(公告)号:CN109446215A

    公开(公告)日:2019-03-08

    申请号:CN201811294114.6

    申请日:2018-10-31

    Abstract: 本发明公开了一种基于优先级的实时ID拉通引擎方法,包括如下步骤:S1、ID拉通引擎从kafka中获取实时的消费行为日志数据,并从行为日志数据中提取出所有的ID,然后找到mainID;每条行为日志数据中,mainID将会与除它自己之外的其它ID分别建立ID关系,即每条行为日志数据产出的ID关系的条数为n-1,n为该行为日志数据中ID的数量;S2、根据步骤S1中生成的ID关系,更新数据库中ID关系的权重;S3、根据ID优先级由高到低的排序,逐级计算当前层级的ID的SuperID归属的变更。使用本发明的用户ID拉通解决方案,可以解决用户ID随着时间推移而变化这一现实问题;同时,准实时的实现(5s内)也可以满足互联网中推荐等其它技术的实时需求。

Patent Agency Ranking