-
公开(公告)号:CN117391081A
公开(公告)日:2024-01-12
申请号:CN202311409794.2
申请日:2023-10-27
Applicant: 之江实验室
IPC: G06F40/289 , G06F40/216 , G06F18/213 , G06F18/24
Abstract: 本申请涉及一种跨系统表单文本处理方法、装置及可读存储介质,所述方法包括:获取历史基准表单,以及所述历史基准表单中的基准字段;获取历史从属表单,以及所述历史从属表单中与所述基准字段对应的从属字段;对所述历史基准表单中所述基准字段对应的文本数据和所述历史从属表单中所述从属字段对应的文本数据进行比较,生成文本映射表,所述文本映射表包括至少一个文本对,所述文本对包括互相映射的标准文本和非标准文本;基于所述文本映射表,将所述历史从属表单和新增从属表单中所述从属字段对应的非标准文本替换为对应的标准文本,解决了跨系统表单的数据一致性较差的问题,提高了表单数据的应用价值。
-
公开(公告)号:CN116578877B
公开(公告)日:2023-12-26
申请号:CN202310867387.X
申请日:2023-07-14
Applicant: 之江实验室
IPC: G06F18/214 , G06Q10/0635
Abstract: 本说明书公开了一种模型训练及二次优化打标的风险识别的方法及装置,通过根据风险识别模型所确定出的低于预设风险阈值的数据,来对辅助模型进行训练。并将风险识别模型与训练所得到的辅助模型相结合,来判断用户所执行的目标业务对应的业务数据是否存在风险。从而保证对于该目标业务是否存在风险的判断的准确性。
-
公开(公告)号:CN117252555A
公开(公告)日:2023-12-19
申请号:CN202311507842.1
申请日:2023-11-14
Applicant: 之江实验室
Abstract: 本申请涉及一种基于车险场景的半自动化特征工程方法、系统和介质,其中,基于车险场景的半自动化特征工程方法包括:对各所述数据表中各字段进行分类,并基于所述字段类型确定对应的特征衍生策略以及特征聚合策略;基于所述字段类型,生成各所述数据表之间的表连接关系;基于所述特征衍生策略对各所述数据表中的字段进行特征衍生,得到衍生特征;并基于所述表连接关系以及所述特征聚合策略将各所述从表中的原始特征和所述衍生特征聚合到所述主表上,得到聚合后的主表;基于所述字段类型对所述聚合后的主表中的特征进行预处理,将预处理后的特征输入至模型中进行训练,获得识别模型;基于所述识别模型对数据表记录的车险事件进行识别,获得识别结果,提高了车险事件识别的精确度。
-
公开(公告)号:CN116821817A
公开(公告)日:2023-09-29
申请号:CN202310595002.9
申请日:2023-05-23
Applicant: 之江实验室
IPC: G06F18/243 , G06N5/01 , G06N20/20 , G06F18/214 , G06F18/27
Abstract: 本申请涉及一种基于联合树模型的数据预测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:首先,获取本地数据集与初始第三方数据集,之后,基于所述本地数据集确定局部训练树模型,基于联合数据集确定局部联合树模型,其中,所述联合数据集包括所述本地数据集和初始第三方数据集,之后,基于所述本地数据集确定所述局部训练树模型和局部联合树模型的树节点的信息熵值,之后,基于所述信息熵值确定所述初始第三方数据集参与训练的增益程度,基于所述增益程度确定目标第三方数据集,并基于所述本地数据集以及目标第三方数据集确定目标联合树模型,最后,将待预测数据输入所述目标联合树模型,得到预测结果。
-
公开(公告)号:CN116304891B
公开(公告)日:2023-08-01
申请号:CN202310590427.0
申请日:2023-05-24
Applicant: 之江实验室
IPC: G06F18/241 , G06N3/096 , G06N3/088 , G06F16/2452 , G06N3/08
Abstract: 本申请涉及一种基于多源数据迁移学习的类别预测方法和装置。所述方法包括:获取多个来自不同数据源的表格数据,基于表格数据确定不同的目标任务下的关键数据映射表;通过数据向量化获取表格数据中每个单元格的文本向量,根据文本向量对待训练的自监督表格模型进行预训练;基于关键数据映射表,通过自监督表格模型确定目标任务训练集;基于目标任务对自监督表格模型进行优化,得到待优化的目标表格模型,根据目标任务训练集训练待优化的目标表格模型,得到目标表格模型;通过目标表格模型确定待预测数据的类别。采用本方法能够解决业务相似的不同机构中存在的因表格结构差异导致的预处理工作繁重、业务模型无法迁移复用等难点问题。
-
公开(公告)号:CN115293133A
公开(公告)日:2022-11-04
申请号:CN202210564739.X
申请日:2022-05-23
Applicant: 之江实验室
IPC: G06F40/211 , G06F16/35 , G06F40/216 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于抽取文本因子增强的车险欺诈行为识别方法,在文本抽取前期阶段,通过度量文本相似度解决原始数据缺省和错误问题,利用车险场景知识构建车辆事故描述关键词词汇表,提升车险场景文本分词准确度。本发明融合了词性句法信息,设计了预训练语言模型联合框架。利用预训练语言模型知识抽取事故触发词,结合注意力机制学习句法关系权重,通过词性过滤优化抽取结果。本发明还提出并设计了事故原因转译模版帮助抽取事故原因,可以有效减低模型中间存在的传递误差。最后,整合抽取的文本因子,利用Transformer编码器将离散的结构化文本编码,并采用集成学习模型预测是否存在车险欺诈行为。
-
-
-
-
-