电子表单表转换
    1.
    发明授权

    公开(公告)号:CN114207598B

    公开(公告)日:2025-05-02

    申请号:CN201980099111.3

    申请日:2019-08-08

    Abstract: 提供了一种用于电子表单表转换的方案。在该方案中,检测电子表单表的至少一个表头区域和数据区域。通过分析表头区域中的单元合并和/或缩进、和/或数据区域的对应单元中的数据项之间的函数关系,确定表头区域中每个表头区域的层级结构。基于对表头区域的层级结构的识别,电子表单表能够被转换为关系表。以此方式,基于表头层级来辅助理解表头结构,可以实现从电子表单表向关系表的自动转换。

    电子表单中的表格检测
    2.
    发明授权

    公开(公告)号:CN110659527B

    公开(公告)日:2023-03-28

    申请号:CN201810698750.9

    申请日:2018-06-29

    Abstract: 本公开涉及电子表单中的表格检测。根据本公开的实现,提出了一种用于确定电子表单中的表格的方案。在该方案中,可以提取电子表单中包括的多个单元格各自的多个属性。继而,可以基于提取的多个属性,确定多个单元格各自的特征。基于特征,可以将多个单元格划分为至少一个候选区域。基于至少一个候选区域,可以确定电子表单中的至少一个候选表格。通过该方案,可以基于电子表单中包括的多个单元格各自的属性来确定各个单元格的特征,进而可以基于针对各个单元格的特征来确定其中可能存在表格的候选区域。

    对多维数据集之间的差异的自动分析

    公开(公告)号:CN109033104B

    公开(公告)日:2022-05-13

    申请号:CN201710433307.4

    申请日:2017-06-09

    Abstract: 根据本公开的实现,提出了一种用于对多维数据集之间的差异的自动分析方案。在该方案中,接收针对第一数据集和第二数据集的分析请求,第一数据集和第二数据集各自包括与多个维度对应的数据项。响应于分析请求,比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项。基于比较确定与第一维度相关联的第一组影响因素,第一组影响因素中的每一个从相应的角度指示第一数据集与第二数据集之间的差异的原因。至少部分基于第一组影响因素,呈现与第一数据集和第二数据集之间的差异有关的分析结果。通过这种方式,实现了对不同数据集差异的自动和有效的分析。

    电子表单中的表格检测
    4.
    发明公开

    公开(公告)号:CN110659527A

    公开(公告)日:2020-01-07

    申请号:CN201810698750.9

    申请日:2018-06-29

    Abstract: 本公开涉及电子表单中的表格检测。根据本公开的实现,提出了一种用于确定电子表单中的表格的方案。在该方案中,可以提取电子表单中包括的多个单元格各自的多个属性。继而,可以基于提取的多个属性,确定多个单元格各自的特征。基于特征,可以将多个单元格划分为至少一个候选区域。基于至少一个候选区域,可以确定电子表单中的至少一个候选表格。通过该方案,可以基于电子表单中包括的多个单元格各自的属性来确定各个单元格的特征,进而可以基于针对各个单元格的特征来确定其中可能存在表格的候选区域。

    数据表的自动格式化
    6.
    发明公开

    公开(公告)号:CN111428457A

    公开(公告)日:2020-07-17

    申请号:CN201811575065.3

    申请日:2018-12-21

    Abstract: 根据本公开的实现,提出了一种用于数据表的自动格式化的方案。一种计算机实现的方法包括获取数据表的多个单元格的至少一个属性的取值,至少一个属性的取值指示多个单元格中填充的数据的语义和数据表的结构中的至少一项,多个单元格以行和列布置在数据表中;利用第一学习网络,提取至少一个属性的取值的特征表示;以及至少利用第一学习网络,基于特征表示确定多个单元格各自的格式。以此方式,利用学习网络实现从单元格的属性设置到单元格格式之间的自动映射,以实现数据表的自动格式化。

    基于数据划分的频繁对象挖掘

    公开(公告)号:CN103150311B

    公开(公告)日:2018-03-09

    申请号:CN201110418088.5

    申请日:2011-12-07

    Abstract: 本发明提供了一种基于数据划分的频繁对象挖掘方法。首先,用一相对较小的局部阈值对经随机划分的数据库进行局部频繁对象挖掘,然后再从局部挖掘对象的并集中挖掘全局频繁对象。这种方法解决了现有的频繁对象挖掘方法的规模受限于存储器容量的问题。当应用于挖掘频繁闭序列时,可作用于例如超过4亿个序列的超大规模的序列数据库,且具有例如99%的高召回率。这一规模约比现有方法所支持的数据库规模高了两个数量级。

    检测数据收集正当性
    9.
    发明公开

    公开(公告)号:CN113468589A

    公开(公告)日:2021-10-01

    申请号:CN202010237495.5

    申请日:2020-03-30

    Abstract: 本公开提供了用于检测数据收集正当性的方法和装置。所述数据收集可以是通过用户在数据收集服务中处理与所述数据收集相关的内容来实施的。可以监视在所述数据收集服务和/或至少一个外部服务中发生的至少一个事件,所述事件与所述内容和/或所述用户相关联。可以响应于所述事件,从所述数据收集服务和/或所述外部服务中检测与所述事件相关联的状态信息。可以基于所述状态信息来确定内容评价等级和/或创建者评价等级,所述内容评价等级对应于所述内容的正当性,所述创建者评价等级对应于所述内容的创建者的正当性。

    对数据集的分析的自动推荐

    公开(公告)号:CN112860685B

    公开(公告)日:2024-12-10

    申请号:CN201911184158.8

    申请日:2019-11-27

    Abstract: 根据本公开的实现,提出了一种对数据集的分析的自动推荐的方案。根据该方案,提取数据集的多个维度的维度特征信息和多个候选分析操作的操作特征信息。基于维度特征信息和操作特征信息,确定多个维度和多个候选分析操作的多个候选组合适合用于定义针对数据集的分析模式的相应度量。分析模式包含至少一个待分析维度和对至少一个待分析维度执行的至少一个分析操作。基于所确定的相应度量,提供关于针对数据集的分析模式的推荐,以指示至少一个候选组合。以此方式,可以针对给定数据集评估和提供适用的分析模式,促进数据分析任务的快速完成。

Patent Agency Ranking