-
公开(公告)号:CN107704539A
公开(公告)日:2018-02-16
申请号:CN201710868572.5
申请日:2017-09-22
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明公开一种大规模文本信息批量结构化的方法及装置,能在短时间内批量处理大量文本信息。方法包括:根据不同文本信息的目标信息项建立不同的切分和抽取规则,以配置文件形式提供规则输入接口;根据对应的切分规则和抽取规则,以流水线处理方式,依次对单个文本信息完成自动化信息抽取操作;按照目标信息项的数据类型格式和长度建立数据库关系表,将经过自动化信息抽取后的文本信息转化为结构化记录,保存到数据库关系表中,对于未能成功抽取出关键信息的文本信息,使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项,根据候选信息项及对应的文本信息和规则内容对已有规则进行修正。
-
公开(公告)号:CN107704539B
公开(公告)日:2020-10-23
申请号:CN201710868572.5
申请日:2017-09-22
Applicant: 清华大学
IPC: G06F16/22 , G06F16/2455 , G06F16/28 , G06F16/2458
Abstract: 本发明公开一种大规模文本信息批量结构化的方法及装置,能在短时间内批量处理大量文本信息。方法包括:根据不同文本信息的目标信息项建立不同的切分和抽取规则,以配置文件形式提供规则输入接口;根据对应的切分规则和抽取规则,以流水线处理方式,依次对单个文本信息完成自动化信息抽取操作;按照目标信息项的数据类型格式和长度建立数据库关系表,将经过自动化信息抽取后的文本信息转化为结构化记录,保存到数据库关系表中,对于未能成功抽取出关键信息的文本信息,使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项,根据候选信息项及对应的文本信息和规则内容对已有规则进行修正。
-
公开(公告)号:CN109815204B
公开(公告)日:2021-03-02
申请号:CN201811505304.8
申请日:2018-12-10
Applicant: 清华大学
IPC: G06F16/182 , H04L29/08
Abstract: 本发明实施例提供一种基于拥塞感知的元数据请求分发方法及设备,包括:接收元数据请求以及所有可送达服务器的服务器状态信息,根据服务器状态信息,通过预设的代价估计函数对所有可送达服务器进行性能评估,获得所有可送达服务器中每一个服务器的性能代价;选取性能代价最低的服务器作为目标服务器,判断获知当前时间窗口内发往目标服务器的请求数量小于预设阈值,向目标服务器发送元数据请求;客户端等价判定目标服务器的拥塞状态,并根据目标服务器的拥塞状态,调整元数据请求的发送速率。本发明提供的方法,提高了元数据请求的处理速度和系统整体的吞吐率,通过感知服务器的拥塞状况,调整请求发送速率,节省了系统维护成本和时间开销。
-
公开(公告)号:CN109815204A
公开(公告)日:2019-05-28
申请号:CN201811505304.8
申请日:2018-12-10
Applicant: 清华大学
IPC: G06F16/182 , H04L29/08
Abstract: 本发明实施例提供一种基于拥塞感知的元数据请求分发方法及设备,包括:接收元数据请求以及所有可送达服务器的服务器状态信息,根据服务器状态信息,通过预设的代价估计函数对所有可送达服务器进行性能评估,获得所有可送达服务器中每一个服务器的性能代价;选取性能代价最低的服务器作为目标服务器,判断获知当前时间窗口内发往目标服务器的请求数量小于预设阈值,向目标服务器发送元数据请求;客户端等价判定目标服务器的拥塞状态,并根据目标服务器的拥塞状态,调整元数据请求的发送速率。本发明提供的方法,提高了元数据请求的处理速度和系统整体的吞吐率,通过感知服务器的拥塞状况,调整请求发送速率,节省了系统维护成本和时间开销。
-
-
-