-
公开(公告)号:CN113536768A
公开(公告)日:2021-10-22
申请号:CN202110797247.0
申请日:2021-07-14
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F40/205 , G06F16/903
Abstract: 本发明涉及一种基于正则表达式建立文本抽取模型的方法,包括如下步骤:S1、编写若干个正则表达式;S2、根据所述正则表达式,在语料库中抽取语料集;S3、将所述语料集分割为训练集与验证集;S4、构建文本抽取模型;S5、将训练集输入至文本抽取模型,训练文本抽取模型;S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。
-
公开(公告)号:CN109710947B
公开(公告)日:2021-09-07
申请号:CN201910058614.8
申请日:2019-01-22
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网浙江省电力有限公司 , 国家电网有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F40/20 , G06F16/36 , G06F16/335
Abstract: 一种电力专业词库生成方法及装置,其中方法包括如下步骤,获取电力相关语料,对相关语料进行切词,得到候选词,对候选词进行互信息值计算,设定互信息值阈值,将互信息值小于互信息值阈值的词剔除。解决现有技术中电力专业词库杂乱不准确,无法满足实际需求的问题。
-
公开(公告)号:CN112817528A
公开(公告)日:2021-05-18
申请号:CN202110083022.9
申请日:2021-01-21
Applicant: 西安交通大学 , 国网信息通信产业集团有限公司 , 福建亿榕信息技术有限公司
IPC: G06F3/06
Abstract: 本发明公开了一种用于系统存取的冷热数据识别优化方法,利用时效表格和访问程度表格分别缓存时效性强的数据和访问频繁程度高的数据,将缓存链表中淘汰的数据保存到辅助链表,根据工作负载来预测最佳冷热数据识别,并进行自适应调整识别调整,以适应系统访问最优化调整,根据调整时效表格和访问程度表格的长度来适应实际中的不同的工作负载,在时效表格和访问程度表格中的数据为热数据,采用辅助链表作为再缓存辅助存储列表,辅助链表中仅存放数据页面信息,不存储具体的数据,大大节省了内存空间,通过结合数据的时效性和访问频繁程度,自适应调整冷热数据识别,从而达到系统存储空间的合理分配,提高系统运行效率,降低系统运行成本。
-
公开(公告)号:CN112417083A
公开(公告)日:2021-02-26
申请号:CN202011258349.7
申请日:2020-11-12
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F16/31 , G06F16/36 , G06F40/295
Abstract: 本发明涉及数据处理技术领域,特别涉及一种构建部署文本实体关系提取模型的方法和存储设备。所述一种构建部署文本实体关系提取模型的方法,包括步骤:创建项目工程,创建数据存储目录;采集数据,对所述数据进行预处理;根据第四预设规范对所述预处理后的数据进行标注,抽取评估数据,并根据第五预设规范对所述评估数据进行数据评估;对标注后的数据进行切分成不同类型数据;选定训练模型,并将所述不同类型数据进行处理使得符合所述训练模型接收的数据格式;根据处理后的测试数据和处理后的评估数据对训练后的训练模型进行模型评估,若评估合格,则发布评估合格的模型。通过上述技术方案大大降低自然语言处理技术的应用门槛。
-
公开(公告)号:CN112416453A
公开(公告)日:2021-02-26
申请号:CN202011259907.1
申请日:2020-11-12
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
Abstract: 本发明涉及计算机领域,特别涉及一种面向信创环境下国产化外部设备统一数据集成的方法和存储设备。所述一种面向信创环境下国产化外部设备统一数据集成的方法,包括步骤:构建本地中间件,所述本地中间件内封装有不同的接口;本地业务系统通过所述不同的接口与外部硬件进行适配,或本地业务系统通过所述不同的接口调用自动化程序。本地中间件作为中间桥梁,使得本地业务系统和外部硬件及本地业务系统和各种自动化程序通过本地中间件即可实现数据通讯与集成适配,满足了不同信创环境下,不同外部设备的统一数据集成的需求,无需针对不同环境不同设备进行适配集成开发,大大增加灵活性。
-
公开(公告)号:CN112380186A
公开(公告)日:2021-02-19
申请号:CN202011229058.5
申请日:2020-11-06
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F16/21 , G06F16/2458 , G06F16/27
Abstract: 本发明提供一种基于主动适配的国产数据库迁移方法,属于计算服务数据库领域,该基于主动适配的国产数据库包括源数据库、数据库迁移系统和,源数据库的信号输出端与数据库迁移系统的信号接收端之间信号连接,数据库迁移系统的信号输出端与的信号接收端之间信号连接,数据库迁移系统用于将源数据库内的数据迁移至内,数据库迁移系统内设置有主动适配模块、数据同步模块、语法转换模块、数据校验模块和性能测试模块;本发明提供了非国产数据库与国产数据库之间迁移的一站式服务,极大降低数据库迁移成本;同时运用数据日志同步技术,可以在不影响系统运行情况,实现数据库的热迁移,使得本系统的适用性更加广泛。
-
公开(公告)号:CN112101007A
公开(公告)日:2020-12-18
申请号:CN202010991878.1
申请日:2020-09-21
Applicant: 国网辽宁省电力有限公司电力科学研究院 , 福建亿榕信息技术有限公司 , 南京南瑞信息通信科技有限公司 , 国家电网有限公司
Inventor: 胡博 , 李钊 , 李伟 , 王丽霞 , 王大维 , 雷振江 , 田小蕾 , 杨超 , 顾海林 , 胡楠 , 刘晓强 , 齐俊 , 高强 , 庄莉 , 梁懿 , 陈新梅 , 刘鹏宇 , 曹国强
IPC: G06F40/216 , G06F40/284 , G06F40/289
Abstract: 一种从非结构化文本数据中提取结构化数据的方法及系统属于数据处理技术领域,尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。本发明提供一种从非结构化文本数据中提取结构化数据的方法及系统。本发明包括以下步骤:1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置。2.分词、标注词性。通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注。
-
公开(公告)号:CN111967245A
公开(公告)日:2020-11-20
申请号:CN202010657137.X
申请日:2020-07-09
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国家电网有限公司 , 国网湖南省电力有限公司 , 国网湖南省电力有限公司信息通信分公司 , 国网四川省电力公司 , 国网四川省电力公司自贡供电公司 , 国网信通亿力科技有限责任公司
IPC: G06F40/226 , G06F40/151 , G06F16/335 , G06F16/903
Abstract: 一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备,包括:通过TIKA算法抽取需要审核的文档的文本内容;对抽取的文本内容进行分析处理,匹配MD5码库,判断是否为重复文件;对文档题名和文档内容进行过滤规则定制;抽取出当前文档的正文内容后,采用DFA算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。本次发明对文档的内容进行抽取分析,增加审核规则,通过制定的规则,实现对文档的真实性、合法性的初审,若通过审核规则无法检测到文档内容的真实性,再交由人工继续审核,实现人工审核前的初步审核,给与审核人员审核文档时较为准确的参考。
-
公开(公告)号:CN111090986A
公开(公告)日:2020-05-01
申请号:CN201911197178.9
申请日:2019-11-29
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F40/205 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 一种公文文档纠错的方法,包括步骤,文种检测,利用机器学习进行文种识别模型训练,将文档文种分类为通知、报告、批复、通报、函、会议纪要、请示之类型;错误检测步骤,包括通过中文分词器切词,从字粒度和词粒度方面检测错误,整合这两种粒度检测的疑似错误结果,形成疑似错误位置候选集;使用双向字符级N-gram LM深度学习模型,对句子里的字符打分,得分低的地方视为待纠错位置,将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字,加入错误位置候选集。上述方案结合行文规范、内容不全的、立题不明、语法纠错、通顺性检测、上下文关联等审核要求,该特点对现有技术方案进行创新改造和结合,经过测试能够有效提升企业电子公文文档纠错的效果。
-
公开(公告)号:CN111046235A
公开(公告)日:2020-04-21
申请号:CN201911193171.X
申请日:2019-11-28
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F16/783 , G06F16/78 , G06K9/00 , G06K9/62
Abstract: 本发明提供一种基于人脸识别的声像档案搜索方法、系统、设备及介质,方法包括:1、对一声像档案中的每一个视频数据进行切图处理,对每一张图片进行命名并存储至缓存目录中;2、读取每一张图片进行人脸识别检测,如果图片中存在人脸,则提取该图片中的条目信息;3、将所有声像档案的视频数据重复步骤1和步骤2,根据每一个条目信息建立人脸特征信息库;4、获取关键人物的基本信息及照片信息,建立关键人物信息库;5、选择检索方式并输入,找到目标人物并提取人脸特征信息,根据人脸特征信息在人脸特征库中进行比对,返回符合条件的条目信息;6、根据条目信息找到相匹配的视频文件并输出,再播放对应视频片段。本发明提高了档案检索效率。
-
-
-
-
-
-
-
-
-