一种基于百度地图API的地理位置实体规范化方法

    公开(公告)号:CN105335468A

    公开(公告)日:2016-02-17

    申请号:CN201510623640.2

    申请日:2015-09-28

    Abstract: 本发明涉及一种基于百度地图API的地理位置实体规范化方法,包括以下步骤:步骤1):利用百度地图API,对缺陷地理位置实体进行检索;步骤2):利用步骤1)的检索结果,构建缺陷地理位置实体的区域特征向量;步骤3):利用所述区域特征向量,对明确地理位置实体进行规范化;步骤4):利用所述明确地理位置实体,对歧义地理位置实体进行规范化;步骤5):利用等价地理位置实体,对零地理位置实体进行规范化。本发明以城市管理投诉文本为基础,利用地图API实现地理位置实体的规范化,结合城市管理投诉文本的特点、地理位置实体中存在的问题,对不完整的地理位置实体进行区域补全,从而解决了统计分析工作难以进行的局面。

    一种基于百度地图API的地理位置实体规范化方法

    公开(公告)号:CN105335468B

    公开(公告)日:2019-09-13

    申请号:CN201510623640.2

    申请日:2015-09-28

    Abstract: 本发明涉及一种基于百度地图API的地理位置实体规范化方法,包括以下步骤:步骤1):利用百度地图API,对缺陷地理位置实体进行检索;步骤2):利用步骤1)的检索结果,构建缺陷地理位置实体的区域特征向量;步骤3):利用所述区域特征向量,对明确地理位置实体进行规范化;步骤4):利用所述明确地理位置实体,对歧义地理位置实体进行规范化;步骤5):利用等价地理位置实体,对零地理位置实体进行规范化。本发明以城市管理投诉文本为基础,利用地图API实现地理位置实体的规范化,结合城市管理投诉文本的特点、地理位置实体中存在的问题,对不完整的地理位置实体进行区域补全,从而解决了统计分析工作难以进行的局面。

    一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法

    公开(公告)号:CN105468791B

    公开(公告)日:2019-11-15

    申请号:CN201610001346.2

    申请日:2016-01-05

    Abstract: 本发明涉及一种基于互动问答社区‑百度知道的地理位置实体的完整性表达方法,包括以下步骤:步骤1):通过数据处理提取缺陷地理位置实体defectLoc;步骤2):对提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;步骤3):根据检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;步骤4):利用规则对defectLoc进行完整化处理。本发明以微博城市投诉文本为基础,针对其中的地理位置实体表达不规范、非结构化的特点,使得工作人员很难进行统计分析工作,本发明提出一种基于百度知道的地理位置实体的完整性表达方法,对缺陷地理位置实体完整化具有较高的准确率,可以很好地满足实际应用的需要。

    一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法

    公开(公告)号:CN105468791A

    公开(公告)日:2016-04-06

    申请号:CN201610001346.2

    申请日:2016-01-05

    Abstract: 本发明涉及一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法,包括以下步骤:步骤1):通过数据处理提取缺陷地理位置实体defectLoc;步骤2):对提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;步骤3):根据检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;步骤4):利用规则对defectLoc进行完整化处理。本发明以微博城市投诉文本为基础,针对其中的地理位置实体表达不规范、非结构化的特点,使得工作人员很难进行统计分析工作,本发明提出一种基于百度知道的地理位置实体的完整性表达方法,对缺陷地理位置实体完整化具有较高的准确率,可以很好地满足实际应用的需要。

    一种基于视觉语义信息的图像分类深度学习模型解释方法

    公开(公告)号:CN115601588A

    公开(公告)日:2023-01-13

    申请号:CN202211196793.X

    申请日:2022-09-30

    Abstract: 本发明涉及计算机视觉领域的模型解释方法,特别涉及针对图像分类深度学习模型得到模型可解释性语句,提升模型解释效果,包括以下步骤:计算分类模型神经元置信度分数;利用反向传播推导出对应神经元权重并与置信度相乘作为最终评分找出重要神经元;使用类激活图将重要神经元在图像上的关注区域可视化,提取视觉特征,并用同样方法构建对应类的神经元视觉特征数据集;将视觉特征数据集标注对应语义信息并使用分类网络对其进行训练;使用训练好的分类网络提取重要神经元视觉特征对应的语义信息;结合神经元重要程度分数、视觉特征、语义信息组成描述此模型分类过程的解释性语句。

    一种新闻话题检测方法
    6.
    发明公开

    公开(公告)号:CN110134787A

    公开(公告)日:2019-08-16

    申请号:CN201910400320.9

    申请日:2019-05-15

    Abstract: 本发明涉及一种新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。本发明提供的新闻话题检测方法,提出了改进的相似度计算方法,采用抽取出的关键词集,通过聚类的方法,动态地调整新闻报道与话题的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词,用来完成新闻话题的检测,能够对新闻报道中的信息进行准确抽取,能够准确地自动检测新闻报道话题,使得话题能够自动更新并动态演化,检测效果好,可以很好地满足实际应用的需要。

    基于五笔码的字符级文本分类方法

    公开(公告)号:CN110059192A

    公开(公告)日:2019-07-26

    申请号:CN201910404059.X

    申请日:2019-05-15

    Abstract: 本发明涉及一种基于五笔码的字符级文本分类方法,采用五笔字型码对中文进行转换的字符级表示模型,采用五笔码将中文字符转化成唯一的英文字符串,再将英文字符串输入字符级模型中进行分类。本发明提供的基于五笔码的字符级文本分类方法,采用字符级表示模型,无需分词且能进行很好的字符转化,在中文文本分类中有着特殊的优势,分类效果明显优于传统模型和其他深度学习模型,可以有效地应用于中文文本分类,可以很好地满足实际应用的需要。

    基于LSTM的金融新闻倾向性分析方法

    公开(公告)号:CN109614490A

    公开(公告)日:2019-04-12

    申请号:CN201811566674.2

    申请日:2018-12-21

    Abstract: 本发明涉及一种基于LSTM的金融新闻倾向性分析方法,包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。本发明在公司名识别方法中加入百度百科查询作为识别的一个因素,效果更优且扩展性更好,解决了因产品过多而误判为非公司名的问题,关键句群抽取引入doc2vec模型,提高了相似度计算准确度,在表示句子时,使用Word2vec训练文本,同时引入TFIDF方法,充分利用了文本上下文的信息和词在文本的重要程度,可以取得很好的效果。

    一种赛事文字直播关键句抽取方法

    公开(公告)号:CN108549636A

    公开(公告)日:2018-09-18

    申请号:CN201810310247.1

    申请日:2018-04-09

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种赛事文字直播关键句抽取方法,其特征在于,包括:步骤一:利用Word2Vec进行关键词扩展,得到得分相关词集和其他相关词集,将得分相关词集、其他相关词集再加上比分特征和时间特征共同构成关键句抽取特征;步骤二:把关键句抽取转换为二分类问题,利用Adaboost算法进行分类。本发明首先利用Word2Vec对得分关键词和其他关键词进行扩展,得到得分相关词集和其他相关词集,然后把关键句抽取转换为二分类问题,以得分相关词集、其他相关词集、比分特征以及时间特征作为抽取特征,并利用Adaboost提升算法进行抽取,得到了更加准确的抽取效果,达到了很好的抽取效果,抽取结果的正确率、召回率和F值均较高,可以很好地满足实际应用的需要。

    一种专利文本相似度计算方法

    公开(公告)号:CN108536677A

    公开(公告)日:2018-09-14

    申请号:CN201810310246.7

    申请日:2018-04-09

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种专利文本相似度计算方法,包括以下步骤:从两个专利文本中提取专利数据,对专利数据进行预处理;将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。本发明综合考虑了专利结构特点和词汇间语义关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,比一般文本相似度计算方法更加具有针对性,能保证较高的准确率和召回率,可以很好地满足实际应用的需要。

Patent Agency Ranking