-
公开(公告)号:CN102004724A
公开(公告)日:2011-04-06
申请号:CN201010602030.1
申请日:2010-12-23
Applicant: 哈尔滨工业大学
IPC: G06F17/27
Abstract: 文档段落分割方法,本发明涉及文档的分割方法。用于文本分割。它解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确的缺陷。它通过下述步骤实现:一、对文档进行分词的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段,对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割。
-
公开(公告)号:CN102004560A
公开(公告)日:2011-04-06
申请号:CN201010567997.0
申请日:2010-12-01
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统,涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。
-
公开(公告)号:CN101452444A
公开(公告)日:2009-06-10
申请号:CN200810009074.6
申请日:2008-01-26
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及信息编辑处理技术,具体涉及一种对联机输入状态下手写写入信息和在脱机状态下获取的已有手写文档的扫描信息根据编辑指令进行快速编辑排版的方法和对编辑过程中输入的编辑符的识别方法。通过将手写体信息进行切分或合并处理成独立信息单元,并将处理后的手写体信息进行编码,建立支持编辑操作的索引,并通过执行编辑指令实现在编辑后对受编辑影响的信息单元进行自动排版。本发明有效的解决了对联机输入状态下手写写入信息和在脱机状态下获取的已有手写文档的扫描信息进行编辑完成后,不能实现再排版,影响文档整体性的技术问题;系统对编辑过程中输入的编辑符识别准确、高效、识别错误率低。
-
公开(公告)号:CN100465860C
公开(公告)日:2009-03-04
申请号:CN200310121628.9
申请日:2003-12-31
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 数字键盘智能拼音汉字输入方法,以“语句”为单位通过数字键盘将汉字输入到手机、电话机、传真机、或掌上类信息处理设备。使用本输入法,能同时自动处理汉字输入过程中的数字键位歧义、拼音组合歧义、和同音多字歧义。用户只需输入对应汉字拼音的数字键,系统便根据上下文在整个语句范围内调整相应的汉字,保证汉字语句的正确。输入过程中数字拼音的确认可由人工操作,也可由系统自动完成,同时,可处理其他形式的拼音输入。系统能自动学习用户知识,不断提高拼音到汉字转换的准确率。本输入法操作自然,易于学习,可减少拼音输入的击键次数,提高手机类设备的汉字输入速度。
-
公开(公告)号:CN101183283A
公开(公告)日:2008-05-21
申请号:CN200710077578.7
申请日:2007-12-04
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及信息输入技术,具体涉及一种不经过信息识别、选取过程,将所述信息进行切分或合并成独立信息单元后直接在显示构件上进行原手写体笔迹显示的一种直接写入手写体信息的方法。该方法由操作者通过输入构件写入手写体信息;通过系统对用户写入的所述手写体信息进行捕捉并将该手写体信息进行切分或合并成独立信息单元,然后在显示构件上进行原笔迹显示,通过该方法输入的手写体更便于编辑操作。本发明中所述直接写入手写体信息的方法更适合汉字和特殊字符和公式的输入,大大提高了信息输入的效率,并且保留了书写者的原字体,使常用非正式文档更具有个性化特点。
-
公开(公告)号:CN1246761C
公开(公告)日:2006-03-22
申请号:CN200410013523.6
申请日:2004-01-15
Applicant: 哈尔滨工业大学
IPC: G06F3/023
Abstract: 三键输入数字键盘及应用该键盘的输入方法,它涉及一种用数字键盘输入汉语拼音的键盘和方法。克服现有输入方法在输入汉语拼音时存在击键次数过多、烦琐、不易掌握等弊端。三键输入数字键盘包含数字键盘,还包含在数字键本身或在显示屏上显示的一级拼音分类布局键盘、在数字键盘本身或在显示屏上显示的二级拼音分类布局键盘、在数字键盘本身或在显示屏上显示的三级拼音分类布局键盘;步骤是:显示一级拼音分类布局键盘;输入布局中相对应的数字键;显示二级拼音分类布局键盘中相对应的子布局键盘;输入子布局中相对应的数字键;显示三级拼音分类布局键盘中相对应的子布局键盘;输入子布局中相对应的数字键;完成一个完整的汉语拼音的输入。本发明能在数字键盘上键入三次数字键输入一个拼音,不需输入确认键,具有易学性。
-
公开(公告)号:CN1063947A
公开(公告)日:1992-08-26
申请号:CN91100711.3
申请日:1991-02-02
Applicant: 哈尔滨工业大学
Inventor: 王晓龙
IPC: G06F3/023
Abstract: 语句级类码汉字输入方法及装置,特别适用于声音输入、键盘输入、汉字识别输入以及汉语分词领域。同目前流行的字词输入法不同,本发明以语句为输入单位,操作自然,所需输入信息少,很容易在易学性和快速输入方面获得突破,是一种适用于看打、想打、听打、说打、写打等各种汉字输入形式的全新型汉字输入方法。本发明的汉语自动分词方法可用于汉字流、音节流、近音流(语音流)、近字流的自动分词。
-
公开(公告)号:CN107977361A
公开(公告)日:2018-05-01
申请号:CN201711278996.2
申请日:2017-12-06
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提出了一种基于深度语义信息表示的中文临床医疗实体识别方法,包括两部分内容:1)中文临床医疗实体的表示方法;2)中文临床医疗实体的识别方法。表示方法包括以下两种:单标签表示和多标签表示。识别方法融入基于医疗领域偏旁部首信息的汉字表示方法,基于CNN获取医疗文本的局部语义信息,基于双向LSTM获取医疗文本的全局语义,并基于Attention机制对句子中不同词的语义信息进行选择。本发明继承了深度学习的优势,具有较少人工特征干预及更高的准确率和召回率等优点。
-
公开(公告)号:CN107729414A
公开(公告)日:2018-02-23
申请号:CN201710889249.6
申请日:2017-09-27
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
CPC classification number: G06F17/30064 , G06F17/30551 , G06F17/30864
Abstract: 本发明提供了一种展示历史时间轴的知识服务方法、系统及介质,该知识服务方法包括:建立知识库步骤:收集历史上的重要事件和人物的相关介绍以及其他有关历史的信息,从而建立知识库;建立时间轴步骤:利用时间信息抽取技术,对采集得到的历史相关信息进行时间标注,并按照时间先后顺序进行整合、排序;数据可视化步骤:将历史事件和人物的简介资料以幻灯片的形式在时间轴上呈现;搜索功能步骤:用户搜索历史事件、人物或时间后定位到相应的时间轴位置。本发明的有益效果是:本发明能够将大部分的历史的重要事件和人物在时间轴上以幻灯片的形式呈现出来,用户可方便地在时间轴上查看各个历史事件和人物的资料。
-
公开(公告)号:CN104636636B
公开(公告)日:2018-01-05
申请号:CN201510057034.9
申请日:2015-02-02
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。
-
-
-
-
-
-
-
-
-