首页 >> 社科评价 >> 评价成果
基于CRFs的领域爆发词识别的研究与实现
2014年09月04日 09:41 来源:中国社会科学评价中心 作者:逯万辉 马建霞 字号

内容摘要:《基于CRFs的领域爆发词识别的研究与实现》对爆发词识别问题进行了研究和剖析

关键词:CRFs;爆发词;爆发特征;条件随机场;原型系统

作者简介:

  【摘要】:通过对爆发词识别问题的研究和剖析,本文采用了基于条件随机场模型的方法进行爆发特征提取,在此基础上设计了频次、频率和词频文档比三个指标进行计算,选取镍钴产业专利文本为例进行了领域爆发词识别实验,并实现了爆发词识别系统原型的开发。

  【关键词】:爆发词;爆发特征;条件随机场;原型系统

  中图分类号:G254.9 文献标识码:A 文章编号:1007-7634(2014)01-89-05

  【正文】

    1 引言

  在信息化高速发展的今天,人们获取信息的途径和方式越来越多、获得的信息量倍增,但却容易卷入无序的信息海洋中,难以获得有用的知识,因此,探索基于人工智能的自动知识发现技术一直是目前的研究热点,并出现了话题检测与追踪、舆情监控等众多新兴研究领域,将网络信息的处理问题转化为通过程序的方法自动识别话题及其演变的过程。爆发词作为信息意图的最直观表达,正确识别并处理爆发词对认识事件进展和了解事物变化有重要的借鉴意义。爆发词是指那种在一段时间大量出现的有意义的代表话题走向的词。从有关爆发词的描述可知,关于网络环境下爆发词的识别,需要进行候选爆发特征识别、标记特征出现的时间、统计并得到爆发词等三个部分。

  爆发词识别作为突发监测方法的基础性工作,正确识别爆发词对突发主题监测和话题追踪具有重要作用,但也是整个工作的难点和重点所在。除了应用于话题检测与跟踪、舆情监控等领域之外,在情报分析与应用方面,基于文本内容分析的知识发现研究也是一种重要的情报研究方法,其基础工作也是文本词汇的识别和处理。识别科技爆发词可以作为技术预测的前期准备和基础性工作,对研究热点和研发机会的发现有重要作用,因此,正确、有效地捕捉潜在科技爆发词对科学研究趋势预测、研究热点和研发机会发现、科技监测等均有重要的研究意义和现实意义。

  爆发词识别的基础是词的处理和计算,词单元作为爆发特征的最基本特征,也是携带信息的最小语义单元,处理中只需要在文本切分的基础上剔除无意义的停用词即可获得特征词,但是针对具体领域内容,单个的词语已不能表达完整的语义信息,更多的需要从领域术语上探讨该领域知识的演变和进化,因此就需要进行未登录术语的自动识别,即在词语的基础上探索携带完整信息的特征词或短语。本文将研究重点侧重在爆发特征识别及统计处理工作上,在文本粗切分的基础上进行特征词识别、采用基于条件随机场(Conditional Random Fields,CRFs)的方法进行未登录术语识别研究,从而得到候选爆发特征,以此为基础进行统计分析得到爆发词,并以专利文本为例进行领域爆发词识别实验和实现。

  2 爆发词识别研究进展

  关于爆发词识别的研究,其基础是对词正确的切分和获取,重点是计算时间段内爆发特征的爆发强度,进而获取爆发词。爆发词的识别是主题探测技术的一部分,来源于话题检测与追踪领域,因此,了解该领域的研究进展对我们进行爆发词识别有一定的借鉴意义。目前已有较多学者和科技公司进行了话题检测与追踪的研究方法和技术的研究,并已有一些研究成果和系统出现,其中在科学研究领域较为著名的有ThemeRiver和Citespace。

 

    全文下载:基于CRFs的领域爆发词识别的研究与实现

 

分享到: 0 转载请注明来源:中国社会科学网 (责编:王晓丹)
696 64.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
wxgg3.jpg
内文页广告3(手机版).jpg
论文图表.jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们