子猴论坛 » 分词与中文分词 » 中文文本分类中基于词性的特征提取方法研究 (转到动态网页)
本页主题: 中文文本分类中基于词性的特征提取方法研究 加为IE收藏 | 收藏主题 | 上一主题 | 下一主题

战国刺客
级别: 论坛版主


精华: 0
发帖: 110
威望: 110 点
金钱: 1100 RMB
贡献值: 0 点
在线时间:0(小时)
注册时间:2008-07-30
最后登录:2008-10-21

 中文文本分类中基于词性的特征提取方法研究

胡 燕,吴虎子,钟 珞(武汉理工大学计算机科学与技术学院,武汉430070)摘 要: 在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法 ———基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数方面都有显著改善。关键词: 中文文本分类; 向量空间模型; 特征提取中图分类号: 文献标志码: A文章编号:167124431(2007) 0420132204Research of Feature Extraction Methods Based on Part of Speechin Chinese Documents ClassificationHU Yan , W U Hu2zi , ZHON G L uo(School of Computer Science and Technology , Wuhan University of Technology , Wuhan 430070 , China)Abstract :  The feature selection based on part of speech , a novel method adapting better to Chinese document classification ,is proposed in this paper. This method can improve the efficiency of feature selection and reduce the dimensions of the featurevector.Key words :  Chinese document classification ; vector space model ; feature selection收稿日期:2006211216.作者简介:胡 燕(19682) ,,讲师. E2mail :huyan @whut. edu. cn为了便于从海量的中文文档中挖掘出有用的信息 ,必须对所收集的大量的文档进行有效的组织和分类。要正确地执行文本分类任务 ,首要的任务就是要将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息 ,即对文本进行科学的抽象 ,建立它的数学模型 ,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。用简单而准确的方法将文档表示成计算机能够处理的形式是进行文本分类的基础。文本表示首先要确定的问题就是表示文本的基本单位 ,用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性 :1) 特征项要能够确实标识文本内容 ;2) 特征项具有将目标文本与其他文本相区分的能力 ;3) 特征项的个数不能太多 ;4) 特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言 ,词比字具有更强的表达能力 ,而词和短语相比 ,词的切分难度比短语的切分难度小得多。因此 ,目前大多数中文文本分类系统都采用词作为特征项 ,称作特征词。如果把所有的词都作为特征项 ,那么特征向量的维数将过于巨大 ,从而导致计算量太大 ,在这样的情况下 ,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤分类精度的情况下尽量减少要处理的单词数 ,以此来降低向量空间维数 ,从而简化计算 ,提高分类工作的速度和效率。通常根据某个特征评估函数计算各个特征的评分值 ,然后按评分值对这些特征进行排序 ,选取若干个评分值最高的作为特征词 ,这就是特征抽取。
顶端 Posted: 2008-08-02 13:00 | 北京市朝阳区 [楼 主]
战国刺客
级别: 论坛版主


精华: 0
发帖: 110
威望: 110 点
金钱: 1100 RMB
贡献值: 0 点
在线时间:0(小时)
注册时间:2008-07-30
最后登录:1970-01-01

 

常见的特征提取方法x2统计、文本证据权和几率比等。1. 1  文档频数(Document Frequency, DF)文档频数[122 ]的主要思想是 :在训练文本集中对每个特征计算它的文档频数 ,若该项的 DF 值小于某个阈值则将其删除 ,若其 DF 值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息 ,要么太少而不足以对分类产生影响 ,要么是噪音 ,所以可以删去。DF 的优点在于计算量很小 ,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有 ,也可能包含着重要的判断信息 ,简单舍弃 ,可能影响分类器的精度。1. 2  信息增益( Information Gain , IG)信息增益[324 ]是一种基于熵的评估方法 ,涉及较多的数学理论和复杂的熵理论公式 ,定义为某特征项为整个分类所能提供的信息量 ,不考虑任何特征的熵与考虑该特征后的熵的差值。他根据训练数据 ,计算出各个特征项的信息增益 ,删除信息增益很小的项 ,其余的按照信息增益从大到小排序。信息增益计算机公式如下IG( t) = P( t)Mi = 1P( Ci| t)logP( Ci| t)P( Ci)+ P( t)Mi = 1P( Ci| t)logP( Ci| t)P( Ci)式中, t表示特征项; P( t)表示w发生的概率; P( Ci)表示第i类发生的概率值; P( Ci|t)表示文本中出现t,文本属于Ci的概率。1. 3  期望交叉熵( Expected Cross Entropy)期望交叉熵[325 ]反映了文本类别的概率分布和在出现了某个特定词条的条件下文本类别的概率分布之间的距离 ,词条t的交叉熵越大 ,对文本类别分布的影响也就越大。期望交叉熵用下面的公式计算CrossEntryTxt ( t) = P( t)Mi = 1P( Ci| t)logP( Ci| t)P( Ci)  它与信息增益唯一的不同之处在于没有考虑单词未发生的情况。如果特征项和类别强相关, P( Ci|t)就大,P( Ci)又很小的话,则说明该特征对分类的影响大。1. 4  互信息( Mutual Information)互信息[3 ,526 ]是一种广泛用于建立特征项关联统计模型的标准 ,它体现了特征项与类别的相关程度。对于特正项t和某一类别Ci( i= 1,2,, m) ,Ci中出现的概率高,而在其他类别中出现的概率低的特征项t将获得较高的互信息,也就有可能被选取为类别Ci的特征。互信息的估计值定义为MutualInfoTxt ( t , C) =logA×B( A + C) ( A + B)式中, A表示特征t与类Ci同时出现的次数, B表示特征t不在类Ci中出现的次数, C表示类Ci中没有出现特征t的文本数。1. 5  x2统计法( CHI)x2统计法[3,5]用于度量特征项和类别之间独立性的缺乏程度,它同时考虑了特征存在与不存在的情况。x2越大,独立性越小,相关性越大。x2统计可以用来度量类C和特征t的关联性,使得它在特征缩减中十分有用。对每一对Ct都计算x2( t , C)的值,并按照降序排列,去除排在后面的特征。此外,还有文本证据权和几率比等方法同样用于特征提取。2 基于词性的特征提取方法上一节所介绍的这些方法 ,在英文特征提取方面都有各自的优势 ,但用于中文文本 ,并没有很高的效率。主要有 2 个方面的原因 :1) 特征提取的计算量太大 ,特征提取效率太低 ,而特征提取的效率直接影响到整个文本分类系统的效率。2) 经过特征提取后生成的特征向量维数太高 ,而且不能直接计算出特征向量中各个特征词的权重。特征向量维数太高对于文本分类来说是个致命的缺陷 ,维数过高的特征向量不仅带来了巨33129卷 第4期         胡 燕,:中文文本分类中基于词性的特征提取方法研究       © 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
Page 3
大的计算量 ,而且在这些特征向量中 ,很多的特征词对于文本的分类毫无意义 ,这样既影响了文本分类的效率 ,也影响了分类的准确率 ,因此 ,在中文文本分类中 ,如何提取特征词以及如何控制特征向量的维数 ,成为一个亟待解决的难题。考虑到汉语言中 ,能标识文本特性的往往是文本中的实词 ,如名词、动词、形容词等。而文本中的一些虚词 ,如感叹词、介词、连词等 ,对于标识文本的类别特性并没有贡献 ,也就是对确定文本类别没有意义的词。如果把这些对文本分类没有意思的虚词作为文本特征词 ,将会带来很大噪音 ,从而直接降低文本分类的效率和准确率。因此 ,在提取文本特征时 ,应首先考虑剔除这些对文本分类没有用处的虚词 ,而在实词中 ,又以名词和动词对于文本的类别特性的表现力最强 ,所以可以只提取文本中的名词和动词作为文本的一级特征词。2. 1  基于词性的特征提取算法流程基于词性的特征提取方法 ,其主要思想是 ,提取中文文本中的名词和动词作为文本的一级特征词 ,再通过计算这些一级特征词的文本频数( TF) 和文档频数(DF) 来计算其权重 ,最后根据各个特征词的权重 ,对这些一级特征词进行排序 ,给定一个阈值K,在这些一级特征词中 ,根据其权重大小 ,选取K个一级特征词 ,作为文本的核心特征词组成表示文本的特征向量。这里的文本频数 TF 是指特征词ti在文本Ti中的频数 ,文档频数 DF 指的是在训练库中 ,特征词ti在其中至少出现一次的文档的数目。算法流程见图 1。1) 网页预处理 剔除网页中的各种标记和符号 ,将中文网页转化为对应内容的文本文件。2) 统计词频 用正则表达式匹配文档中的词 ,对于每个匹配出的词进行计数。3) 统计文档频数 (1) 对文本的每个一级特征词 ,设置文本频数计数器 DF。(2) 训练库中的训练文本进行比较并计数。2. 2  关键技术1) 中文分词及词性标注 常用的分词方法有 :向前、向后以及前后相结合的最大匹配法、最短路径方法、全切分方法以及最大概率方法。本论文中的分词采用中科院的分词系统 ICTCLAS。首先 ,进行粗分词采用 N2最短路径方法将最短路径方法和全切分的有机结合。然后对粗分词的结果按照标准字典进行词性的标注。在进行了 NE 识别以后 ,重新分词找出联合概率最大的分词结果。最后对分词结果重新标注词性。其过程见图 2。2) 降低特征向量的维数 在基于词性的特征提取方法中 ,因为只提取文本中的名词和动词作为特征词 ,这样需要大量剔除文本中的虚词和部分实词 ,传统的方法是构造停用词表 ,把要从文本中剔除的词收集整理成停用词表 ,但这种方法在基于词性的特征提取中并没有效率 ,因为需要剔除的词太多 ,考虑到汉语言词汇的丰富性 ,要收集所有不需要的词来建立停用词表 ,工作量之大是不可估量的 ,甚至可以说是无法实现的。而且 ,即使建立了如此庞大的停用词表 ,那么在特征提取时 ,因为停用词表里的词太多 ,查找停用词的搜索算法会变得复杂而低效。因此 ,在基于词性的特征提取方法中 ,引入正则表达式 ,构造一个能匹配出文本中所有名词和动词的正则表达式 ,直接提取分词后的文本中的名词和动词作为文本的特征词。例如对“索引可以加快数据库的检索速度”这句话进行分词的结果为 :“索引/ n 可以/ a 加快/ v 数据库/ n 的/ b 检索/ v 速度/ a ”。要提取这句话中的名词和动词 ,就要构造一个只匹配字符串“3 3 / n”或者“3 3 / v”的正则表达式。在正则表达式中 ,“X| Y”表示匹配“X”或者“Y”。“+ ”表示匹配至少前面的一个字符例如“AB + ”可以匹配“ABB”、“ABBB”等。“[^M - N ]”表示某个范围之外的字符 ,匹配除 M 到 N 之间的任何字符。“\ s”匹配任何白字符。包括空格、制表符、分页符等。因此正则表达式([^ \ \ s ! @# $% & 3 ’A - Za - z0 - 9 ])+ / (n| v| vn)就可以在分词后的中文文本中匹配出词性标注为/ n 或者词性标注为/ v 的词。这样利用正则表达式直接匹配出所需要的词 ,不仅有效降低了特征向量的维数 ,而且算法效率高得多。3) 计算特征词的权重值 权重的计算则采用 TFIDF 计算公式。其指导思想是 :在一个文本中出现次数越多的单词 ,在另一个同类文本中出现的次数也会很多 ,反之亦然。该方法是根据特征词的重要性与特征词的文档内频数成正比 ,与训练文档中出现该词条的文档频数成反比的原理构造的。常用频率因子和文档
在英文文本分类中 ,常用的特征提取的评估函数有文档频数、信息增益、期望交叉熵、互信息、
顶端 Posted: 2008-08-02 13:01 | 北京市朝阳区 1 楼
南足会小
级别: 禁止发言


精华: 0
发帖: 137
威望: 68 点
金钱: 685 RMB
贡献值: 0 点
在线时间:0(小时)
注册时间:2008-10-25
最后登录:1970-01-01

 

用户被禁言,该主题自动屏蔽!
顶端 Posted: 2008-10-25 00:53 | 重庆市 2 楼
子猴论坛 » 分词与中文分词
快速发帖 顶端
内容
HTML 代码不可用

使用签名
Wind Code自动转换

字数检查 恢复数据
按 Ctrl+Enter 直接提交
表情 [更多]
Powered by PHPWind v6.3.2 Code © 2003-08 PHPWind
This is html template view this page faster