本发明提出了一种融合多信息源的个性化在线新闻评论情绪预测方法。本发明的方法是在基于单一信息源的在线新闻评论情绪预测的基础上提出了一种融合多信息源的在线新闻评论情绪预测方法。单一的信息源从用户评论,新闻文本和用户情绪投票这三个方面分别对在线新闻评论情绪进行预测,本发明通过结合多种异构信息源,极大地提高了预测的准确性。本发明提出的方法显著地优于其他在线新闻评论情绪预测的替代方法,并且在处理大量差异较大的评论集合时更具优势。本发明可用于用户情感分析和舆情监督。
1.一种融合多信息源的个性化在线新闻评论情绪预测方法,包括如下步骤:
第1、基于单一信息源的在线新闻评论情绪预测
第1.1、基于评论内容的情绪预测
定义1:输入文本的特征向量的定义
①.所有文档的标引词组成的空间为特征空间Ω={t1,t2,…,tn},ti,i=1,2,…,n,为在所有文档中互异的标引词,包括字、单词或词组,n为特征的个数;
②.一个文档d在特征空间Ω上用标引词组成的向量来表示,即输入文本的特征向量d={tx1,tx2,…,txn},txi表示文档d中第i个标引词ti的权重;
③.本发明是将标引词在文档中出现的次数作为特征权重;
定义2:评论文档的形式化定义
给定一个用户新闻评论文档集合C,C={c(1),c(2),…,c(N)};
定义3:新闻文档的形式化定义
存在一个与评论文档集合C对应的在线新闻文档集合D,D={d(1),d(2),…,d(M)};
定义4:情绪类别的形式化定义
用户在阅读新闻d(j)∈D后对其中的新闻事件发表了自己的评论c(i)∈C,同时抒发了某种情绪,即本文研究所关注的新闻评论中的用户情绪;
给定一个预定义的情绪类别标签(class label)集合E,E={e1,e2,…,eK},ek代表新闻评论中可能表达情绪的类别标签,集合E即是该情绪分类问题的输出空间;
定义5:评论特征向量的表示
选取新闻评论c(i)∈C的一些特征构成特征向量来表示该评论, x ( i ) = { x 1 ( i ) , x 2 ( i ) , . . . , x n ( i ) } , 表示评论c(i)的第j个特征;
所有特征向量存在的空间构成了该情绪分类问题的特征空间,同时也是该情绪分类问题的输入空间;
定义6:评论标注向量的表示
每个评论c(i)∈C对应一个标注向量y(i)表示评论c(i)表达的情绪,如果评论c(i)标注的情绪是ek类,则
y r ( i ) = 1 , r = k 0 , r ≠ k , r , k = 1,2 , · · · , K - - - ( 1.1 )
定义7:训练集的形式化定义
整个训练集表示为T={(x(1),y(1)),(x(2),y(2)),…(x(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论特征向量与输出情绪类别标签均看成是随机变量X和Y的取值;
定义8:基于评论内容的逻辑斯谛回归模型的定义
给定一个评论c及其特征向量x,根据多元逻辑斯谛回归模型,它被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,
P = ( Y = e k | X = x ) = exp ( ω k · x ) Σ r = 1 K exp ( ω r · x ) , k = 1,2 , · · · K ( 1.2 )
其中,x={x1,x2,…,xn,1}∈Rn+1,ωk={ωk1,ωk2,…,ωkn,bk}∈Rn+1为对于情绪ek的权值向量参数;
定义9:基于评论内容的逻辑斯谛回归模型优化目标函数定义
经验风险是训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:
ω * arg min ω - Σ i = 1 N Σ k = 1 K y k ( i ) log exp ( ω k · x ( i ) ) Σ r = 1 K exp ( ω r · x ( i ) ) + λ Σ k = 1 K Σ j = 1 n + 1 ω kj 2 - - - ( 1.3 )
该模型在定义8的基础上使用了负的极小化对数似然函数,其中N表示文档类型的数目,K表示情绪类别的个数,λ≥0是系数,用以权衡经验风险和正则化项;
第1.2、基于用户情绪投票的情绪预测
对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,也可使用网站提供的用户情绪投票功能,在给定的候选情绪类别标签集合E={e1,e2,…,eK}中选择与自己想要表达的情绪相同或相近的情绪类别标签;
定义10:用户投票的形式化定义
将新闻的用户情绪投票信息作为针对该新闻发表的所有评论的元数据(meta data),即每个评论c含有与其对应新闻相同的用户情绪投票信息,用ρ={ρ1,ρ2,…ρK}表示,ρk是用户对情绪ek的投票数目;
定义11:评论表达情绪条件概率的定义
假设新闻评论中情绪的分布与用户情绪投票中各情绪的分布相同,给定一个评论c,可用情绪ek所得票数占总票数的比例,作为该评论c表达情绪ek的条件概率,即
μ k = P ( Y = e k | ρ ) = ρ k Σ r = 1 K ρ r - - - ( 1.4 )
第1.3、基于新闻内容的情绪预测
定义12:标引词的形式化定义
选取新闻文本内容和评论文本内容的标引词,Ω={t1,t2,…,tm},ti,i=1,2,…,m,为在所有新闻文档和评论文档中互异的标引词;每个标引词在文档中的权重构成该文档的特征向量,特征向量存在的空间构成了该分类问题的特征空间,也是该分类问题的输入空间;
定义13:新闻特征向量的表示
计算新闻d(i)∈D中标引词的权重,用标引词权重构成的特征向量表示该新闻的文本内容,则新闻d(i)表示为表示新闻d(i)的第j个特征,即标引词tj,j=1,2,…,m,在新闻d(i)的权重;
定义14:新闻标注向量的表示
每个新闻d(i)∈D含有的用户情绪投票信息,用表示,其中是用户对情绪ek,k=1,2,…,K,的投票数目;
对新闻的用户情绪投票统计信息进行归一化处理,得到每个情绪ek所得票数占总票数的比例,即
μ k ( i ) = ρ k ( i ) Σ r = 1 K ρ r ( i ) , i = 1,2 , · · · , M - - - ( 1.5 )
将作为其对应新闻d(i)所表达情绪的概率分布,即新闻d(i)的情绪标注向量;
定义15:训练集的形式化定义
Θ和μ是定义在输入空间和输出空间上的随机变量;整个评论训练数据集表示为T={(θ(1),μ(1)),(θ(2),μ(2)),…,(θ(M),μ(M))},由P(Θ,μ)独立同分布产生;
定义16:基于新闻内容的逻辑斯谛回归模型的定义
给定一个新闻d(i)及其特征向量θ(i),根据多元逻辑斯谛回归模型,该新闻被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,即
P ( Y = e k | Θ = θ ( i ) ) = exp ( υ k · θ ( i ) ) Σ r = 1 K exp ( υ r · θ ( i ) ) , k = 1,2 , · · · , K - - - ( 1.6 )
其中,υk={υk1,υk2,…,υkm,bk}∈Rm+1为对于情绪ek的权值向量参数;
定义17:基于新闻内容的逻辑斯谛回归模型优化目标函数的定义
与以评论内容作为信息源的逻辑斯谛回归模型类似,基于新闻内容的优化目标函数采用结构风险最小策略选取最优模型,即选取经验风险与正则化项之和最小的模型;
设:整个训练数据集T的似然是每个实例似然的乘积
l ( υ ) = Π i = 1 M Π k = 1 K η k ( i ) μ k ( i ) - - - ( 1.7 )
整个训练数据集的对数似然函数为
L ( υ ) = Σ i = 1 M Σ k = 1 K μ k ( i ) log exp ( υ k · θ ( i ) ) Σ r = 1 K exp ( υ r · θ ( i ) ) - - - ( 1.8 )
经验风险是关于训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:
υ * = arh min υ - Σ i = 1 M Σ k = 1 K μ k ( i ) log exp ( υ k · θ ( i ) ) Σ r = 1 K exp ( υ r · θ ( i ) ) + λ Σ k = 1 K Σ j = 1 m + 1 υ kj 2 - - - ( 1.9 )
其中,λ≥0是系数,用以权衡经验风险和正则化项;
第2、融合多信息源的个性化在线新闻评论情绪预测
第2.1、问题的形式化定义
定义18:特征向量的表示
对于评论c(i)∈C,将其由多种单一信息源情绪预测方法输出的对于每个情绪类别ek∈E(k=1,2,…,K)的条件概率分布与常量1一起作为该评论的特征ψ(i),n为特征的个数,为情绪类别个数K的整倍数,即n=βK,β∈N,β即异构信息源种类的个数;所有特征向量存在的空间构成该分类问题的特征空间,也是输入空间;
采用以评论内容作为信息源基于逻辑斯谛回归模型的情绪预测方法S_CC、以新闻内容作为信息源的情绪预测方法S_CN以及以用户情绪投票作为信息源的情绪预测方法S_UEV这三种异构信息源的输出结果进行情绪预测,则特征向量ψ(i)为
ψ ( i ) = { ξ 1 ( i ) , ξ 2 ( i ) , · · · , ξ K ( i ) , η 1 ( i ) , η 2 ( i ) , · · · , η K ( i ) , μ 1 ( i ) , μ 2 ( i ) , · · · , μ K ( i ) , 1 } - - - ( 2.1 )
其中,分别是方法S_CC、S_CN、S_UEV输出的对于情绪类别ek∈E的条件概率分布k=1,2,…,K;
定义19:标注向量的表示
每个评论c(i)∈C对应一个标注向量y(i)来表示评论c(i)表达的情绪,如果评论c(i)标注的情绪是ek类,则
y r ( i ) = 1 , r = k 0 , r ≠ k - - - ( 2.2 )
定义20:训练集的形式化定义
于是整个训练集表示为T={(ψ(1),y(1)),(ψ(2),y(2)),…,(ψ(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论与输出情绪类别分别看成是随机变量X和Y的取值;
第2.2、基于潜在评论类别的个性化情绪预测方法
定义21:基于潜在评论类别的再分类方法的定义
P ( e k | c ( i ) ) = P ω , α ( e k | ψ ( i ) , f ( i ) ) = Σ z = 1 Z exp ( α z · f ( i ) ) Σ l = 1 Z exp ( α l · f ( i ) ) exp ( ω zk · ψ ( i ) ) Σ r = 1 K exp ( ω zr · ψ ( i ) ) - - - ( 2.3 )
其中,Z为潜在评论类别的个数,f(i)是评论c(i)的用于选择评论潜在类别的特征向量,az是潜在类别z的权重参数;这就是结合多种异构信息源基于潜在类别再分类方法的形式化表述;
定义22:潜在类别个数定义
本发明选择Akaike信息量准则(Akaike Information Criteria,AIC)作为模型选择准则来获取最优的潜在类别个数
Z * = arg min Z 2 ( ZKn + Zm ) - 2 L Z ( ω , α )
其中,Z是潜在类别的个数,K是情绪类别的个数,n是异构信息源特征向量的维数,m是用于选择评论潜在类别的特征向量的维数,Z×K×n即所有参数ω的个数,Z×m是所有参数α的个数。
技术领域
[0001]本发明属于web信息检索与挖掘领域,具体涉及异构新闻内容,评论内容,用户情感等多种信息源,对在线新闻评论情绪进行预测的方法。
背景技术
[0002]在线新闻服务作为主要的网络信息载体,已经成为人们生活中不可或缺的新闻信息来源。在线新闻逐渐取代了报纸、广播、电视新闻等传统的新闻接收方式,以及时、全面、便捷的特点深受广大网民的喜爱。越来越多的人养成了每天在网络上浏览新闻的习惯,从在线新闻中实时了解新闻讯息,同时针对新闻事件或其他用户的观点,发表自己的评论,抒发自己的主观情感。
[0003]情感预测(sentiment prediction)是情感分析研究中最重要的子任务之一,是指对给定文本所蕴含的情感进行预测。情感预测问题通常采用分类的方法来解决,即给定一个带有情感的文本,假设它蕴含的整体情感是唯一的一种,将该文本的整体情感划分到某一种情感类别中,达到预测该文本情感的目的。利用分类方法解决的情感预测问题,又被称为情感分类(sentiment classification)。情感分类与文本分类(text classification)都是基于文本内容的分类问题,但文本分类的目标是识别文本的主题(topic),而情感分类是判别文本所蕴含的情感信息。
[0004]情感分析方面的研究工作现在主要是基于情感类别标注数据的监督学习方法。基于情感类别标注训练数据集,构建高性能情感分类器,来分析文本的情感类别。Pang等最早提出利用监督学习方法来解决文本情感分类问题,其策略是选用多种特征选择方法,利用朴素贝叶斯(Bayes)、最大熵(maximum entropy)和支持向量机(support vector machine,SVM)等模型对电影评论中所蕴含的情感进行极性划分。Mullen和Collier基于短语语义倾向信息、形容词、文本主题知识等多种信息源,利用支持向量机模型对电影评论进行情感分类。Pang等将文本的主观/客观分类问题转换为求解句子连接图的最小分割问题,构建了一个基于最小分割的分类器对文本进行分类。Gamon利用对数似然比进行特征选择,使用支持向量机模型对顾客反馈数据进行情感分析。在中文文本情感分析方面,Tan针对文档级别提出了一种基于经验学习的方法,利用四种特征选取方法和五种机器学习方法对中文文档进行情感分类,测试和比较各方法的性能。
[0005]上述工作是对新闻文章的情绪进行分类和预测,一般来说,新闻文章所含有的情绪更多地属于新闻撰写者,并不能代表所有用户阅读新闻之后的情绪。本发明则是针对在线新闻的用户评论,研究用户在阅读新闻之后的观点和情绪。
[0006]同时,在新闻评论情绪预测问题中,单一的信息源不能反映所有用户的情感,不同的信息源可从不同的角度解读新闻评论中的用户情绪,且对于不同的评论,不同信息源的情绪预测指示性和可靠性不同。对于不同的评论,某些信息源可能比其他的信息源更值得信赖且更具有指示性,不同的信息源应该有不同的权重,以反映它们对不同评论的重要程度。如何结合多种异构信息源进行在线新闻评论情绪预测,如何为不同的评论分配相应的异构信息源结合权重,从而提高情绪预测的准确性,是一个重要的研究问题。
发明内容
[0007]针对目前绝大部分情感分析是针对新闻文章而进行分类和预测的,本发明融合了新闻的评论,新闻本身和用户情绪投票三种方法对用户的情感进行预测,同时通过分配恰当的权重,使情绪预测的结果更准确。
[0008]本发明提出了一种融合多信息源的个性化在线新闻评论情绪预测方法,结合了多种异构信息源,采用再分类的方法,解决用户新闻评论的情绪预测问题。
[0009]该方法可自动地根据评论的特征来识别评论的不同潜在类别,为每一个类别的评论建立二层逻辑斯谛回归模型预测评论的情绪。根据评论的类型特征不同,不同类的评论将采取不同的异构信息源结合权重。
[0010]本发明提出的一种融合多信息源的个性化在线新闻评论情绪预测方法的主要步骤如下:
[0011]第1、基于单一信息源的在线新闻评论情绪预测
[0012]第1.1、基于评论内容的情绪预测
[0013]定义1:输入文本的特征向量的定义
[0014]①.所有文档的标引词组成的空间为特征空间Ω={t1,t2,…,tn},ti,i=1,2,…,n,为在所有文档中互异的标引词,包括字、单词或词组,n为特征的个数;
[0015]②.一个文档d可以在特征空间Ω上用标引词组成的向量来表示,即输入文本的特征向量d={tx1,tx2,…,txn},txi表示文档d中第i个标引词ti的权重;
[0016]③.本发明使用的是将标引词在文档中出现的次数作为特征权重;
[0017]定义2:评论文档的形式化定义
[0018]给定一个用户新闻评论文档集合C,C={c(1),c(2),…,c(N)};
[0019]定义3:新闻文档的形式化定义
[0020]存在一个与评论文档集合C对应的在线新闻文档集合D,D={d(1),d(2),…,d(M)};
[0021]定义4:情绪类别的形式化定义
[0022]用户在阅读新闻d(j)∈D后对其中的新闻事件发表了自己的评论c(i)∈C,同时抒发了某种情绪,即本文研究所关注的新闻评论中的用户情绪;
[0023]给定一个预定义的情绪类别标签(class label)集合E,E={e1,e2,…,eK},ek代表新闻评论中可能表达情绪的类别标签,集合E即是该情绪分类问题的输出空间;
[0024]定义5:评论特征向量的表示
[0025]选取新闻评论c(i)∈C的一些特征构成特征向量来表示该评论, x ( i ) = { x 1 ( i ) , x 2 ( i ) , . . . , x n ( i ) } , 表示评论c(i)的第j个特征;
[0026]所有特征向量存在的空间构成了该情绪分类问题的特征空间,同时也是该情绪分类问题的输入空间;
[0027]定义6:评论标注向量的表示
[0028]每个评论c(i)∈C对应一个标注向量y(i)表示评论c(i)表达的情绪,如果评论c(i)标注的情绪是ek类,则
[0029] y r ( i ) = 1 , r = k 0 , r ≠ k r , k = 1,2 , . . . , K - - - ( 1.1 )
[0030]定义7:训练集的形式化定义
[0031]整个训练集可以表示为T={(x(1),y(1)),(x(2),y(2)),…(x(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论特征向量与输出情绪类别标签均看成是随机变量X和Y的取值;
[0032]定义8:基于评论内容的逻辑斯谛回归模型的定义
[0033]给定一个评论c及其特征向量x,根据多元逻辑斯谛回归模型,它被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,
[0034] P ( Y = e k | X = x ) = exp ( ω k · x ) Σ r = 1 K exp ( ω r · x ) , k = 1,2 , . . . , K - - - ( 1.2 )
[0035]其中,x={x1,x2,…,xn,1}∈Rn+1,ωk={ωk1,ωk2,…,ωkn,bk}∈Rn+1为对于情绪ek的权值向量参数;
[0036]定义9:基于评论内容的逻辑斯谛回归模型优化目标函数定义
[0037]经验风险是关于训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:
[0038] ω * = arg min ω - Σ i = 1 N Σ k = 1 K y k ( i ) log exp ( ω k · x ( i ) ) Σ r = 1 K exp ( ω r · x ( i ) ) + λ Σ k = 1 K Σ j = 1 n + 1 ω kj 2 - - - ( 1.3 )
[0039]该模型在定义8的基础上使用了负的极小化对数似然函数,其中N表示文档类型的数目,K表示情绪类别的个数,λ≥0是系数,用以权衡经验风险和正则化项;
[0040]第1.2、基于用户情绪投票的情绪预测
[0041]对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,也可使用网站提供的用户情绪投票功能,在给定的候选情绪类别标签集合E={e1,e2,…,e K}中选择与自己想要表达的情绪相同或相近的情绪类别标签;
[0042]定义10:用户投票的形式化定义
[0043]将新闻的用户情绪投票信息作为针对该新闻发表的所有评论的元数据(meta data),即,每个评论c含有与其对应新闻相同的用户情绪投票信息,用ρ={ρ1,ρ2,…ρk}表示,ρk是用户对情绪ek的投票数目;
[0044]定义11:评论表达情绪条件概率的定义
[0045]假设新闻评论中情绪的分布与用户情绪投票中各情绪的分布相同,给定一个评论c,可用情绪ek所得票数占总票数的比例,作为该评论c表达情绪ek的条件概率,即
[0046] μ k = P ( Y = e k | ρ ) = ρ k Σ r = 1 K ρ r - - - ( 1.4 )
[0047]第1.3、基于新闻内容的情绪预测
[0048]定义12:标引词的形式化定义
[0049]选取新闻文本内容和评论文本内容的标引词,Ω={t1,t2,…,tm},ti,i=1,2,…,m,为在所有新闻文档和评论文档中互异的标引词;每个标引词在文档中的权重构成该文档的特征向量,特征向量存在的空间构成了该分类问题的特征空间,也是该分类问题的输入空间;
[0050]定义13:新闻特征向量的表示
[0051]计算新闻d(i)∈D中标引词的权重,用标引词权重构成的特征向量表示该新闻的文本内容,则新闻d(i)表示为表示新闻d(i)的第j个特征,即标引词tj,j=1,2,…,m,在新闻d(i)的权重;
[0052]定义14:新闻标注向量的表示
[0053]每个新闻d(i)∈D含有的用户情绪投票信息,用表示,其中是用户对情绪ek,k=1,2,…,K,的投票数目;
[0054]对新闻的用户情绪投票统计信息进行归一化处理,得到每个情绪ek所得票数占总票数的比例,即
[0055] μ k ( i ) = ρ k ( i ) Σ r = 1 K ρ r ( i ) , i = 1,2 , . . . , M - - - ( 1.5 )
[0056]将作为其对应新闻d(i)所表达情绪的概率分布,即新闻d(i)的情绪标注向量;
[0057]定义15:训练集的形式化定义
[0058]Θ和μ是定义在输入空间和输出空间上的随机变量;整个评论训练数据集表示为T={(θ(1),μ(1)),(θ(2),μ(2)),…,(θ(M),μ(M))},由P(Θ,μ)独立同分布产生;
[0059]定义16:基于新闻内容的逻辑斯谛回归模型的定义
[0060]给定一个新闻d(i)及其特征向量θ(i),根据多元逻辑斯谛回归模型,该新闻被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,即
[0061] P ( Y = e k | Θ = θ ( i ) ) = exp ( υ k · θ ( i ) ) Σ r = 1 K exp ( υ r · θ ( i ) ) , k = 1,2 , . . . , K - - - ( 1.6 )
[0062]其中,υk={υk1,υk2,…,υkm,bk}∈Rm+1为对于情绪ek的权值向量参数;
[0063]定义17:基于新闻内容的逻辑斯谛回归模型优化目标函数的定义
[0064]与以评论内容作为信息源的逻辑斯谛回归模型类似,基于新闻内容的优化目标函数采用结构风险最小策略选取最优模型,即选取经验风险与正则化项之和最小的模型;
[0065]设:整个训练数据集T的似然是每个实例似然的乘积
[0066]
[0067]整个训练数据集的对数似然函数为
[0068] L ( υ ) = Σ i = 1 M Σ k = 1 K μ k ( i ) log exp ( υ k · θ ( i ) ) Σ r = 1 K exp ( υ r · θ ( i ) ) - - - ( 1.8 )
[0069]经验风险是关于训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:
[0070] υ * = arg min υ - Σ i = 1 M Σ k = 1 K μ k ( i ) log exp ( υ k · θ ( i ) ) Σ r = 1 K exp ( υ r · θ ( i ) ) + λ Σ k = 1 K Σ j = 1 m + 1 υ kj 2 - - - ( 1.9 )
[0071]其中,λ≥0是系数,用以权衡经验风险和正则化项;
[0072]第2、融合多信息源的个性化在线新闻评论情绪预测
[0073]第2.1、问题的形式化定义
[0074]定义18:特征向量的表示
[0075]对于评论c(i)∈C,将其由多种单一信息源情绪预测方法输出的对于每个情绪类别ek∈E(k=1,2,…,K)的条件概率分布与常量1一起作为该评论的特征ψ(i),n为特征的个数,为情绪类别个数K的整倍数,即n=βK,β∈N,β即异构信息源种类的个数;所有特征向量存在的空间构成该分类问题的特征空间,也是输入空间;
[0076]采用以评论内容作为信息源的基于逻辑斯谛回归模型的情绪预测方法S_CC、以新闻内容作为信息源的情绪预测方法S_CN以及以用户情绪投票作为信息源的情绪预测方法S_UEV这三种异构信息源的输出结果进行情绪预测,则特征向量ψ(i)为
[0077] ψ ( i ) = { ξ 1 ( i ) , ξ 2 ( i ) , . . . , ξ K ( i ) , η 1 ( i ) , η 2 ( i ) , . . . , η K ( i ) , μ K ( i ) , μ 1 ( i ) , μ 2 ( i ) , . . . , μ K ( i ) , 1 } - - - ( 2.1 )
[0078]其中,分别是方法S_CC、S_CN、S_UEV输出的对于情绪类别ek∈E的条件概率分布k=1,2,…,K;
[0079]定义19:标注向量的表示
[0080]每个评论c(i)∈C对应一个标注向量y(i)来表示评论c(i)表达的情绪,)如果评论c(i)标注的情绪是ek类,则
[0081] y r ( i ) = 1 , r = k 0 , r ≠ k - - - ( 2.2 )
[0082]定义20:训练集的形式化定义
[0083]于是整个训练集可以表示为T={(ψ(1),y(1)),(ψ(2),y(2)),…(ψ(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论与输出情绪类别分别看成是随机变量X和Y的取值;
[0084]第2.2、基于潜在评论类别的个性化情绪预测方法
[0085]定义21:基于潜在评论类别的再分类方法的定义
[0086] P ( e k | c ( i ) ) = P ω , α ( e k | ψ ( i ) , f ( i ) ) = Σ z = 1 Z exp ( α z · f ( i ) ) Σ l = 1 Z exp ( α l · f ( i ) ) exp ( ω zk · ψ ( i ) ) Σ r = 1 k exp ( ω zr · ψ ( i ) ) - - - ( 2.3 )
[0087]其中,Z为潜在评论类别的个数,f(i)是评论c(i)的用于选择评论潜在类别的特征向量,αz是潜在类别z的权重参数;这就是结合多种异构信息源基于潜在类别再分类方法的形式化表述;
[0088]定义22:潜在类别个数定义
[0089]本发明选择Akaike信息量准则(Akaike Information Criteria,AIC)作为模型选择准则来获取最优的潜在类别个数
[0090] Z * = arg min Z 2 ( ZKn + Zm ) - 2 L Z ( ω , α )
[0091]其中Z是潜在类别的个数,K是情绪类别的个数,n是异构信息源特征向量的维数,m是用于选择评论潜在类别的特征向量的维数,Z×K×n即所有参数ω的个数,Z×m是所有参数α的个数。
[0092]本发明的优点和积极效果:
[0093]本发明对在线新闻评论及跨领域在线新闻评论的情绪预测问题进行了系统和深入的研究。归纳起来,本发明主要的优点和积极效果包括:
[0094]第一,提出了基于单一信息源的情绪预测系列方法。包括以评论文本内容作为信息源、分别基于逻辑斯谛回归模型和朴素贝叶斯模型两种概率模型的新闻评论情绪预测方法S_CC和S_CC_NB,以新闻文本内容作为信息源的基于逻辑斯谛回归模型的新闻评论情绪预测方法S_CN和以用户情绪投票信息作为信息源的基于统计方法的新闻评论情绪预测方法S_UEV。
[0095]第二,提出了一种融合多信息源的个性化在线新闻评论情绪预测方法。基于评论潜在类别的再分类方法LMC可自动识别用户评论的潜在类别,为每个类别的评论学习最优的多种异构信息源合并策略,在处理大量差异较大的评论集合时更具优势。
[0096]了解新闻评论中的用户情感,掌握网民态度和情绪变化,可辅助在线新闻服务商理解用户的偏好,为用户提供更好的个性化服务;同时,有助于政府进行民意问询和公共管理决策,有效实现舆情分析和监控。因此,自动判别用户在新闻评论中所表达的情感,尤其是具体情绪,具有重要的理论意义和实用价值。
附图说明
[0097]图1是整个发明的流程示意图。
[0098]图2是评论内容和新闻内容的范例。
[0099]图3是评论内容和新闻内容分词后的结果。
[0100]图4是查找情感词汇表后的结果(基于评论内容的)。
[0101]图5是查找情感词汇表后的结果(基于新闻内容的)。
[0102]图6是评论的标注结果。
[0103]图7是用户的投票。
[0104]图8是新闻内容的用户投票比例。
[0105]图9是基于潜在评论类别的再分类方法。
[0106]图10是新浪新闻社会数据集的评论标注情绪类别的统计信息。
具体实施方式
[0107]本发明属于情感分析问题,提出了一种融合多信息源的个性化在线新闻评论情绪预测方法,方法整体流程如图1所示。
[0108]本发明以新浪数据集作为示例,包括2011年1月至2011年6月部分新浪新闻社会频道(Society Channel)点击量较多的热点新闻,和它们的热点评论以及用户情绪投票信息,图10为数据集的统计信息。
[0109]对于数据集中的每一条评论,请专家标注情绪类别标签。文本特征采用新闻评论文本内容中情绪词汇的词频。首先使用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)提供的中文分词功能,对新闻和评论的文本内容进行分词,再使用NTU情感分析词典和Hownet情感词典抽取表达情绪的词汇,最后统计情绪词汇的出现次数,即为词频,用词频构成每一条评论或者新闻的特征向量。
[0110]本发明以评论内容(见图2)的情感为预测目标,之后其它的附图对该方法的核心内容加以解释。
[0111]第1、基于单一信息源的在线新闻评论情绪预测
[0112]第1.1、基于评论内容的情绪预测
[0113]对于图2所示的评论内容:“祝周昌奎一家幸福平安,要照顾好二个家庭父母,你的选择是对的!”进行分词,如图3:“祝、周昌奎、幸福、平安、要、照顾、好、二个、家庭、父母、你、选择、对”。查找情感词汇表后的结果为幸福和平安各出现一次,如图4所示,所以最后的评论特征向量x为{1,0,1,0,0……0}。所有这样的特征向量存在的空间构成了该情绪分类问题的输入空间。
[0114]接下来将评论的特征向量和标注向量带入模型的损失函数
[0115] ω * = arg min ω - Σ i = 1 N Σ k = 1 K y k ( i ) log exp ( ω k · x ( i ) ) Σ r = 1 K exp ( ω r · x ( i ) ) + λ Σ k = 1 K Σ j = 1 n + 1 ω kj 2
[0116]按照梯度下降法的流程或BFGS拟牛顿法流程即可求得模型中参数的最优解ω*。具体算法如下:
[0117]算法1:求正则化逻辑斯谛模型最优系数的交叉验证算法
[0118]输入:用户评论文档集合C,C对应的评论训练数据集T,系数变化值ρ,系数可取的最小值λmin和最大值λmax,交叉验证折数S
[0119]输出:使正则化逻辑斯谛模型损失最小的系数λ*
[0120]①./*不同λ取值时模型误差的集合*/
[0121]②.取初始值λ=λmin;
[0122]③.将训练数据集分成S个子集,置子集标识变量t=1;
[0123]④.将第t个子集Tt作为测试集,其余S-1份子集作为训练集;
[0124]⑤.用BFGS拟牛顿法在S-1份子集组成的训练集上解目标函数为
[0125] min ω ∈ R n + 1 E ( ω ) + λR ( ω ) = - Σ i ∈ T - T t Σ k = 1 K y k ( i ) log exp ( ω k · x ( i ) ) Σ r = 1 K exp ( ω r · x ( i ) ) + λ Σ k = 1 K Σ j = 1 n + 1 ω kj 2
[0126]的最优化问题,求得参数的估计值
[0127]⑥.取第t个子集Tt中的每一个评论c(i),根据其特征向量计算
[0128] P ( Y = e k | X = x ( i ) ) = exp ( ω ^ k · x ( i ) ) Σ r = 1 K exp ( ω ^ r · x ( i ) ) , k = 1,2 , . . . , K
[0129]确定评论c(i)的情绪类别 e ^ ( i ) = arg max k P ( Y = e k | X = x ( i ) )
[0130]计算评论c(i)的损失
[0131]则整个子集Tt的测试误差和为
[0132]⑦.累积当系数是λ时训练数据集的测试误差,
[0133]Error[(λ-λmin)/ρ+1]=Error[(λ-λmin)/ρ+1]+errt;
[0134]⑧.则t
[0135]⑨.若λ<λmax,则λ=λ+ρ,转向步骤③;
[0136]⑩.确定使训练集上测试误差最小的系数
[0137]在最后得到λ*的最优值,然后使用以评论内容作为信息源的情绪预测方法(S_CC方法),其具体流程如下:
[0138]算法2:以评论内容作为信息源的情绪预测方法(S_CC方法)
[0139]输入:用户评论文档集合C,C对应的评论训练数据T,测试评论c,c的特征向量x
[0140]输出:评论c的情绪类别y
[0141]①.用算法1在训练数据集中学习出最优的系数
[0142]②.用BFGS拟牛顿法解目标函数为
[0143] min ω ∈ R n + 1 E ( ω ) + λ ^ R ( ω ) = - Σ i = 1 N Σ k = 1 K y k ( i ) log exp ( ω k · x ( i ) ) Σ r = 1 K exp ( ω r · x ( i ) ) + λ ^ Σ k = 1 K Σ j = 1 n + 1 ω kj 2
[0144]的最优化问题,求得参数的估计值
[0145]③.对于给定的测试评论c,根据其特征向量x={x1,x2,…,xK},计算
[0146] P ( Y = e k | X = x ) = exp ( ω ^ k · x ) Σ r = 1 K exp ( ω ^ r · x ) , k = 1 , 2 , . . . , K
[0147]最后得到的情绪概率分别为{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%};④.确定评论c的情绪类别 y = arg max e k P ( Y = e k | X = x )
[0148]最后选择上一步中概率最大的情绪感动,41%,预测最后的情绪为感动。
[0149]第1.2、基于用户情绪投票的情绪预测
[0150]对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,同时也会使用网站提供的用户情绪投票功能,如图7,{35,3,0,9,6,1,20,11}为一用户的投票数目,带入模型中
[0151] μ k = P ( Y = e k | ρ ) = ρ k Σ r = 1 K ρ r
[0152]具体数据见图8,算法如下:
[0153]算法3:以用户情绪投票信息作为信息源的情绪预测方法(S_UEV方法)
[0154]输入:测试评论c,用户对集合E中情绪的投票信息ρ
[0155]输出:评论c的情绪类别y
[0156]①.对于给定的测试评论c,根据其用户情绪投票信息ρ=(ρ1,ρ2,…,ρK),计算
[0157] P ( Y = e k | ρ ) = ρ k Σ r = 1 K ρ r , k = 1,2 , . . . , K
[0158]根据图8,用户情绪为感动的概率为其它的情绪概率计算类似;
[0159]②.确定评论c的情绪类别
[0160] y = arg max e k P ( Y = e k | ρ )
[0161]最后选择上一步中概率最大的情绪感动,41.2%,预测最后的情绪为感动。
[0162]第1.3、基于新闻内容的情绪预测
[0163]分词后的新闻内容和评论内容的结果如图3所示,最后的标引词的结果如图5所示。最后的评论特征向量为{1,0,1,0,1,1……0},如图5所示。所有这样的特征向量存在的空间构成了该情绪分类问题的输入空间。如图8所示,最后的新闻标注向量为{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%}。所有这样的特征向量存在的空间构成了该情绪分类问题的输出空间。
[0164]接下来将评论的特征向量和标注向量带入模型的损失函数
[0165] ω * = arg min ω - Σ i = 1 N Σ k = 1 K y k ( i ) log exp ( ω k · x ( i ) ) Σ r = 1 K exp ( ω r · x ( i ) ) + λ Σ k = 1 K Σ j = 1 n + 1 ω kj 2
[0166]按照梯度下降法的流程或BFGS拟牛顿法流程即可求得模型中参数的最优解ω*。具体算法如下:
[0167]算法4:以新闻内容作为信息源的新闻评论情绪预测方法(S_CN方法)
[0168]输入:新闻文档集合D,D对应的新闻训练数据集T,测试评论c及其特征向量x
[0169]输出:评论c的情绪类别y
[0170]①.用交叉验证的方法在新闻训练数据集中学习出最优的系数
[0171]②.用BFGS拟牛顿法解目标函数为
[0172] min υ ∈ R m + 1 E ( υ ) + λ ^ R ( υ ) = - Σ i = 1 M Σ k = 1 K μ k ( i ) log exp ( υ k T θ ( i ) ) Σ r = 1 K exp ( υ r T θ ( i ) ) + λ ^ Σ k = 1 K Σ j = 1 m + 1 υ kj 2
[0173]的最优化问题,求得参数的估计值
[0174]③.对于给定的测试评论c,根据其特征向量x={x1,x2,…,xm},计算
[0175] P ( Y = e k | Z = x ) = exp ( υ ^ k · x ) Σ r = 1 K exp ( υ ^ r · x ) , k = 1,2 , . . . , K
[0176]最后得到的情绪概率分别为{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%};
[0177]④.确定评论c的情绪类别
[0178] y = arg max e k P ( Y = e k | θ = x )
[0179]最后选择上一步中概率最大的情绪感动,41%,预测最后的情绪为感动。
[0180]第2、融合多信息源的个性化在线新闻评论情绪预测
[0181]在经过基于单一信息源的在线新闻评论情绪预测之后,采用以评论内容作为信息源的基于逻辑斯谛回归模型的情绪预测方法S_CC、以新闻内容作为信息源的情绪预测方法S_CN以及以用户情绪投票作为信息源的情绪预测方法S_UEV,这三种异构信息源的输出结果进行情绪预测,则特征向量ψ(i)为
[0182] ψ ( i ) = { ξ 1 ( i ) , ξ 2 ( i ) , . . . , ξ K ( i ) , η 1 ( i ) , η 2 ( i ) , . . . , η K ( i ) , μ 1 ( i ) , μ 2 ( i ) , . . . , μ K ( i ) , 1 }
[0183]例如:以评论内容作为信息源的基于逻辑斯谛回归模型的情绪预测方法S_CC的输出是{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%};
[0184]以新闻内容作为信息源的情绪预测方法S_CN的输出是{11.0%,33.7%,0.1%,1.9%,0.6%,0.1%,32.3%,1.3%};
[0185]以用户情绪投票作为信息源的情绪预测方法S_UEV的输出是{1.0%,53.7%,0.6%,1.4%,0%,0%,33.2%,1.1%};
[0186]那么最后的输入的特征向量应该是:{41.0%,23.7%,0.1%,0.9%,0.6%,0%,32.6%,1.1%,11.0%,33.7%,0.1%,1.9%,0.6%,0.1%,32.3%,1.3%,1.0%,53.7%,0.6%,1.4%,0%,0%,33.2%,1.1%,1}。
[0187]所有这样的特征向量存在的空间构成了该情绪分类问题的输入空间。
[0188]接下来将评论的特征向量和标注向量带入模型的损失函数然后按照梯度下降法的流程或BFGS拟牛顿法流程即可求得模型中参数的最优解。具体算法如下:
[0189]算法5(基于潜在类别再分类模型参数估计的EM算法)
[0190]输入:用户评论文档集合C,C对应的评论观测变量数据T,计算精度ε
[0191]输出:模型参数ω*和α*
[0192]①.选择参数的初值ω(0)和α(0),置s=0,开始迭代;
[0193]②.E步:记ω(s)和α(s)为第s次迭代参数ω和α的估计值,在第s+1次迭代的E步,计算在给定观测数据((ψ(s),f(s)),y(s))和当前的参数估计ω(s)和α(s)下隐变量z的条件概率分布,
[0194] Q i ( s ) ( z ) = exp ( α z ( s ) · f ( i ) ) Σ k = 1 K y k ( i ) exp ( ω zk ( s ) · ψ ( i ) ) Σ r = 1 K exp ( ω zr ( s ) · ψ ( i ) ) Σ l = 1 Z ( exp ( α l ( s ) · f ( i ) ) Σ k = 1 K y k ( i ) exp ( ω lk ( z ) · ψ ( i ) ) Σ r = 1 K exp ( ω lr ( s ) · ψ ( i ) ) )
[0195]并得到将要极大化的对数似然函数的下界L(ω(s),α(s)),
[0196] L ( ω ( s ) , α ( s ) ) = Σ i = 1 N Σ z Q i ( s ) ( z ) ( Σ k = 1 K y k ( i ) log exp ( α z ( s ) · f ( i ) ) Σ l = 1 Z exp ( α l ( s ) · f ( i ) ) exp ( ω zk ( s ) · ψ ( i ) ) Σ r = 1 K exp ( ω zr ( s ) · ψ ( i ) ) - log Q i ( s ) ( z ) )
[0197]当||L(ω(s),α(s))-L(ω(s-1),α(s-1))||<ε(s>1)时,停止迭代;
[0198]③.M步:极小化负的对数似然函数
[0199] min ω , α E ( ω , α ) = - Σ i = 1 N Σ z Q i ( s ) ( z ) ( Σ k = 1 K y k ( i ) log exp ( α z · f ( i ) ) Σ l = 1 Z exp ( α l · f ( i ) ) exp ( ω zk · ψ ( i ) ) Σ r = 1 K exp ( ω zr · ψ ( i ) ) - log Q i ( s ) ( z ) )
[0200]分别对参数ω和α进行极小化优化,目标函数为
[0201]
[0202] α ( s + 1 ) = arg min α - Σ i = 1 N Σ z = 1 Z Q i ( z ) log exp ( α z · f ( i ) ) Σ l = 1 Z exp ( α l · f ( i ) )
[0203]梯度函数分别为
[0204] ∂ E ( ω , α ) ∂ ω zj = - Σ i = 1 N Q i ( z ) Σ k = 1 K y k ( i ) ( I kj - exp ( ω zk · ψ ( i ) ) Σ r = 1 K exp ( ω zr · ψ ( i ) ) ) ψ ( i ) , j = 1,2 , . . . , K
[0205] ∂ E ( ω , α ) ∂ α j = - Σ i = 1 N Σ z Q i ( z ) ( I zj - exp ( α z · f ( i ) ) Σ l = 1 Z exp ( α l · f ( i ) ) ) f ( i ) , j = 1,2 , . . . , Z
[0206]这里,Ikj为指示函数,即当k=j时,Ikj为1,否则Ikj为0;Izj为指示函数,即当z=j时,Izj为1,否则Izj为0;
[0207]用BFGS算法拟牛顿法求得第s+1次迭代的参数ω和α的估计值ω(s+1)和α(s+1),置s=s+1,转E步;
[0208]④.令ω*=ω(s),α*=α(s);
[0209]最后得到ω*,α*的最优值,然后使用结合异构信息源的基于潜在类别的再分类情绪预测方法(Latent Meta Classification,LMC),其具体流程如下:
[0210]算法6:结合异构信息源的基于潜在类别的再分类情绪预测方法(LMC方法)
[0211]输入:用户评论文档集合C,C对应的训练数据集合T,潜在类别个数Z,测试评论c,c的异构信息源特征向量ψ和用于选择评论潜在类别的特征向量f
[0212]输出:评论c的情绪类别y
[0213]①.用算法5求得参数的估计值和
[0214]其中为Z×K×n的三维矩阵,代表文本特征的权重,α为Z×m的二维矩阵,代表潜在变量的权重,因为维数太高,就不在这里举例说明。
[0215]②.对于给定的测试评论c,根据其特征向量ψ={ψ1,ψ2,…,ψn,1}和f={f1,f2,…,fm,1},计算
[0216] P ( e k | ψ , f ) = Σ z = 1 Z exp ( α ^ z · f ) Σ l = 1 Z exp ( α ^ l · f ) exp ( ω ^ zk · ψ ) Σ r = 1 K exp ( ω ^ zr · ψ ) , k = 1,2 , . . . , K
[0217]对于如图2的新闻,新闻评论和图7的情感投票带入到以上公式中后,计算每类情感相应的概率P(ek|ψ,f)={27.1%,13.4%,20.8%,8.1%,12.6%,14.5%,2%,1.5%}
[0218]③.确定评论c的情绪类别
[0219] y = arg max e k P ( e k | ψ , f )
[0220]此步骤即比较得到的P(ek|ψ,f)k=1,2,...,K的大小,取值比较大的那个情况下的情感倾向性为评论的情绪类别,根据第二步中,故预测该评论的情绪类别为感动,和专家标注的情感一致,从中可以看到本发明算法的准确性。