专利详情

标题跨领域跨类别的新闻评论情绪预测方法
[标]当前申请(专利权)人南开大学
申请日2014年9月24日
申请号CN201410494851.6
公开(公告)日2014年12月24日
公开(公告)号CN104239554A
授权日-
法律状态/事件撤回-视为撤回
专利类型发明申请
发明人张莹 | 赵雪 | 乜鹏 | 俞力 | 袁晓洁
受理局中国
当前申请人(专利权)地址300071 天津市南开区卫津路94号 (天津,天津,南开区)
IPC分类号G06F17/30
国民经济行业分类号I6550 | I6421 | I6511 | I6422 | I6513 | I6512 | I6429 | I6519
代理机构天津佳盟知识产权代理有限公司
代理人侯力
被引用专利数量37
专利价值-

摘要

本发明提出了一种跨领域跨类别的新闻评论情绪预测方法。本发明公开的方法,是在目标领域只有少量的标注数据而在另一相关但不相同的源领域拥有大量的标注数据条件下,通过模拟源领域和目标领域情绪类别集合间关系,实现不同领域间的知识迁移,构建跨领域跨类别的新闻评论情绪预测模型,从而解决目标领域新闻评论的情绪预测问题。在源领域与目标领域为不同情绪类别集合情境下,本发明的方法显著地优于其他跨领域跨类别在线新闻评论的情绪预测的替代方法,并且极大降低人工标注工作的高昂代价和训练更多分类模型所耗费的精力。本发明可用于用户情感分析和舆情监督。

1.跨领域跨类别的新闻评论情绪预测方法,包括如下步骤:

第1、对跨领域新闻评论情绪预测问题进行形式化描述

定义1:源领域(source domain)和目标领域(target domain)分别为DS和DT;

定义2:源领域和目标领域的情绪类别标签集合分别为ES和ET:

E S = { e S 1 , e S 2 , · · · , e S K S } - - - ( 1.1 )

E T = { e T 1 , e T 2 , · · · , e T K T } - - - ( 1 . 2 )

其中,代表源领域DS的新闻评论中可能表达的用户情绪类别标签,代表DT的新闻评论中可能表达的用户情绪类别标签,ET构成了该目标领域新闻评论情绪分类问题的输出空间;

定义3:源领域DS中的新闻评论文档集合CS,其新闻评论的数量充足;目标领域DT中的新闻评论文档集合CT,其新闻评论的数量相对较小:

C S = { c S ( 1 ) , c S ( 2 ) , · · · , c S ( M ) } - - - ( 1.3 )

C T = { c T ( 1 ) , c T ( 2 ) , · · · , c T ( N ) } - - - ( 1 . 4 )

定义4:向量为新闻评论的特征向量,向量为新闻评论的特征构成特征向量:

x S ( i ) = { x S 1 ( i ) , x S 2 ( i ) , · · · x S n ( i ) } - - - ( 1.5 )

x T ( i ) = { x T 1 ( i ) , x T 2 ( i ) , · · · x T n ( i ) } - - - ( 1 . 6 )

其中,表示评论的第j个特征,表示新闻评论的第j个特征;

定义5:向量为对应的新闻评论的标注,用来表示评论表达的情绪,

y S ( i ) = { y S 1 ( i ) , y S 2 ( i ) , · · · , y S K ( i ) } - - - ( 1.7 )

如果新闻评论标注的情绪是类 e S l ∈ E S , l = 1,2 , · · · , K S , 则中项 y S r ( i ) , r ∈ 1,2 , · · · , K 可表示为

y S r ( i ) = 1 , r = l 0 , r ≠ l - - - ( 1.8 )

定义6:向量为对应的新闻评论的标注,用来表示评论表达的情绪,

y T ( i ) = { y T 1 ( i ) , y T 2 ( i ) , · · · , y T K ( i ) } - - - ( 1 . 9 )

如果新闻评论标注的情绪是类 e T k ∈ E T , k = 1,2 , · · · , K T , 则中项 y T r ( i ) , r ∈ 1,2 , · · · , K 可表示为

y T r ( i ) = 1 , r = k 0 , r ≠ k - - - ( 1 . 10 )

定义7:在目标领域DT中,用于情绪预测模型训练的标注数据集有N,0≤N,条新闻和相应的情绪类别标签,可表示为

D T = { ( x T ( 1 ) , y T ( 1 ) ) , ( x T ( 2 ) , y T ( 2 ) ) , · · · ( x T ( N ) , y T ( N ) ) } - - - ( 1.11 )

定义8:源领域DS中,用于情绪预测模型训练的标注数据集有M,0≤N<<M,条新闻和相应的情绪类别标签,可表示为

D S = { ( x S ( 1 ) , y S ( 1 ) ) , ( x S ( 2 ) , y S ( 2 ) ) , · · · ( x S ( M ) , y S ( M ) ) } - - - ( 1.12 )

第2、构建利用情绪间依赖关系实现知识迁移的模型

定义9:ω={ω1,ω2,…,ωK}为情绪的权重向量,ωl={ωl1,ωl2,…,ωln,bl}∈Rn+1为情绪的权值向量参数,ωk={ωk1,ωk2,…,ωkn,bk}∈Rn+1为对应情绪ek的权值向量参数;

定义10:是源领域DS的标注训练集中一个训练样本的损失,用关于权重参数ω={ω1,ω2,…,ωK}的函数,表示为此训练样本的负的对数似然函数值,即:

ξ S ( i ) = - Σ k = 1 K y S k ( i ) log exp ( ω k T x S ( i ) ) Σ r = 1 K exp ( ω r T x S ( i ) ) - - - ( 1.13 )

定义11:为DT中新闻评论被分到DS的情绪类的条件概率,根据多元逻辑斯谛回归模型,该条件概率可用软最大函数来表示,归一化的概率值即:

δ T l ( i ) = P ( e S l | x T ( i ) ) = exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) - - - ( 1.14 )

定义12:为DT中的新闻评论被分到源领域、目标领域共有的情绪ek∈ES=ET类的条件概率,根据多元逻辑斯谛回归模型,该条件概率可用软最大函数表示,归一化的概率值即:

ψ T k ( i ) = P ( e k | x T ( i ) ) = exp ( ω k T x T ( i ) ) Σ r = 1 K exp ( ω r T x T ( i ) ) - - - ( 1.15 )

定义13:和分别是和的权重向量,向量中的每一项为和中每一项的权重值,用υkl和υsl表示;

定义14:γ=(γ(1),γ(2),…,γ(M))是参数向量,用来模拟源领域和目标领域间数据分布的差异;

定义15:λ1,λ2,λ3≥0是系数参数,分别用以权衡目标领域损失函数、源领域损失函数、关于参数υ的正则化项和关于参数ω正则化项的相对重要程度;

定义16:是目标领域DT中的标注训练集中的一个训练样本的损失,根据多元逻辑斯谛回归模型的损失可由负的对数似然函数值作为损失函数来衡量,即

ξ T ′ ( i ) = - log Π k = 1 K T ψ T k ( i ) y T K ( i ) = - Σ k = 1 K T y T k ( i ) log ψ T k ( i ) = - Σ k = 1 K T y T k ( i ) log exp ( Σ l = 1 K S υ kl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) Σ s = 1 K T exp ( Σ l = 1 K S υ sl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) - - - ( 1.16 )

为模拟源领域和目标领域情绪类别间的关系,将目标领域的训练数据中的新闻评论分至源领域中每个情绪类别的条件概率作为特征,再利用多元逻辑回归模型将这些特征分至目标领域的情绪类别ek∈ET,k=1,2,…,KT中,实现将源领域的知识迁移至目标领域,即

ψ T k ( i ) = P ( e T k | δ T ( i ) ) = exp ( υ k T δ T ( i ) ) Σ s = 1 K S exp ( υ s T δ T ( i ) ) = exp ( Σ l = 1 K S υ kl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) Σ s = 1 K T exp ( Σ l = 1 K S υ sl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) - - - ( 1.17 )

源领域和目标领域统一的目标损失函数,表示为

min ω , υ λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ) + R ( ω ) - - - ( 1.18 )

其中,ω和υ是权重向量,也是整个公式的参数,需要进行参数估计获取;γ(i)用来模拟源领域和目标领域间数据分布的差异,以此差异作为权重将源领域的训练数据自然地编入到目标领域的目标损失函数中;R(ω)和R(v)是用来防止过拟合的两个参数的正则化项,采用参数向量的L2范数形式;

第3、利用边缘分布模拟源领域和目标领域的训练数据分布的差异γ

定义17:是源领域训练样本在目标领域DT的文本特征边缘分布;

定义18:是源领域训练样本在源领域DS的文本特征边缘分布;

源领域和目标领域的数据分布的差异γ由两个领域评论文本特征的边缘分布来模拟,γ的每一项即为

γ ( i ) = Pr T ( x S ( i ) ) Pr S ( x S ( i ) ) - - - ( 1.19 )

采用基于高斯核的核密度估计方法来估计γ(i),即

Pr T ( x S ( i ) ) Pr S ( x S ( i ) ) = Σ j = 1 N exp ( - | | x S ( i ) - x T ( i ) | | 2 σ 2 ) Σ j = 1 M exp ( - | | x S ( i ) - x S ( j ) | | 2 σ 2 ) - 1 - - - ( 1.20 )

其中,σ是高斯核的带宽参数,分母中的-1项是为了消除属于源领域的训练样本自己在源领域估计概率值中的影响;

第4、求解参数ω和υ的估计值

定义19:ω*和υ*为目标损失函数极小化时ω和υ的估计值,即最优值;

定义20:和表示求解目标损失函数极小化过程中ω和υ的中间迭代结果;

以损失函数为目标函数,采用BFGS拟牛顿法求解ω*和υ*:

①采用一种迭代交替的优化方法来求解此以损失函数为目标函数关于参数ω和υ的联合优化问题,将目标函数表示为

min ω , υ λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ) + R ( ω ) min ω , υ - λ 1 N Σ i = 1 N Σ k = 1 K T y T k ( i ) log exp ( Σ l = 1 K S υ kl e xp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T , x T ( i ) ) ) Σ s = 1 K T exp ( Σ l = 1 K S υ sl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) - λ 2 M Σ i = 1 M γ ( i ) Σ l = 1 K S y S l ( i ) log exp ( ω l T x S ( i ) ) Σ r = 1 K exp ( ω r T x S ( i ) ) + λ 3 Σ k = 1 K T Σ j = 1 n + 1 υ kj 2 + Σ l = 1 K S Σ j = 1 n + 1 ω lj 2 - - - ( 1.21 )

②对于每次迭代,首先固定参数值将该问题转化成只关于参数ω的凸函数优化问题,即

min ω λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ^ ) + R ( ω )

采用BFGS拟牛顿法计算其梯度函数



使目标函数极小化,以求解使目标函数极小化的ω值再将参数ω固定为将目标函数联合优化问题转化成只关于参数υ的凸函数优化问题,

min υ λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ) + R ( ω ^ )

采用BFGS拟牛顿法计算其梯度函数



以求解使目标函数极小化的参数υ的值;

③迭代执行上述的交替过程直至收敛,就能够获得优化的参数值ω*和υ*。

技术领域

[0001]本发明属于web信息检索与挖掘领域,具体涉及异构新闻内容,评论内容,用户情感等多种信息源,对在线新闻评论情绪进行预测的方法。

背景技术

[0002]近年来,随着信息检索、机器学习、自然语言处理领域的快速发展,文本挖掘和情感分析问题引起了研究者的广泛关注。基于监督学习的情感分类方法纷纷涌现,成为了情感分析中的研究热点。如何建立一个在多领域通用的新闻评论情感预测方法,利用一个领域的知识帮助其他领域分类模型的学习,是一个亟待解决的问题。以下将多类情绪划分的情绪分类问题称为“情绪分类(emotion classification)”,区别于二类情感极性划分的“情感倾向性分类”。

[0003]情感分析需要在当前领域充足的训练数据集建立分类器,但是这往往需要大量的人工标注工作,这种标注工作劳动强度大,十分耗时且代价高昂。因此,为了降低人工标注工作的高昂代价和训练更多分类模型所耗费的精力,构建跨领域的情感分类方法,用某一领域的标注的训练数据集来帮助另一相关但不相同、仅有少量标注的训练数据集的其他领域进行情感分析,具有重要研究意义和应用价值。

[0004]跨领域(cross-domain)情感分类问题包括跨领域的情绪分类、跨领域的情感倾向性分类和跨领域跨类别(cross-category)的情感分类问题,其中,跨领域跨类别的情感分类问题是在源领域(source domain)和目标领域(target domain)采用不同的多类情绪类别集合,或是一个领域采用情感倾向性类别集合,而另一领域采用多类情绪类别集合的情境下进行跨领域情绪预测。

[0005]迁移学习(transfer learning)技术是解决这个问题的常用手段,将相关领域(源领域)知识迁移至目标领域,来帮助目标领域分类模型的学习。有研究者将两个不同领域中具有良好主观识别性的特征作为领域独立的特征来实现领域迁移,并利用电影评论和产品评论数据对其方法进行验证。SCL算法是一种迁移学习的高效方法,采用了领域适应技术来解决情感分析问题。SCL算法基于ASO优化技术的特征表示知识迁移学习方法,利用源领域和目标领域的未标注数据抽取在两个领域经常出现且表现相同的支点特征,然后模拟支点特征和其他特征的相关性,并利用相关性信息确定一些新的共享特征,以降低领域间数据分布的差异。但是,即使加入这些新的特征,数据分布差异的问题仍然存在于原始的特征空间上。另外,SCL算法的性能很大程度上取决于支点特征选择的优劣,因此常常达不到很好的效果。

[0006]此外,大量的情感分析工作多是基于二类情感倾向性的分析,不能直接应用于多类情绪分类问题。另外,根据源领域和目标领域是否共享相同情绪类别,现存的迁移学习技术局限于在任务/领域共享相同的情绪类别条件下实现知识迁移,不同领域使用不同情绪类别的情境是已有方法所不能解决的。而本发明是首次将跨领域情感分析问题扩展到跨情绪类别的情景中,用以解决更为实际的在不同情绪类别下不同领域的情感分析问题。

发明内容

[0007]本发明的目的是解决有着不同情绪类别的相关但不相同的两个领域中的新闻评论情绪预测问题,提出一种跨领域跨类别的新闻评论情绪预测方法。

[0008]本发明针对现有技术中的问题,采用机器学习技术,创新性地提出跨领域跨类别的新闻评论情绪预测方法,极大降低了人工标注工作的高昂代价和训练更多分类模型所耗费的精力,解决其他方法无法解决的不同情绪类别情景下的跨领域情感分析问题。

[0009]本发明提出的跨领域跨类别的新闻评论情绪预测方法,包括如下步骤:

[0010]第1、对跨领域新闻评论情绪预测问题进行形式化描述

[0011]定义1:源领域(source domain)和目标领域(target domain)分别为DS和DT;

[0012]定义2:源领域和目标领域的情绪类别标签集合分别为ES和ET:

[0013] E S = { e S 1 , e S 2 , · · · , e S K S } - - - ( 1.1 )

[0014] E T = { e T 1 , e T 2 , · · · , e T K T } - - - ( 1 . 2 )

[0015]其中,代表源领域DS的新闻评论中可能表达的用户情绪类别标签,代表DT的新闻评论中可能表达的用户情绪类别标签,ET构成了该目标领域新闻评论情绪分类问题的输出空间;

[0016]定义3:源领域DS中的新闻评论文档集合CS,其新闻评论的数量充足;目标领域DT中的新闻评论文档集合CT,其新闻评论的数量相对较小:

[0017] C S = { c S ( 1 ) , c S ( 2 ) , · · · , c S ( M ) } - - - ( 1.3 )

[0018] C T = { c T ( 1 ) , c T ( 2 ) , · · · , c T ( N ) } - - - ( 1 . 4 )

[0019]定义4:向量为新闻评论的特征向量,向量为新闻评论的特征构成特征向量:

[0020] x S ( i ) = { x S 1 ( i ) , x S 2 ( i ) , · · · x S n ( i ) } - - - ( 1.5 )

[0021] x T ( i ) = { x T 1 ( i ) , x T 2 ( i ) , · · · x T n ( i ) } - - - ( 1 . 6 )

[0022]其中,表示评论的第j个特征,表示新闻评论的第j个特征;

[0023]定义5:向量为对应的新闻评论的标注,用来表示评论表达的情绪,

[0024] y S ( i ) = { y S 1 ( i ) , y S 2 ( i ) , · · · , y S K ( i ) } - - - ( 1.7 )

[0025]如果新闻评论标注的情绪是类 e S l ∈ E S , l = 1,2 , · · · , K S , 则中项 y S r ( i ) , r ∈ 1,2 , · · · , K 可表示为

[0026] y S r ( i ) = 1 , r = l 0 , r ≠ l - - - ( 1.8 )

[0027]定义6:向量为对应的新闻评论的标注,用来表示评论表达的情绪,

[0028] y T ( i ) = { y T 1 ( i ) , y T 2 ( i ) , · · · , y T K ( i ) } - - - ( 1 . 9 )

[0029]如果新闻评论标注的情绪是类 e T k ∈ E T , k = 1,2 , · · · , K T , 则中项 y T r ( i ) , r ∈ 1,2 , · · · , K 可表示为

[0030] y T r ( i ) = 1 , r = k 0 , r ≠ k - - - ( 1 . 10 )

[0031]定义7:在目标领域DT中,用于情绪预测模型训练的标注数据集有N,0≤N,条新闻和相应的情绪类别标签,可表示为

[0032] D T = { ( x T ( 1 ) , y T ( 1 ) ) , ( x T ( 2 ) , y T ( 2 ) ) , · · · ( x T ( N ) , y T ( N ) ) } - - - ( 1.11 )

[0033]定义8:源领域DS中,用于情绪预测模型训练的标注数据集有M,0≤N<<M,条新闻和相应的情绪类别标签,可表示为

[0034] D S = { ( x S ( 1 ) , y S ( 1 ) ) , ( x S ( 2 ) , y S ( 2 ) ) , · · · ( x S ( M ) , y S ( M ) ) } - - - ( 1.12 )

[0035]第2、构建利用情感间依赖关系实现知识迁移的模型

[0036]定义9:ω={ω1,ω2,…,ωK}为情绪的权重向量,ωl={ωl1,ωl2,…,ωln,bl}∈Rn+1为情绪的权值向量参数,ωk={ωk1,ωk2,…,ωkn,bk}∈Rn+1为对应情绪ek的权值向量参数;

[0037]定义10:是源领域DS的标注训练集中一个训练样本的损失,用关于权重参数ω={ω1,ω2,…,ωK}的函数,表示为此训练样本的负的对数似然函数值,即:

[0038] ξ S ( i ) = - Σ k = 1 K y S k ( i ) log exp ( ω k T x S ( i ) ) Σ r = 1 K exp ( ω r T x S ( i ) ) - - - ( 1.13 )

[0039]定义11:为DT中新闻评论被分到DS的情绪类的条件概率,根据多元逻辑斯谛回归模型,该条件概率可用软最大函数来表示,归一化的概率值即:

[0040] δ T l ( i ) = P ( e S l | x T ( i ) ) = exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) - - - ( 1.14 )

[0041]定义12:为DT中的新闻评论被分到源领域、目标领域共有的情绪ek∈ES=ET类的条件概率,根据多元逻辑斯谛回归模型,该条件概率可用软最大函数表示,归一化的概率值即:

[0042] ψ T k ( i ) = P ( e k | x T ( i ) ) = exp ( ω k T x T ( i ) ) Σ r = 1 K exp ( ω r T x T ( i ) ) - - - ( 1.15 )

[0043]定义13:和分别是和的权重向量,向量中的每一项为和中每一项的权重值,用υkl和υsl表示。

[0044]定义14:γ=(γ(1),γ(2),…,γ(M))是参数向量,用来模拟源领域和目标领域间数据分布的差异。

[0045]定义15:λ1,λ2,λ3≥0是系数参数,分别用以权衡目标领域损失函数、源领域损失函数、关于参数υ的正则化项和关于参数ω正则化项的相对重要程度。

[0046]定义16:是目标领域DT中的标注训练集中的一个训练样本的损失,根据多元逻辑斯谛回归模型的损失可由负的对数似然函数值作为损失函数来衡量,即

[0047] ξ T ′ ( i ) = - log Π k = 1 K T ψ T k ( i ) y T K ( i ) = - Σ k = 1 K T y T k ( i ) log ψ T k ( i ) = - Σ k = 1 K T y T k ( i ) log exp ( Σ l = 1 K S υ kl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) Σ s = 1 K T exp ( Σ l = 1 K S υ sl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) - - - ( 1.16 )

[0048]为模拟源领域和目标领域情绪类别间的关系,将目标领域的训练数据中的新闻评论分至源领域中每个情绪类别的条件概率作为特征,再利用多元逻辑回归模型将这些特征分至目标领域的情绪类别ek∈ET,k=1,2,…,KT中,实现将源领域的知识迁移至目标领域,即

[0049] ψ T k ( i ) = P ( e T k | δ T ( i ) ) = exp ( υ k T δ T ( i ) ) Σ s = 1 K S exp ( υ s T δ T ( i ) ) = exp ( Σ l = 1 K S υ kl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) Σ s = 1 K T exp ( Σ l = 1 K S υ sl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) - - - ( 1.17 )

[0050]源领域和目标领域统一的目标损失函数,表示为

[0051] min ω , υ λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ) + R ( ω ) - - - ( 1.18 )

[0052]其中,ω和υ是权重向量,也是整个公式的参数,需要进行参数估计获取;γ(i)用来模拟源领域和目标领域间数据分布的差异,以此差异作为权重将源领域的训练数据自然地编入到目标领域的目标损失函数中;R(ω)和R(v)是用来防止过拟合的两个参数的正则化项,采用参数向量的L2范数形式。

[0053]第3、利用边缘分布模拟源领域和目标领域的训练数据分布的差异γ

[0054]定义17:是源领域训练样本在目标领域DT的文本特征边缘分布。

[0055]定义18:是源领域训练样本在源领域DS的文本特征边缘分布。

[0056]源领域和目标领域的数据分布的差异γ由两个领域评论文本特征的边缘分布来模拟,γ的每一项即为

[0057] γ ( i ) = Pr T ( x S ( i ) ) Pr S ( x S ( i ) ) - - - ( 1.19 )

[0058]采用基于高斯核的核密度估计方法来估计γ(i),即

[0059] Pr T ( x S ( i ) ) Pr S ( x S ( i ) ) = Σ j = 1 N exp ( - | | x S ( i ) - x T ( i ) | | 2 σ 2 ) Σ j = 1 M exp ( - | | x S ( i ) - x S ( j ) | | 2 σ 2 ) - 1 - - - ( 1.20 )

[0060]其中,σ是高斯核的带宽参数,分母中的-1项是为了消除属于源领域的训练样本自己在源领域估计概率值中的影响。

[0061]第4、求解参数ω和υ的估计值

[0062]定义19:ω*和υ*为目标损失函数极小化时ω和υ的估计值,即最优值。

[0063]定义20:和表示求解目标损失函数极小化过程中ω和υ的中间迭代结果。

[0064]以损失函数为目标函数,采用BFGS拟牛顿法求解ω*和υ*:

[0065]①采用一种迭代交替的优化方法来求解此以损失函数为目标函数关于参数ω和υ的联合优化问题,将目标函数表示为

[0066] min ω , υ λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ) + R ( ω ) min ω , υ - λ 1 N Σ i = 1 N Σ k = 1 K T y T k ( i ) log exp ( Σ l = 1 K S υ kl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T , x T ( i ) ) ) Σ s = 1 K T exp ( Σ l = 1 K S υ sl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) - λ 2 M Σ i = 1 M γ ( i ) Σ l = 1 K S y S l ( i ) log exp ( ω l T x S ( i ) ) Σ r = 1 K exp ( ω r T x S ( i ) ) + λ 3 Σ k = 1 K T Σ j = 1 n + 1 υ kj 2 + Σ l = 1 K S Σ j = 1 n + 1 ω lj 2 - - - ( 1.21 )

[0067]②对于每次迭代,首先固定参数值将该问题转化成只关于参数ω的凸函数优化问题,即

[0068] min ω λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ^ ) + R ( ω )

[0069]采用BFGS拟牛顿法计算其梯度函数

[0070]

[0071]使目标函数极小化,以求解使目标函数极小化的ω值再将参数ω固定为将目标函数联合优化问题转化成只关于参数υ的凸函数优化问题,

[0072] min υ λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ) + R ( ω ^ )

[0073]采用BFGS拟牛顿法计算其梯度函数

[0074] g ( υ ) = [ λ 1 N Σ i = 1 N ∂ ξ T ′ ( i ) ∂ υ k + λ 3 ∂ R ( υ ) ∂ υ k ] K - - - ( 1.23 )

[0075]以求解使目标函数极小化的参数υ的值。

[0076]③迭代执行上述的交替过程直至收敛,就可以获得优化的参数值ω*和υ*。

[0077]本发明的优点和积极效果:

[0078]本发明提出了一种新颖的提出一种跨领域跨类别的新闻评论情绪预测方法,在目标领域只有少量的标注数据而在另一相关但不相同的源领域拥有大量的标注数据条件下,通过模拟源领域和目标领域情绪类别集合间关系,实现不同领域间的知识迁移,构建跨领域跨类别的新闻评论情绪预测模型,从而解决目标领域新闻评论的情绪预测问题。本发明首次解决跨领域跨类别在线新闻评论情感分析问题。

附图说明

[0079]图1为跨领域跨类别新闻评论情绪预测过程示意图。

[0080]图2为跨领域跨类别新闻评论情绪预测模型训练过程示意图。

[0081]图3为各数据集标注评论的情绪类别统计信息。

[0082]图4为各数据集标注评论的情感倾向统计信息。

具体实施方式

[0083]准备两个领域的新闻评论数据集,如2011年1月至2011年6月部分新浪新闻网站社会频道5,174个和腾讯新闻网站娱乐频道的5,431个热点新闻的评论,两个数据集的评论标注情绪类别以及情感倾向性的统计信息分别见图3和图4。对于社会领域和娱乐领域的新闻评论数据集,请专家为数据集中的每个评论标注情绪类别标签和情感倾向性标签,预定义的情绪类别与相对应的新闻网站所提供的用户情绪投票服务的情绪类别一致,情感倾向性则分为积极和消极两类。将社会领域作为源领域,娱乐领域作为目标领域;源领域使用8类情绪类别(感动、同情、愤怒、搞笑、难过、新奇、温馨、无聊)而目标领域使用二类情感倾向性类别(积极、消极)。至此,我们可以获得两个领域的新闻评论文档集合。

[0084]采用新闻评论文本内容中情绪词汇的词频作为特征。首先使用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)提供的中文分词功能,对新闻和评论的文本内容进行分词,再使用NTU情感分析词典和Hownet情感词典抽取表达情绪的词汇,最后统计情绪词汇的出现次数,即为词频,用词频构成社会领域(源领域)和娱乐领域(目标领域)的特征向量,即为源领域和目标领域的特征向量和

[0085]具体的和可通过以下方式获取。在社会领域和娱乐领域的新闻评论经过分词后,参照情感词典,将两个领域的新闻评论的词项中表达情感的词分别抽取出来作为该领域的特征,如笑呵呵、欣慰、幸福、暴跳如雷、勃然大怒、望而生畏、人心惶惶、痛苦、焦虑、怀疑等,并统计词频作为每条评论的特征向量,如以上词语在社会领域的训练数据集中出现次数分别为2次、24次、729次、3次、6次、23次、19次、302次、109次、58次等,那么新闻评论“这种事情弄得大家人心惶惶!一点幸福感都没有了!!严重怀疑他们的办事能力!”的特征向量则为(0,0,1,0,0,0,1,0,0,1,…),而社会领域的特征向量为(2,24,729,3,6,23,19,302,109,58,…)。在实际数据集上,每个领域的情感词即特征多达3000多个,由于情感词与实际数据集的文本内容息息相关,并不是固定不变的,故此处不一一列出本例中各领域的情感词以及特征向量。

[0086]源领域和目标领域的数据集根据是否加入情绪类别都分为两类:一类的和具有对应的情绪类别和如上面所示的新闻评论对应的表示该新闻评论的情绪类别为8类情绪类别(感动、同情、愤怒、搞笑、难过、新奇、温馨、无聊)中的第三个:愤怒。利用这些仅有少量标注的源领域和目标领域数据集作为训练数据集进行训练,具体过程如下。

[0087]得到源领域和目标领域用于训练的训练数据集以及对应的特征向量、目标领域中用于测试的新闻评论及其特征向量后,在源领域和目标领域的训练数据集上构建分类模型、计算模型中的参数,即可获得用于跨领域跨类别的情绪预测模型,此时输入目标领域中用于测试的新闻评论特征向量,跨领域跨类别的情绪预测模型即可输出该新闻评论对应的情感倾向性。

[0088]根据源领域和目标领域统一的目标损失函数

[0089] min ω , υ λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ) + R ( ω )

[0090]通过模拟两个领域之间的差异,根据前面的定义,将各个变量带入后得到目标损失函数:

[0091] min ω , υ λ 1 N Σ i = 1 N ξ T ′ ( i ) + λ 2 M Σ i = 1 M γ ( i ) ξ S ( i ) + λ 3 R ( υ ) + R ( ω ) min ω , υ - λ 1 N Σ i = 1 N Σ k = 1 K T y T k ( i ) log exp ( Σ l = 1 K S υ kl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T , x T ( i ) ) ) Σ s = 1 K T exp ( Σ l = 1 K S υ sl exp ( ω l T x T ( i ) ) Σ r = 1 K S exp ( ω r T x T ( i ) ) ) - λ 2 M Σ i = 1 M γ ( i ) Σ l = 1 K S y S l ( i ) log exp ( ω l T x S ( i ) ) Σ r = 1 K exp ( ω r T x S ( i ) ) + λ 3 Σ k = 1 K T Σ j = 1 n + 1 υ kj 2 + Σ l = 1 K S Σ j = 1 n + 1 ω lj 2

[0092]接着进行优化该目标损失函数,求得使目标损失函数最小时的情绪类别y。算法过程如下。

[0093]输入:目标领域新闻评论文档集合CT,CT对应的训练数据集合TT,目标领域用于测试的新闻评论cT(目标领域的新闻评论集合CT减去用于训练的数据集合TT的部分)及其特征向量xT,源领域评论文档集合CS,CS对应的评论训练数据集合TS以及TS对应的特征向量xS;

[0094]输出:评论cT的情绪类别y。

[0095]①利用源领域的训练数据集估计领域数据分布差异:

[0096] γ ( i ) = Pr T ( x S ( i ) ) Pr S ( x S ( i ) ) = Σ j = 1 n exp ( - | | x S ( i ) - x T ( i ) | | σ 2 ) Σ j = 1 m exp ( - | | x S ( i ) - x S ( i ) | | σ 2 ) - 1

[0097]②用10折交叉验证的方法在训练数据集中学习出最优的系数和

[0098]③用交替优化方法解目标函数为

[0099] min ω , υ λ ^ 1 n Σ i = 1 N ξ T ′ ( i ) + λ ^ 2 m Σ i = 1 M γ ( i ) ξ S ( i ) + λ ^ 3 R ( υ ) + R ( ω )

[0100]的最优化问题,求得参数的最优估计值ω*和υ*;

[0101]④对于目标领域测试评论cT,依据其特征向量计算

[0102] P ( Y = e T k | X = x T ( i ) ) = exp ( Σ l = 1 K S υ kl * exp ( ω l * T x T ( i ) ) Σ r = 1 K S exp ( ω r * T x T ( i ) ) ) Σ s = 1 K T exp ( Σ l = 1 K S υ sl * exp ( ω l * T x T ( i ) ) Σ r = 1 K S exp ( ω r * T x T ( i ) ) ) , k = 1,2 , · · · , K T

[0103]由于本例中目标领域情感倾向性为2类,故k=1,2。因此对于如新闻评论“这种事情弄得大家人心惶惶!一点幸福感都没有了!!严重怀疑他们的办事能力!”的特征向量(0,0,1,0,0,0,1,0,0,1,…),带入到以上公式中,计算在k=1,2两种情况下的2个条件概率 P ( Y = e T 1 | X = x T ( i ) ) = 0.2 和 P ( Y = e T 2 | X = x T ( i ) ) = 0 . 8 .

[0104]④确定评论cT的情绪类别

[0105] y = arg max e T k P ( Y = e T k | X = x T ( i ) )

[0106]此步骤即比较得到的 P ( Y = e T 1 | X = x T ( i ) ) 和 P ( Y = e T 2 | X = x T ( i ) ) 的大小,取值比较大的那个情况下的情感倾向性为评论的情绪类别,即当k=2时,情感倾向性为消极时,条件概率值较大,故该评论的情绪类别为消极。

[0107]⑤算法结束。