广东工业大学学报 ›› 2016, Vol. 33 ›› Issue (06): 85-90.doi: 10.3969/j.issn.1007-7162.2016.06.015
梁礼欣, 郝志峰, 蔡瑞初, 温雯
Liang Li-xin, Hao Zhi-feng, Cai Rui-chu, Wen Wen
摘要:
针对微博行文自由性大,情感倾向识别困难的问题,提出了一种基于混合高斯分布伪样本生成技术和条件随机场模型的新方法。该方法首先利用混合高斯分布模型来为训练集中的少数类生成伪样本从而构建一个情感倾向分布平衡的训练集,然后通过使用Word2vec来扩展微博句子以丰富它的情感信息,从而缓解情感词典不足够大对情感分类的负面影响;最后将条件随机场模型应用在上面已经平衡和扩展后的训练集上.实验结果表明该方法比现有方法在数据集情感倾向分布不平衡时能更有效地识别微博的情感倾向.
No related articles found! |
|