广东工业大学学报 ›› 2014, Vol. 31 ›› Issue (3): 32-38.doi: 10.3969/j.issn.1007-7162.2014.03.006

• 综合研究 • 上一篇    下一篇

聚类分析研究的挑战性问题

蒋盛益1,王连喜2   

  1. 广东外语外贸大学 1.思科信息学院;2.图书馆,广东 广州 510420
  • 收稿日期:2014-07-10 出版日期:2014-09-30 发布日期:2014-09-30
  • 作者简介:蒋盛益(1963-),男,教授,博士,硕士生导师,中国计算机学会高级会员,主要研究方向为数据挖掘与自然语言处理.
  • 基金资助:

    国家自然科学基金资助项目(61202271);教育部人文社会科学项目(14YJC870021);广东省科技计划项目(S2012B031400016);广东省普通高校科技创新项目(2012KJCX0049,2013KJCX0069)

Some Challenges in Clustering Analysis

Jiang Sheng-yi1, Wang Lian-xi2   

  1. 1.Cisco School of Informatics;2. Library, Guangdong University of Foreign Studies, Guangzhou 510420, China
  • Received:2014-07-10 Online:2014-09-30 Published:2014-09-30

摘要: 聚类的目的是帮助人们发现和认识未知世界,为现实生活中的学习积累知识.聚类分析一直是广大学者重点关注的无监督学习内容,也是许多交叉学科用来探索数据中潜在规律的重要分析工具.通过简单梳理聚类分析的研究成果,在理解聚类分析基本框架的基础上对当前聚类算法在处理多样化数据类型的能力、处理超高维数据的能力、处理不均衡数据的能力、算法的可拓展能力、效果评价的指标选择问题等方面出现的挑战性问题进行了论述,并分析了未来有待重点解决的一些问题.这些工作将为后续聚类分析和数据挖掘的深入研究提供有价值的参考.

关键词: 聚类分析, 无监督学习, 数据挖掘

Abstract: The aim of clustering is to help people find and recognize the unknown world, so as to accumulate knowledge for us in real life. Clustering analysis is an important part for the majority of researchers in unsupervised leaning, and is usually used as an analysis tool to explore the unknown data and its regularity for many cross subjects. It analyzed the procedure of clustering, and briefly surveyed the related achievements. Moreover, the problems of clustering algorithms in processing various data types, high dimensional data, unbalanced data were concluded, and the expansibility and the selection of evaluation index for algorithms were also discussed in detail. At last, some directions for future research were proposed. The above work can give valuable reference to further studies of clustering and data mining.

Key words: clustering analysis, unsupervised learning, data mining

[1] 张巍, 张圳彬. 联合图嵌入与特征加权的无监督特征选择[J]. 广东工业大学学报, 2021, 38(05): 16-23.
[2] 岑仕杰, 何元烈, 陈小聪. 结合注意力与无监督深度学习的单目深度估计[J]. 广东工业大学学报, 2020, 37(04): 35-41.
[3] 滕少华, 冯镇业, 滕璐瑶, 房小兆. 联合低秩表示与图嵌入的无监督特征选择[J]. 广东工业大学学报, 2019, 36(05): 7-13.
[4] 谢振东, 冷梦甜, 吴金成. 基于一卡通数据的公交站点识别方法分析与研究[J]. 广东工业大学学报, 2019, 36(01): 23-28.
[5] 滕少华, 卢东略, 霍颖翔, 张巍. 基于正交投影的降维分类方法研究[J]. 广东工业大学学报, 2017, 34(03): 1-7.
[6] 陈丽, 曹熙, 林俊杰, 高鸿铭, 刘飞雅, 李艳艳. 基于数据挖掘的短期电力负荷风险预测分析[J]. 广东工业大学学报, 2017, 34(03): 105-109.
[7] 丁俐娟, 邹广天, 郭强, 张斯. 可拓建筑策划数据挖掘理论探讨[J]. 广东工业大学学报, 2015, 32(1): 1-5.
[8] 张家宾, 张金春, 李日华, 李超亚. 基于可拓学的故障诊断及预防方法研究[J]. 广东工业大学学报, 2015, 32(1): 11-15.
[9] 滕少华, 樊继慧, 陈潇, 张巍, 刘冬宁, 梁路. 基于KNN的多组合器协同挖掘局域气象数据[J]. 广东工业大学学报, 2014, 31(1): 25-31.
[10] 张巍, 刘峰, 滕少华. 改进的PrefixSpan算法及其在序列模式挖掘中的应用[J]. 广东工业大学学报, 2013, 30(4): 49-54.
[11] 朱伶俐,李卫华,李小妹. 客户价值可拓知识挖掘软件研究[J]. 广东工业大学学报, 2012, 29(4): 7-13.
[12] 宾宁; . 基于SPRINT分类算法挖掘保险业务数据中的风险规则[J]. 广东工业大学学报, 2007, 24(2): 99-102.
[13] 吴良胜; 冯津; 苏锦旋; . 特定交通环境驾驶员紧张性模糊聚类研究[J]. 广东工业大学学报, 2006, 23(4): 70-75.
[14] 刘立程; . 图像聚类分析法用于汽车图像边缘的检测[J]. 广东工业大学学报, 2006, 23(2): 69-73.
[15] 赵玉明; 滕少华; 张巍; 伍乃骐; . 异常入侵检测中数据挖掘技术RIPPER的应用[J]. 广东工业大学学报, 2005, 22(3): 48-52.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!