Please wait a minute...
本刊目录
    •   2017年, 第03期 刊出日期:2017-05-09 上一期    下一期
      大数据基础理论与应用专题
      基于正交投影的降维分类方法研究 收藏
      滕少华, 卢东略, 霍颖翔, 张巍
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170008
      摘要    HTML ( )   PDF(2855KB)

      大数据时代要求数据挖掘算法能高效处理海量数据,针对传统分类算法建模时间长、分类耗时久、算法难以理解等问题,提出一种基于正交投影的降维分类方法,通过投影方式将多维分类问题转化为多个二维投影面组合问题,建立投影面的密度模型进行分类.相比于常用的支持向量机(Support Vector Machine,SVM)、逻辑回归(Logistic Regression,LR)、k最近邻(K-Nearest Neighbor,KNN)等分类算法,基于正交投影降维的分类方法能够在不丢失分类准确度的同时,拥有较高的模型训练效率与分类效率.其算法易于实现,可用于实时性要求较高的应用场合,如入侵检测,交通调度等.

      参考文献 | 相关文章 | 计量指标
      面向汽车评论的细粒度情感分析方法研究 收藏
      陈炳丰, 郝志峰, 蔡瑞初, 温雯, 王丽娟, 黄浩, 蔡晓凤
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170036
      摘要    HTML ( )   PDF(2537KB)

      情感分析方法能够在海量的汽车评论信息中挖掘出有价值的信息,在汽车产品设计、品牌营销等方面具有较大的应用价值.针对汽车评论分析的细粒度分析要求,本文提出了基于实体的细粒度情感分析方法.首先,对汽车评论数据进行文本细粒度处理,然后采用Linear-chain CRF模型对评论数据进行情感实体识别和情感倾向分类;再对Linear-chain CRF模型进行改进,提出了一种构造双层结构的CRF模型的方法,解决2个任务间的关联问题.实验结果表明,双层结构CRF模型的情感分析效果优于Linear-chain CRF模型,能够满足汽车评论在情感实体识别与情感倾向分类的需求.

      参考文献 | 相关文章 | 计量指标
      基于Spark平台的社交网络在不同文化环境中的中心度加权算法 收藏
      饶东宁, 温远丽, 魏来, 王雅丽
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170023
      摘要    HTML ( )   PDF(810KB)

      社交网络广泛应用于科技、商业、经济和生物等领域.社交网络一般用中心性指标来对节点的重要性进行量化,常用的中心性指标有节点中心度、接近中心度、介数中心度、三角计数等等.已有的中心度算法通常只考虑单一的度量标准,本文提出加权中心度的思想,结合不同的中心度指标来进行综合考虑.该实验使用社交网络的真实BoardEX数据库,由合作单位香港大学提供,基础数据约600 G,需借助Apache Spark处理大数据的能力来进行集群并行计算.社交网络数据分成美国、英国、欧洲和其他国家4个地区,计算各地区上市公司的首席技术官和首席信息官的个人中心度,从而得到每个地区的平均加权中心度.实验结果表明,通过调整权值,可以使不同区域的加权中心度的差异尽可能小,且由权值大小可知不同中心度度量标准对加权中心度的影响不同.基于真实数据库和处理大数据的集群计算,本文的研究成果更具有现实意义和应用前景.

      参考文献 | 相关文章 | 计量指标
      先序约束下的群组角色指派及其优化 收藏
      刘冬宁, 卢明俊, 黄宝莹, 梁路
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170013
      摘要    HTML ( )   PDF(2036KB)

      在协同工作中如团队分工明确具体,协作将轻松易行,然而复杂的数据耦合、时空冲突等约束关系往往制约了任务的分工和指派.先序约束是最重要而又难于处理的约束之一,其体现了任务分发的先决条件关联.为此本文于指派模型中引入角色,使用角色对任务分工进行抽象与建模,并对先序约束下的指派作表达与计算.相关问题的穷举处理时间复杂度为Σ2P级,为优化加速,论文提出了能快速收敛的多对多线性指派规划算法,并用IMB ILOG CPLEX软件包进行了模拟仿真.经比较,相关方法的优化率可达80%~100%,均值为94%,能满足有限时间内对问题处理规模与团队性能保持的要求,为团队协作与生产管理提供了有效支撑.

      参考文献 | 相关文章 | 计量指标
      用信息流和知网构建大数据语义共享通道研究 收藏
      毛莉娜, 李卫华
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170026
      摘要    HTML ( )   PDF(1003KB)

      大数据除了数据量巨大之外,而且具有类型繁多、信息表示结构各异、语法语义冲突和动态变化等特点,故难以共享.为了共享大数据中的语义信息,必须有满足动态、异构和大规模等特点的共享机制.本文分析了信息流(Information Flow)理论,也称为通道理论(Channel Theory),以及知网(HowNet)技术,二者相结合可以作为大数据语义理解的基础.提出了用信息流理论和知网共同构建基于语义的大数据共享通道的观点,用信息源分类本体、社团本体和通道本体作为语义共享的核心机制,通过信息射构成大数据语义共享通道.并用职业信息共享为案例进行初步实践,结果体现了所构建通道的有效性.

      参考文献 | 相关文章 | 计量指标
      基于E-CARGO的在线社区多对多好友推荐机制研究 收藏
      张巍, 张思勤, 宋静静, 滕少华, 刘艳
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170040
      摘要    HTML ( )   PDF(980KB)

      好友推荐机制是繁荣在线社区的有效手段,然而单纯为增加用户数及绑定用户关系的过于频繁的推荐方式会引起用户厌烦.为提升用户体验,本文以大型教学与科研协作平台学者网为研究背景,引入基于角色的协同模型E-CARGO对推荐机制进行建模,将好友推荐转化为多对多指派问题,使用带回溯的Kuhn-Munkres算法(KMB)对好友推荐数与接纳数受限情况下最优推荐指派进行了研究与解决.仿真实验表明,该推荐机制友好、高效、精准,能完善在线社区推荐机制,对在线社会健康发展形成助力.

      参考文献 | 相关文章 | 计量指标
      一种融合隐式信任关系的推荐算法 收藏
      胡惠成, 陈平华
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170020
      摘要    HTML ( )   PDF(971KB)

      为解决传统协同过滤推荐算法存在的数据稀疏和冷启动问题,解决显式信任数据难以获取以及数据稀疏问题,提高推荐系统的准确率,提出一种融合用户间隐式信任关系的矩阵分解推荐算法,通过融合皮尔逊相关系数和信任因子,计算用户间的隐式信任关系,然后将隐式信任数据融入矩阵分解模型进行评分预测.实验结果表明新算法能有效提高推荐结果的准确率.

      参考文献 | 相关文章 | 计量指标
      一种改进的mpts-HDBSCAN算法 收藏
      王荣荣, 傅秀芬
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170011
      摘要    HTML ( )   PDF(1255KB)

      聚类分析是非监督模式分类的一个重要分支.DBSCAN算法是基于密度聚类的最常见算法,且具有可发现任意形状的簇并且对噪声点不敏感等优点而得到广泛研究与应用.本文首先研究了DBSCAN所存在的一些问题,以及当前基于DBSCAN算法改进算法所存在的不足.其次,对于mpts-HDBSCAN算法处理密度分布不均匀数据聚类效果不理想的情况,提出了一种新的分区算法.分区算法根据数据分布的直方图确定分组数据,根据分区阈值这个标准来确定是否对数据进行划分处理;然后运用mpts-HDBSCAN算法对划分后的子数据进行聚类,并对聚类的结果进行合并.实验结果表明,改进后的算法对于处理密度不均匀数据具有更好的效果.

      参考文献 | 相关文章 | 计量指标
      基于互联网文本挖掘的用户意图感知 收藏
      杨贤, 何汉武
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170016
      摘要    HTML ( )   PDF(1612KB)

      能否准确感知用户意图是创新设计的关键,传统用户意图研究方法费时费力且容易忽略重要因素.论文提出,用户意图表达的是用户对一个对象的期望集合,而基于该对象分布在互联网的海量数据隐藏着这个集合的所有因素.通过互联网文本挖掘技术获取该用户意图有关的因素,并把这些因素与用户意图等价起来.为了验证它们的等价关系,论文以可穿戴智能设备为研究对象,采用正反问卷法对因素集合的真实度进行测量.同时,论文从多个维度分析了文本挖掘获取因素的科学性,并与传统用户意图研究方法进行交叉对比,研究结果表明基于互联网文本挖掘技术的用户意图求解方案具有可行性且优点较多.论文所用方法适用于所有类似用户意图这种复杂对象的建模与求解.

      参考文献 | 相关文章 | 计量指标
      国内战略生态位管理(SNM)研究的知识图谱:基于CiteSpaceⅢ的计量分析 收藏
      刘贻新, 张光宇, 杨诗炜, 张玉磊
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170033
      摘要    HTML ( )   PDF(4829KB)

      当前国际学术界针对新兴技术如何跨越“死亡之谷”并实现可持续发展这一重大现实问题,掀起了对战略生态位管理(SNM)的研究热潮,且引起了国内学术界的关注.为了梳理当前国内SNM研究现状,以CNKI数据库93篇国内文献为数据,运用知识图谱方法和CiteSpaceⅢ工具,从研究学者合作网络、研究机构合作网络以及关键词共现图谱3个层面进行可视化分析,探讨国内SNM研究的时空分布、研究路径和热点前沿.研究结果显示:(1)目前在国内已形成了典型的几个SNM研究团队,但研究尚未普及,研究团队之间的合作程度较低;(2)国内SNM研究热点较多,并呈现出明显动态演化特征;(3)国内SNM研究分为两大路径:“生态位-技术生态位-企业技术能力”路径和“技术生态位-战略生态位管理-本土化应用”路径;(4)保护空间的构建、撤离及其效应评价是当前国内SNM的研究前沿.

      参考文献 | 相关文章 | 计量指标
      主数据管理技术在企业信息集成中的应用研究 收藏
      林穗, 李煜臻, 孙为军
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170015
      摘要    HTML ( )   PDF(2091KB)

      随着大数据的广泛应用,政府对企业信息的精准管理亟待加强.大数据背景下,针对企业海量数据多源异构的问题,基于主数据关键性、独一性以及长期有效性的特征,提出了构建主数据平台是实现企业信息集成的最佳方式.通过主数据“多数一源,一源多分”的原则,构建完整一致、集中统一的企业信息集成机制,建立符合企业信息规范的数据管理体系,实现企业基础信息的全面共享和统一数据的分发,从而使政府决策部门全面、动态、准确地了解和掌握企业登记注册和生产经营等方面的情况.

      参考文献 | 相关文章 | 计量指标
      我国智能手机产业组建专利池的演化博弈分析 收藏
      钟映竑, 李平
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.160183
      摘要    HTML ( )   PDF(959KB)

      专利对智能手机产业的发展至关重要,也是我国智能手机产业的短板,组建专利池是应对国外专利围堵的有效途径.本文运用演化博弈方法来分析组建专利池的影响因素,并探索组建专利池的策略.在对我国智能手机专利领域的战略环境进行全面分析的基础上,构建了一个我国智能手机产业专利池组建问题的演化博弈模型,针对组建手机专利池的影响因素进行了分析.所得结论为要成功组建专利池,各智能手机厂商须建立利益与成本共担机制,政府应适当补贴企业由于创新行为而蒙受的损失,减少组建专利池的政策成本,并提高期望收益.

      参考文献 | 相关文章 | 计量指标
      基于交通一卡通数据的交通状态分析及动态控制研究 收藏
      吴金成, 谢振东, 伍冠桦, 方秋水, 余红玲
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170010
      摘要    HTML ( )   PDF(4325KB)

      针对公交出行需求的快速增长及出行结构的现状,提出了公交出行动态收费控制模型及其应用方法.本文以公交线路一卡通刷卡数据为研究对象,通过利用统计、对比、建模等方法,对出行人群的出行时间、出行类型占比及其变化曲线进行分析,总结出城市居民公交出行的行为特征和规律,以此研究并提出公交动态收费控制方法来优化公交出行结构.结果表明,这种针对老年人的动态控制模型设计可以有效优化日常出行结构,降低公交拥挤密度,提升公共交通出行效率和治理水平.

      参考文献 | 相关文章 | 计量指标
      一种基于Storm的在线产品评论信息采集的方法 收藏
      骆魁永, 郝志峰, 蔡瑞初, 温雯, 袁琴
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170042
      摘要    HTML ( )   PDF(1462KB)

      针对如何尽早地获取电商网站中产品的评论信息,进而实时地把握产品舆情,提出了一种基于Storm的在线产品评论信息采集方法.该方法将流计算的概念应用于网络爬虫中,并通过SHHD算法对采集周期进行动态调整.实验结果表明:基于Storm平台进行信息采集具有吞吐量大、可扩展性强等优点;SHHD算法可以有效地降低采集系统对网络带宽和系统资源的消耗,实现了适应性的增量的在线产品评论信息采集过程;SHHD在产品的评论信息获取的滞后时间上较Poisson、SART等方法具有明显的优势.

      参考文献 | 相关文章 | 计量指标
      基于领域本体的网络财务报告文本信息抽取研究 收藏
      梁倬骞, 王东, 朱慧, 潘定
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170029
      摘要    HTML ( )   PDF(1853KB)

      企业财务报告中存在大量蕴含着许多重要财务信息的非结构化文本信息.这类信息难以被计算机识别、分析和处理,也难以通过数据库技术进行管理.本文结合本体相关理论和自然语言处理(Natural Language Processing,NLP)技术,从词语属性描述、词语关系组织和相关知识链接3个维度构建财务报告领域本体,利用NLP工具对中文财务报告中的文本信息进行处理,将非结构化文本信息转化为结构化信息并使用XBRL表示,在一定程度上实现了文本信息的数据库存储与计算机分析处理.

      参考文献 | 相关文章 | 计量指标
      基于RFID的工业园区生产物流联动智能管理系统 收藏
      吴强, 刘轩, 屈挺, 张婷
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.160125
      摘要    HTML ( )   PDF(7809KB)

      为解决工业园区中生产物流信息不同步、执行效率低、运作成本高等问题,将AUTOM标准物联网架构扩展为多决策、多阶段无缝信息传递的新架构,提出三层两级生产物流联动机制.在分析工业园区的生产物流运作流程的基础上,结合先进的物联网技术,开发了工业园区环境下的生产物流联动智能管理系统,该系统的智能设备联动、感知联动、信息耦合联动、决策联动等关键技术实现了生产物流信息实时化、协同化、智能化管理,提高了生产物流执行效率.

      参考文献 | 相关文章 | 计量指标
      基于数据挖掘的短期电力负荷风险预测分析 收藏
      陈丽, 曹熙, 林俊杰, 高鸿铭, 刘飞雅, 李艳艳
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170044
      摘要    HTML ( )   PDF(1661KB)

      电力负荷风险越来越成为电力生产行业关注的热点,传统的电力负荷风险预测仅仅从单因素测评台区的风险度,缺乏全面和系统性.因此,传统的预测方法,不能准确地预测风险因素造成的电力故障隐患.为解决此问题,从供电局客服数据、机器监测台区记录、天气等多数据源着手,对电力负荷风险进行分析和预测.首先,对数据进行清洗和分类.然后,利用K-Mean聚类筛选出与电力负荷相关性强的因素作为模型的变量.并在此基础上,构建基于贝叶斯判别的台区电力风险预测模型.通过数据实验,该模型能够以99.53%的准确度来预估台区的负荷风险,从而进行有效的电力故障预测判断,为电力企业传送电的风险防范和控制决策提供支持,降低客户的用电故障,提高客户满意度.

      参考文献 | 相关文章 | 计量指标
      企业大数据能力的构建与培育研究 收藏
      谢振东, 吴金成, 李之明, 伍冠桦
      广东工业大学学报. 2017, (03)   DOI: 10.12052/gdutxb.170009
      摘要    HTML ( )   PDF(733KB)

      在大数据时代,大数据技术的应用与发展已成为了全社会的共识,并逐步渗透到了各行各业.企业是大数据重要来源之一,也是大数据应用的关键载体,通过依托大数据推动企业创新、实现转型升级是未来产业发展的重要趋势.目前大部分企业对大数据应用是心有余而力不足,空有一腔热情却缺乏一套有效的建设思路.本文针对企业面对的困惑,提出了关于企业大数据能力构建的一些思路,从企业大数据背景、大数据能力定义、模型构建及对策措施方面进行深入探讨,为企业在大数据发展和能力构建过程提供一些参考的思路.

      参考文献 | 相关文章 | 计量指标