李慧 马小平 张舒 施珺 李存华 仲兆满

引用本文: 李慧, 马小平, 张舒, 施珺, 李存华, 仲兆满. 基于时间加权的重叠社区检测算法研究.自动化学报, 2021, 47(4): 933-942 doi: 10.16383/j.aas.c180559
Citation: Li Hui, Ma Xiao-Ping, Zhang Shu, Shi Jun, Li Cun-Hua, Zhong Zhao-Man. Research of overlap community detection algorithm based on time-weighted. Acta Automatica Sinica, 2021, 47(4): 933-942 doi: 10.16383/j.aas.c180559


doi: 10.16383/j.aas.c180559

    李慧  博士, 江苏海洋大学计算机工程学院副教授. 主要研究方向为个性化推荐, 社会网络分析. E-mail: shufanzs@126.com

    张舒  江苏海洋大学商学院讲师. 主要研究方向为智能信息处理. E-mail: lih@cumt.edu.cn

    施珺  江苏海洋大学计算机工程学院教授. 主要研究方向为智能信息处理. E-mail: sj_lfg@hotmail.com

    李存华  博士, 江苏海洋大学计算机工程学院教授. 主要研究方向为数据挖掘. E-mail: cli2000@126.com

    仲兆满  博士, 江苏海洋大学计算机工程学院副教授. 主要研究方向为中文信息处理. E-mail: zhongzhaoman@163.com


    马小平  博士, 中国矿业大学信电学院教授. 主要研究方向为智能计算. 本文通信作者. E-mail: xpma@cumt.edu.cn

Research of Overlap Community Detection Algorithm Based on Time-Weighted


    LI Hui  Ph. D., associate professor at the School of Computer Engineering, Jiangsu Ocean University. Her research interest covers personality recommendation and social network analysis

    ZHANG Shu  Lecturer at the School of Business, Jiangsu Ocean University. Her main research interest is information processing

    SHI Jun  Professor in the Department of Computer Science, Jiangsu Ocean University. Her main research interest is information processing

    LI Cun-Hua  Ph. D., professor in the Department of Computer Science, Jiangsu Ocean University. His main research interest is data mining

    ZHONG Zhao-Man  Ph. D., associate professor in the Department of Computer Science, Jiangsu Ocean University. His main research interest is Chinese information processing

    Corresponding author: MA Xiao-Ping  Ph. D., professor at the School of Information and Electrical Engineering, China University of Mining & Technology. His main research interest is intelligent computing. Corresponding author of this paper
  • 摘要: 随着网络结构的不断扩大和日益复杂, 重叠社区发现技术对挖掘复杂网络深层潜在结构具有重要意义. 本文提出一种基于时间加权的重叠社区检测算法. 该方法考虑了用户兴趣的时间因素, 构建带有时间加权链接的用户-用户图. 接着, 基于网络节点的影响力计算用户全局相似度, 在此基础上通过计算节点的中心度作为度量节点对社区结构影响力的重要性指标, 从而提出一种社区中心点的选取方法. 最后, 通过效用函数的迭代计算实现重叠社区检测. 利用人工网络和真实网络对提出的算法进行验证, 实验结果表明: 相对于传统的社区发现方法, 该算法在社区发现质量和计算效率方面都优于许多已有重叠社区发现算法.
  • 图  1  Polblogs数据集中参数αQ值的影响结果

    Fig.  1  The influence of different α on the Q in Polblogs data set

    图  2  DBLP数据集中参数αQ值的影响结果

    Fig.  2  The influence of different α on the Q in DBLP data set

    图  3  重叠社区的模块度随社区数量的变化情况

    Fig.  3  The influence of different community number on the K

    图  4  社区数量随阈值β的变化情况

    Fig.  4  The influence of different β on different community number K

    图  5  真实数据集上各算法性能对比实验

    Fig.  5  Comparison results of different algorithms on real networks

    图  6  不同算法运行时间比较

    Fig.  6  Execution time comparison of different algorithms

    表  1  LFR基准网络生成参数说明

    Table  1  Parameter setting of LFR benchmark network generation

    参数 说明
    N 网络的节点数目
    k 网络中节点的平均度数
    Cmin 最小社区的节点数目
    Cmax 最大社区的节点数目
    on 重叠节点的个数
    om 重叠节点所从属的社区个数
    mu 社区混合参数
    表  2  人工网络数据集

    Table  2  Artificial network datasets

    编号 N k Cmin Cmax mu on om
    S1 10 000 20 50 100 0.1~0.7 1 000 3
    S2 100 000 20 100 200 0.1~0.7 5 000 2
    S3 10 000 20 100 200 0.1 1 000 2~7
    表  3  真实数据集

    Table  3  Real datasets

    编号 名称 节点数 边数 平均度
    R1 Karate 34 78 4.75
    R2 Doplphins 62 159 5.13
    R3 Polbooks 105 441 8.40
    R4 Football 115 613 10.66
    R5 Folbogs 1 490 16 715 22.44
    R6 DBLP 4 000 8 301 2.52
    表  4  mu在不同取值时各算法在人工网络S1上的NMI实验结果

    Table  4  NMI experimental results of different algorithms on S1 under different mu value

    mu 0.1 0.2 0.3 0.4 0.5 0.6 0.7
    TWOCD 0.53 0.45 0.34 0.24 0.23 0.22 0.22
    COPRA 0.85 0.79 0.71 0.62 0.42 0.22 0.22
    CPM 0.82 0.8 0.62 0.48 0.21 0.22 0.22
    LFM 0.52 0.42 0.35 0.22 0.22 0.22 0.22
    表  5  om在不同取值时各算法在人工网络S2上的NMI实验结果

    Table  5  NMI experimental results of different algorithms on S2 under different om value

    om 2 3 4 5 6 7 8
    TWOCD 0.92 0.95 0.88 0.84 0.78 0.72 0.75
    COPRA 0.93 0.9 0.83 0.78 0.71 0.65 0.6
    CPM 0.92 0.87 0.81 0.78 0.69 0.62 0.62
    LFM 0.76 0.68 0.66 0.67 0.65 0.66 0.5
    表  6  on在不同取值时各算法在人工网络S3上的NMI实验结果

    Table  6  NMI experimental results of different algorithms on S3 under different on value

    on 1 000 2 000 3 000 4 000 5 000 6 000 7 000
    TWOCD 0.95 0.95 0.89 0.76 0.67 0.56 0.38
    COPRA 0.89 0.83 0.78 0.58 0.32 0.21 0.21
    CPM 0.82 0.84 0.79 0.7 0.6 0.47 0.28
    LFM 0.43 0.33 0.23 0.23 0.24 0.24 0.24
    表  7  真实数据集上各算法在不同参数取值下性能对比结果

    Table  7  Comparison results of different algorithms on different parameter in real networks

    α Q v Q k Q α, β Q
    Karate 0.8 0.813 2 0.825 2 0.823 0.4, 0.8 0.8463
    Football 1.1 0.645 2 0.656 4 0.707 0.4, 0.8 0.7246
    Doplphins 0.8 0.812 6 0.821 5 0.924 0.3, 0.7 0.9005
    Polbooks 0.9 0.634 8 0.717 8 0.795 0.4, 0.9 0.7342
    Folbogs 1.4 0.122 2 0.466 6 0.625 0.4, 0.8 0.6257
    DBLP 0.8 0.787 9 0.745 3 0.797 0.4, 0.8 0.8143
