2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

从知识图谱到数据中台: 华谱系统

吴信东 盛绍静 蒋婷婷 卜晨阳 吴明辉

吴信东, 盛绍静, 蒋婷婷, 卜晨阳, 吴明辉. 从知识图谱到数据中台: 华谱系统. 自动化学报, 2020, 46(10): 2045−2059 doi: 10.16383/j.aas.c200502
引用本文: 吴信东, 盛绍静, 蒋婷婷, 卜晨阳, 吴明辉. 从知识图谱到数据中台: 华谱系统. 自动化学报, 2020, 46(10): 2045−2059 doi: 10.16383/j.aas.c200502
Wu Xin-Dong, Sheng Shao-Jing, Jiang Ting-Ting, Bu Chen-Yang, Wu Ming-Hui. Huapu-CP: from knowledge graphs to a data central-platform. Acta Automatica Sinica, 2020, 46(10): 2045−2059 doi: 10.16383/j.aas.c200502
Citation: Wu Xin-Dong, Sheng Shao-Jing, Jiang Ting-Ting, Bu Chen-Yang, Wu Ming-Hui. Huapu-CP: from knowledge graphs to a data central-platform. Acta Automatica Sinica, 2020, 46(10): 2045−2059 doi: 10.16383/j.aas.c200502

从知识图谱到数据中台: 华谱系统

doi: 10.16383/j.aas.c200502
基金项目: 国家重点研发计划(2016YFB1000901), 国家自然科学基金重点项目(91746209), 教育部创新团队项目(IRT17R3)资助
详细信息
    作者简介:

    吴信东:合肥工业大学特聘教授, IEEE Fellow, AAAS Fellow. 明略科技集团首席科学家、高级副总裁和明略科学院院长, 营销职能国家新一代人工智能开放创新平台负责人. 主要研究方向为数据挖掘, 大数据分析. 知识工程. 本文通信作者. E-mail: xwu@hfut.edu.cn

    盛绍静:合肥工业大学计算机与信息学院博士研究生. 主要研究方向为数据挖掘, 知识图谱. E-mail: jssheng@mail.hfut.edu.cn

    蒋婷婷:合肥工业大学博士生. 主要研究方向为知识图谱, 知识表示学习, 实体对齐. E-mail: jiangtt@mail.hfut.edu.cn

    卜晨阳:合肥工业大学讲师. 2017年获得中国科学技术大学博士学位. 主要研究方向为演化计算及其在知识图谱、教育数据挖掘、电力系统等领域中的应用. E-mail: chenyangbu@hfut.edu.cn

    吴明辉:明略科技集团创始人兼首席执行官. 北京大学数学系学士学位、计算机软件与理论硕士学位, 中国公安大学特聘教授. 主要研究方向为人工智能和大数据分析. E-mail: wuminghui@minginglamp.com

Huapu-CP: From Knowledge Graphs to a Data Central-Platform

Funds: Supported by National Key Research and Development Program of China (2016YFB1000901), The National Natural Science Foundation of China (91746209), The Program for Changjiang Scholars and Innovative Research Team in University (PCSIRT) of the Ministry of Education (IRT17R3)
  • 摘要: 针对碎片化的各姓氏家谱数据, 华谱系统通过构建家谱知识图谱的数据中台, 能够解决数据孤岛、烟囱式开发等问题. “数据中台”是一个源自国内的新近技术概念, 在华谱系统建设中, 我们通过家谱知识图谱的构建和应用, 对这个概念进行了正式定义. 基于这个定义和对应的7项核心功能, 本文提出一种用于家谱数据分析的数据中台建设架构Huapu-CP (华谱系统), 并通过该架构详细介绍面向家谱领域的数据中台核心技术, 分析数据中台构建的关键问题.
  • 图  1  Huapu-CP框架图

    Fig.  1  Overall framework of Huapu-CP

    图  2  物理管理框架图

    Fig.  2  Physical management framework

    图  3  数据采集架构图

    Fig.  3  Data gathering framework

    图  4  逻辑管理框架图

    Fig.  4  Logical management framework

    图  5  “家谱”基本单元

    Fig.  5  Basic unit of a genealogy

    图  6  “人物”基本单元

    Fig.  6  Part of personal knowledge unit

    图  7  数据治理架构图[14]

    Fig.  7  Overall framework of data governance[14]

    图  8  家谱数据治理流程图

    Fig.  8  Basic processes of data governance

    图  9  数据价值管理和数据共享管理

    Fig.  9  Data value management and data sharing management

    图  10  “粗细粒度结合”的权限管理方法

    Fig.  10  Multi-granularity based authority management method

    图  11  基于HAO模型的用户权限管理架构

    Fig.  11  HAO-Model based user authority management architecture

    图  12  数据接口示意图

    Fig.  12  Date interface diagram

    表  1  角色表

    Table  1  Role table

    角色类型角色诞生及身份转变方式
    普通用户注册华谱系统的普通用户, 可进行创建家谱、查看公开数据等.
    普通家谱成员普通用户向某一共建家谱申请成为家谱成员, 只拥有针对该家谱的最基本权限, 例如查看该家谱中的基本信息.
    家谱共建者家谱成员向家谱创建者或核心修谱成员申请成为家谱共建者, 拥有上传数据、对本人上传的数据以及其他用户分享的数据拥有基本修改权限. 若涉及家谱主树结构变化, 需经过审核.
    数据合作拥有者包含部分、全部合作拥有者, 家谱成员向数据拥有者申请数据增加、修改等权限, 成为数据合作拥有者.
    数据拥有者家谱成员保存个人家谱数据, 成为数据拥有者, 拥有数据的全部权限, 且在共建家谱中其权限可转让或共享.
    核心修谱成员家谱成员向家谱创建者申请成为核心修谱成员. 拥有对该家谱数据的大部分权限, 包括查看、编辑、审核本家谱所有家谱人物. 不具备指定核心修谱成员、修改家谱名称等少数信息的权限.
    家谱创建者拥有该家谱的所有权限, 可指定每位家谱成员的权限级别.
    下载: 导出CSV

    表  2  数据权限表

    Table  2  Data authority table

    数据类型公开级相关描述
    完全公开10如公开家谱、百度百科人物;
    所有人可进行查看、编辑
    完全公开9如公开家谱、百度百科人物;
    所有人可进行查看.
    8针 对 共
    建 家 谱
    而 言
    部分用户可查看
    7部分用户可修改人物信息
    6部分用户可修改人物关系
    5部分用户可删除人物
    4仅数据录入者可修改
    3私有家谱
    2普通管理员可修改查看
    1超级管理员可修改、查看
    下载: 导出CSV
  • [1] 陈宁宁. 家谱研究历史现状. 图书馆杂志, 1998, 17(2): 12−1318

    Chen Ning-Ning. History and current status of genealogical research. Library Journal, 1998, 17(2): 12−1318
    [2] Carolina N, Nils G, Hilary C, and Alexander L. Lineage: Visualizing Multivariate Clinical Data in Genealogy Graphs. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(1): 544−554
    [3] Hayden E C. Colossal family tree reveals environment's influence on lifespan. Nature, 2018.
    [4] 湛庐. 家谱中的文献问题. 北京大学学报(哲学社会科学版), 2007, (1): 150−151

    Zhan Lu. Literature questions in genealogy. Journal of Peking University (Philosophy and Social Sciences), 2007, (1): 150−151
    [5] 欧阳康. 大数据与人文社会科学研究的变革与创新. 光明日报, 2016-11-10(016).

    Ou Yang-Kang. The reform and innovation of big data and humanities and social science research. Guangming Daily, 2016-11-10(016).
    [6] 孙建军. 大数据时代人文社会科学如何发展. 光明日报, 2014-07-07(011).

    Sun Jian-Jun. How to develop humanities and social sciences in the age of big data. Guangming Daily, 2014-07-07(011).
    [7] Wu X D, Chen H H, Wu G Q, et al. Knowledge engineering with big data. IEEE Intelligent Systems, 2015, 30(5): 46−55
    [8] Wu X D, Zhu X Q, Wu G Q, Ding W. Data mining with big data. IEEE Transactions on Knowledge and Data Engineering. 2014, 36(1): 97−107.
    [9] 吴信东, 何进, 陆汝钤, 郑南宁. 从大数据到大知识: HACE+BigKE. 自动化学报, 2016, 42(7): 965−982

    Wu Xin-Dong, He Jin, Lu Ru-Qian, Zheng Nan-Ning. From big data to big knowledge: HACE + BigKE. Acta Automatica Sinica, 2016, 42(7): 965−982
    [10] Wu M H, Wu X D. On big wisdom. Knowledge and Information Systems, 2018, 58(1): 1−8
    [11] 钟华. 企业IT架构转型之道: 阿里巴巴中台战略思想与架构实战. 北京: 机械工业出版社, 2017.

    Zhong Hua. The Transformation of IT Framework in Enterprises: the Strategic Thinking and Framework of Alibaba. Beijing: China Machine Press, 2017.
    [12] 付登坡, 江敏, 任寅姿等. 数据中台: 让数据用起来. 北京: 机械工业出版社, 2020.

    Fu Deng-Po, Jiang Min, Ren Yin-Zi, etc. Data Middle Office: Make Data Valuable. Beijing: China Machine Press, 2020.
    [13] 陈新宇, 罗家鹰, 邓通, 江威. 中台战略: 中台建设与数字商业. 北京: 机械工业出版社, 2019.

    Chen Xin-Yu, Luo Jia-Ying, Deng Tong, Jiang Wei. Middle-Platform Strategy: Middle-Platform Construction and Digital Commerce. Beijing: China Machine Press, 2019.
    [14] 吴信东, 董丙冰, 堵新政, 杨威. 数据治理技术. 软件学报, 2019, 30(9): 2830−2856

    Wu Xin-Dong, Dong Bing-Bing, Du Xin-Zheng, Yang Wei. Data governance technology. Ruan Jian Xue Bao/Journal of Software, 2019, 30(9): 2830−2856
    [15] 吴信东, 嵇圣硙. MapReduce与Spark用于大数据分析之比较. 软件学报, 2018, 29(6): 260−281

    Wu Xin-Dong, Ji Sheng-Wei. Comparative study on MapReduce and Spark for big data analytics. Ruan Jian Xue Bao/Journal of Software, 2018, 29(6): 260−281
    [16] Ji S W, Bu C Y, Li L, W XD. Local graph edge partitioning with a two-Stage heuristic method. In: Proceedings of the 39th IEEE International Conference on Distributed Computing Systems. Dallas, Texas, USA. IEEE, 2019.
    [17] 吴共庆, 胡骏, 李莉, 徐喆昊, 刘鹏程, 胡学钢, 吴信东. 基于标签路径特征融合的在线Web新闻内容抽取. 软件学报, 2016, 27(3): 714−735

    Wu Gong-Qing, Hu Jun, Li Li, Xu Zhe-Hao, Liu Peng-Cheng, Hu Xue-Gang, Wu Xin-Dong. Online web news extraction via tag path feature fusion. Ruan Jian Xue Bao/Journal of Software, 2016, 27(3): 714−735
    [18] 吴信东, 李娇, 周鹏, 卜晨阳. 碎片化家谱数据的融合技术. 软件学报. http://www.jos.org.cn/1000-9825/6010.htm.

    Wu Xin-Dong, Li Jiao, Zhou Peng, Bu Chen-Yang. A fusion technique for fragmented genealogy data. Ruan Jian Xue Bao/Journal of Software, 2020 http://www.jos.org.cn/1000-9825/6010.htm.
    [19] Liu X J, Zhu Y, Ji S W. Web log analysis in genealogy system. In: Proceedings of the 11th IEEE International Conference on Knowledge Graph. Nanjing, China. IEEE, 2020.
  • 加载中
图(12) / 表(2)
计量
  • 文章访问数:  3992
  • HTML全文浏览量:  603
  • PDF下载量:  625
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-07-06
  • 录用日期:  2020-09-14
  • 刊出日期:  2020-10-29

目录

    /

    返回文章
    返回