AP-IS: 面向多模态数据的智能高效索引选择模型

乔少杰 刘晨旭 韩楠 徐康镭 蒋宇河 元昌安 吴涛 袁冠

Qiao Shao-Jie, Liu Chen-Xu, Han Nan, Xu Kang-Lei, Jiang Yu-He, Yuan Chang-An, Wu Tao, Yuan Guan. AP-IS: An intelligent and efficient index selection model for multimodal data. Acta Automatica Sinica, xxxx, xx(x): x−xx doi: 10.16383/j.aas.c240196
AP-IS: 面向多模态数据的智能高效索引选择模型

doi: 10.16383/j.aas.c240196
基金项目: 国家自然科学基金(62272066), 四川省科技计划(2023YFG0027, 2024YFFK0413), 教育部人文社会科学研究规划基金(22YJAZH088), 成都市技术创新研发项目重点项目)(2024-YF08-00029-GX), 成都市区域科技创新合作项目(2023-YF11-00020-HZ), 成都市技术创新研发项目(2024-YF05-01217-SN), CCF-蚂蚁科研基金项目(CCF-AFSG RF20240106)资助

    乔少杰:成都信息工程大学软件工程学院教授, 主要研究方向为人工智能数据库, 时空数据库. E-mail: sjqiao@cuit.edu.cn

    刘晨旭:成都信息工程大学软件工程学院硕士研究生, 主要研究方向为人工智能数据库. E-mail: liuchenxv@foxmail.com

    韩楠:成都信息工程大学管理学院副教授, 主要研究领域为数据库, 数据挖掘. 本文通信作者. E-mail: hannan@cuit.edu.cn

    徐康镭:成都信息工程大学软件工程学院硕士研究生, 主要研究方向为人工智能数据库. E-mail: xukanglei@126.com

    蒋宇河:成都信息工程大学软件工程学院硕士研究生, 主要研究方向为人工智能数据库. E-mail: 13258665280@163.com

    元昌安:南宁师范大学广西人机交互与智能决策重点实验室教授, 博士生导师, 主要研究方向为数据库. E-mail: yuanchangan@126.com

    吴涛:重庆邮电大学网络空间安全与信息法学院副教授, 主要研究方向为数据库, 隐私保护. E-mail: wutao@cqupt.edu.cn

    袁冠:中国矿业大学计算机科学与技术学院教授, 主要研究方向为数据库. E-mail: yuanguan@cumt.edu.cn

  • 中图分类号: Y

AP-IS: An Intelligent and Efficient Index Selection Model for Multimodal Data

Funds: Supported by National Natural Science Foundation of China (62272066), Sichuan Science and Technology Program (2023YFG0027, 2024YFFK0413), Planning Foundation for Humanities and Social Sciences of Ministry of Education of China (22YJAZH088), Chengdu Technological Innovation Research and Development Major Project (2024-YF08-00029-GX), Chengdu Regional Science and Technology Innovation Cooperation Project (2023-YF11-00020-HZ), Chengdu Technological Innovation Research and Development Project (2024-YF05-01217-SN), and CCF-Ant Research Fund (CCF-AFSG RF20240106)
    Qiao Shao-Jie Professor at the School of Software Engineering, Chengdu University of Information Technology. His main research interest covers artificial intelligence databases and spatio-temporal databases

    LIU Chen-Xu Master's student at the School of Software Engineering, Chengdu University of Information Technology. His research interest covers artificial intelligence databases

    Han Nan Associate professor at the School of Management, Chengdu University of Information Technology. Her research interest covers database and data mining. Corresponding author of this paper

    Xu Kang-Lei Master's student at the School of Software Engineering, Chengdu University of Information Technology. His research interest covers artificial intelligence databases

    Jiang Yu-He Master's student at the School of Software Engineering, Chengdu University of Information Technology. His research interest covers artificial intelligence databases

    Yuan Chang-An Professor at the Guangxi Key Lab of Human-machine Interaction and Intelligent Decision, Nanning Normal University. His research interest covers database

    Wu Tao Associate professor at the School of Cyber Security and Information Law, Chongqing University of Posts and Telecommunications. His research interest covers database and privacy preservation

    Yuan Guan Professor at the School of Computer Science and Technology, China University of Mining and Technology. His research interest covers database

  • 摘要: 面对复杂的多模态数据场景, 现有的索引选择方法存在诸多局限性. 首先, 大多数方法考虑场景较为单一, 不能针对特定数据模态选择合适的索引结构, 进而无法有效应对海量多模态数据; 其次, 现有方法未考虑索引选择时索引构建的代价, 无法有效应对动态的工作负载; 再者, 大量的冗余索引配置会消耗磁盘空间, 降低数据的更新效率. 针对上述问题, 提出一种基于 APE-X DQN (Distributed prioritized experience replay in deep Q-network) 模型, 称为面向多模态数据的智能高效索引选择模型 AP-IS ( AP E-X DQN for i ndex s election). AP-IS 设计了新型索引集编码和 SQL 语句编码方法, 使 AP-IS 在感知多模态数据同时兼顾索引结构本身的特性, 极大地降低索引的存储代价. AP-IS 集成新型索引效益评估方法, 在优化强化学习奖励机制的同时, 监控数据库工作负载的执行状态, 保证动态工作负载下 AP-IS 在时间和空间上的优化效果. 在真实多模态数据集上进行大量实验, 验证 AP-IS 模型在工作负载的执行时延、存储代价和训练效率等方面性能, 结果均明显优于最新索引选择方法.
  • 图  1  时序数据模态下BRIN索引和B-tree索引的性能对比

    Fig.  1  Performance Comparison of BRIN Index and B-tree Index in Temporal Data Modal

    图  2  AP-IS整体架构

    Fig.  2  Overall architecture of AP-IS

    图  3  AP-IS模型的工作机制

    Fig.  3  Working mechanism of the AP-IS model

    图  4  SQL语句编码示意

    Fig.  4  Encoding diagram of SQL statements

    图  5  索引集编码示意图

    Fig.  5  Encoding diagram of index set

    图  6  Tree-LSTM内部结构

    Fig.  6  Internal structure of Tree LSTM

    图  7  APE-X DQN结构图

    Fig.  7  Structure of APE-X DQN

    图  8  AP-IS的平均相对代价评估

    Fig.  8  Average relative cost evaluation of AP-IS

    图  9  AP-IS在只读工作负载下的执行时延

    Fig.  9  Latency of AP-IS under read-only workload

    图  10  AP-IS在动态工作负载下的执行时延

    Fig.  10  Latency of AP-IS under dynamic workloads

    图  11  动态工作负载下不同强化学习算法执行时延

    Fig.  11  Latency of different reinforcement learning algorithms under dynamic workloads

    图  12  AP-IS的多线程机制评估

    Fig.  12  Multi-threading mechanism evaluation of AP-IS

    图  13  AP-IS的混合训练机制评估

    Fig.  13  Hybrid training mechanism evaluation of AP-IS

    图  14  AP-IS在动态工作负载下的编码方法评估

    Fig.  14  Encoding methods evaluation of AP-IS under dynamic workloads

    图  15  AP-IS在不同存储空间下评估

    Fig.  15  Evaluation of AP-IS under different storage spaces

    表  1  索引选择方法对比分析

    Table  1  Comparison analysis of index selection methods

    方法策略 方法名称 优点 不足
    传统的索引选择方法Drop[19]通过启发式方法, 针对工作负载创建索引, 减轻DBA的工作负担.没有充分利用DBA经验, 无法适应动态的工作负载, 无法创建复合索引.
    AutoAdmin[20]每轮迭代通过增加索引宽度支持多列索引选择.无法处理动态变化的工作负载, 加重DBA的负担.
    DB2Advis[21]采用随机替换法适应动态的工作负载.随机的索引替换造成大量磁盘开销, 索引方案的不断变化影响系统的稳定性.
    基于学习的索引选择方法NoDBA[22]首次采用深度强化学习进行数据库索引自动选择, 降低工作负载的执行时延.无法适应动态的工作负载, 也无法创建复合索引.
    ITLCS[23]将遗传算法和强化学习相结合, 能够适应动态的工作负载和表结构较复杂的场景.依赖遗传算法索引选择策略, 未将基于学习的方法应用到问题的求解过程中.
    AutoIndex[10]利用蒙特卡罗树搜索根据候选索引优化现有索引, 支持复合索引和动态的工作负载.无法适应多模态数据场景, 不支持多种索引类型的选择.
    表  2  不同索引类型在多模态数据场景的适用性和局限性

    Table  2  Applicability and limitations of different index types in multimodal data scenarios

    索引类型 适用数据模态及场景 不适用数据模态及场景
    B-tree 整型、浮点型的等值、范围查询、排序等 文本类型的全文搜索, JSON等半结构化数据
    Hash 等值查询 数据分布不均匀或更新频繁的场景
    GiST 空间数据、文本数据的全文搜索、模糊查询 精确匹配、排序、去重等场景
    SP-GiST 空间数据、文本数据的全文搜索 去重、排序, 不支持复合索引
    GIN JSON等半结构化数据、数据更新频繁的场景 大型二进制对象数据, 精确匹配等场景
    BRIN 时序数据, 顺序访问模式 随机访问、精确匹配等场景
    表  3  Real-D数据集描述

    Table  3  Description of Real-D dataset

    数据类型 数据来源 数据规模(GB)
    时序数据 滴滴轨迹日志数据 22.1
    json数据 http请求数据 5.4
    字符串数据 图片特征数据 6.8
    数值数据 Kaggle 0.7
    表  4  TPC-H、TPC-DS数据集描述

    Table  4  Description of TPC-H and TPC-DS datasets

    数据集名称 数据类型 数据规模(GB)
    TPC-H 数值、字符串等 1
    TPC-DS 数值、字符串等 10
    表  5  实验超参数设置

    Table  5  Experimental setup of hyperparameters

    参数名 参数值 参数说明
    $ N $ 10000 训练中episode数量
    $ K $ 64 单次采样经验条数
    $ lr $ 0.01 学习率
    $ \gamma $ 0.95 折扣因子
    $ S_D $ 30000 经验回放缓冲区大小
    表  6  AP-IS不同状态表示方法执行时延对比

    Table  6  Latency comparison of different state representation methods of AP-IS

    方法 频繁读 频繁写 只读
    RNN 0.550 0.604 0.548 0.616 0.695 0.599 0.569 0.618 0.657
    BiRNN 0.549 0.591 0.522 0.546 0.633 0.534 0.576 0.570 0.599
    LSTM 0.506 0.563 0.496 0.523 0.629 0.513 0.513 0.537 0.539
    BiLSTM 0.452 0.549 0.430 0.472 0.603 0.530 0.468 0.459 0.456
    GRU 0.459 0.552 0.427 0.486 0.593 0.429 0.436 0.447 0.428
    Tree-LSTM 0.433 0.519 0.364 0.460 0.589 0.396 0.423 0.447 0.398
    表  7  AP-IS在Real-D数据集上不同索引类型的选择数量

    Table  7  Selection number of different index types on the Real-D dataset of AP-IS

    索引类型 选择数量(10GB) 选择数量(20GB)
    B-tree 13 19
    Hash 7 9
    GiST 5 4
    SP-GiST 3 7
    GIN 1 4
    BRIN 8 10
