您的位置: app科技网 > 国内 > 正文

【KDD2024】大数据基础工程技术集群异常检测论文入选

2024-08-26来源:网络阅读: 1669

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收,该论文从集群整体作业执行情况分布入手,旨在解决集群整体作业运行变慢的异常检测问题。论文创造性地提出了撇脂注意力机制和picky loss function解决集群整体作业分布复合周期性及训练集污染的问题,并使用基于神经网络最优运输模块,实现精准定向检测集群整体作业运行时间分布变慢的异常。论文从新的视角分析云计算平台集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,被CCF(中国计算机学会)列为A类会议,KDD也是首个引入大数据、数据科学、预测分析、众包等概念的会议。KDD2024将于8.25-8.29, 在西班牙巴塞罗那举行。此次入选意味着阿里云提出的集群级别作业变慢异常检测框架获得了国际学者的认可,也是一次产学研结合的成功实践。

针对大规模云计算平台集群作业运行变慢的异常检测问题,存在以下挑战:

(1)从个体作业入手监测集群是否存在显著变慢问题,会受到虚拟环境不确定性对个体执行速度的干扰,对个体进行检测、形成定性结论再集合到整体的方式无法准确反映整体作业执行状况。

(2)对每个作业进行监测,与对整体分布进行监测相比,需要花费更多计算存储资源。

(3)训练数据中并不能总是保证所有数据都是正常的,往往也会夹杂无标签的异常数据,这与无监督异常检测的假设相悖。

论文首次从集群整体作业执行情况分布入手,检测集群整体作业分布变慢的问题。创造性地提出了撇脂注意力机制和picky loss function解决集群整体作业分布复合周期性及训练集污染的问题。并使用基于神经网络最优运输模块,定向检测集群整体作业分布变慢的问题。论文从新的视角分析集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

目前对应算法已经在阿里云云原生大数据计算服务MaxCompute集群异常监控场景中进行灰度。可以有效地帮助运维人员对集群运行健康状况进行评估,提前发现可能的风险隐患。

论文信息

● 论文名字:Cluster-Wide Task Slowdown Detection in Cloud System

● 论文作者:Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

● 论文pdf链接:https://arxiv.org/abs/2408.04236

● 部分参考文献:

【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.

【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.

【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.

【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.

【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.


滚动推荐
2024-03-22西安互生机械电子有限公司——全球领先的电梯配件供应商
西安互生机械电子有限公司——全球领先的电梯配件供应商...[详细]
2024-08-29圣魔仕新品手机膜上线,高透防窥手机膜助力建设隐私防线
圣魔仕新品手机膜上线,高透防窥手机膜助力建设隐私防线...[详细]
2024-03-15SUV中的“始祖鸟”,福特探险者赤金版以豪华气场探阅成都
SUV中的“始祖鸟”,福特探险者赤金版以豪华气场探阅成都...[详细]
2024-08-28九牛问津:留学贴士,文化适应指南,迅速融入异国校园
九牛问津:留学贴士,文化适应指南,迅速融入异国校园...[详细]
2024-10-22河南查智电子科技有限公司:数字化转型的先锋,企业成长的伙伴!
河南查智电子科技有限公司:数字化转型的先锋,企业成长的伙伴!...[详细]
2024-07-16车企期中“成绩单”出炉:比亚迪蝉联国内车企销量冠军
车企期中“成绩单”出炉:比亚迪蝉联国内车企销量冠军...[详细]
2024-09-12宝树堂宝肤灵:一款经典药膏的演变之路
宝树堂宝肤灵:一款经典药膏的演变之路...[详细]
2024-08-23海信中央空调 5G赋能,智慧生活的加速器
海信中央空调 5G赋能,智慧生活的加速器...[详细]
2024-02-05温州市洞头中西医结合理疗研究所所长——陈德来
温州市洞头中西医结合理疗研究所所长——陈德来...[详细]
2024-07-15互联网资源“全国乡村振兴”等现有资源转让出售
互联网资源“全国乡村振兴”等现有资源转让出售...[详细]