Argo Workflow
服务偶尔出现 pod deleted
错误,造成异步任务失败,需要人工介入修复,维护成本提高。
查询argo controller
的日志是这样的,无法快速定位准确的原因:
参考Argo Workflow
官方的issue
,找到比较有价值的issue
:https://github.com/argoproj/argo-workflows/issues/5321
从issue
来看,我们的问题也比较符合,但本着严谨态度,我们需要准确的日志错误来准确定位根因,因此参考Kubernetes
官网,我们打开AuditLog
观察下:
https://kubernetes.io/docs/tasks/debug/debug-cluster/audit/
但这个排查需要花一定时间,因此我们先按照 |