集群外部域名dns解析问题

141 阅读1分钟

Overview

业务在机器学习的 GPU 集群访问集群外部域名的算法模型报超时

原因分析

查看了 coredns 的监控和日志,均没有发现异常,通过 ping harbor.fql.com 分析回包非常慢,而且频繁超时,于是抓包,发现 harbor.fql.com 添加了 search 域,因为本身域名只有三位,k8s 的 DNS 的 ndots 默认是5位,所以肯定会添加 search 域去解析域名的

默认配置下的 Pod,ndots 为 5

解决方案

由业务容器通过 Pod 的 dnsConfig 自行自定义配置,或者用 host network(不推荐),可以解决问题。

本文使用 文章同步助手 同步