Overview
业务在机器学习的 GPU 集群访问集群外部域名的算法模型报超时
原因分析
查看了 coredns 的监控和日志,均没有发现异常,通过 ping harbor.fql.com 分析回包非常慢,而且频繁超时,于是抓包,发现 harbor.fql.com 添加了 search 域,因为本身域名只有三位,k8s 的 DNS 的 ndots 默认是5位,所以肯定会添加 search 域去解析域名的
默认配置下的 Pod,ndots 为 5
解决方案
由业务容器通过 Pod 的 dnsConfig 自行自定义配置,或者用 host network(不推荐),可以解决问题。
本文使用 文章同步助手 同步