探索 | 一个有趣的TCP链接问题

上网导航 2023-07-14 650 0条评论

摘要： 本文分享了最近发生的影响CAL可用性和稳定性的问题，以及CAL团队如何使用TCPDUMP和systemtap找出根本原因。...

导读

可用性和稳定性对于eBay的网络站点非常重要。

本文分享了CAL（集中式应用程序日志框架）中最近发生的一个有趣的TCP链接问题，这一问题会严重影响CAL的稳定性，进而影响eBay网络站点的良好运行，解决问题迫在眉睫。

来看看CAL团队如何使用TCPDUMP和systemtap工具，通过简单高效的四个步骤，找出问题的根本原因的。

CAL运行架构

CAL是eBay的集中式应用程序日志框架。

CAL的主要目的是集中收集应用程序服务器的本地日志，并据此给出所收集数据的报告。CAL的数据报告提供了对eBay站点重要领域的深入洞察，这对于eBay制定业务的各个方面都非常宝贵。

那么，CAL是如何运行的呢？

如上图所示，在CAL的运行架构中，CAL客户端会尝试与CALVIP（虚拟IP地址）建立TCP长连接。由于CAL的流量非常巨大（每秒几十GB），单对负载均衡器（LoadBalancer）无法负载，因此有数对LB负责流量的传输，不同的LB上有不同的VIP。CAL客户端先从DNS查询中随机选择一个VIP尝试连接，如果连接超时，客户端会选择另一个VIP重试，直到成功建立连接。

问题描述

最近，CAL团队遇到了一些奇怪的问题，这让他们有些困扰。

如上图NetCat输出所示，VIP会间歇性地返回连接超时，而且这一问题频繁而毫无规律地出现，这会严重影响CAL的稳定性，进而影响eBay网络站点的良好运行。

问题修复迫在眉睫，一起来看看CAL团队是如何进行故障定位的吧！

故障定位

对故障的定位与处理主要分为以下四个步骤。

Step 1.

在LB上运行TCPDUMP

明明VIP和LB的配置看起来都是正确的，为什么VIP还会连接超时？

我们首先查看TCPDUMP，试图找到连接超时的原因。

如上方的Wireshark截图所示，当连接超时发生时，LB主动向客户端发送了RST包，根据F5的插件给出的原因是流量到期（Flowexpiration）。

我们把其中一个TCP流拿出来单独看。

如上方截图所示，LB的SNAT(SecureNetworkAddressTranslation)IP发送了3次SYN包，但是服务器端无视了这些包。大约15秒以后，LB的SNATIP认为连接超时，主动发送了一个RST包。

Step 2.

检查SYN队列和Accept队列

为什么服务器会忽略LB发来的SYN数据包？

由于当时我们正在做CAL流量的迁移，绝大部分CAL流量正在从老版本代码向新版本迁移。因此我们猜测可能是新版本代码的性能问题。

一个合理的解释是新版本性能不够强，无法及时处理巨大的流量，导致SYN队列堆积满溢，新的SYN包无法进入队列而被丢弃。

下图解释了SYN队列以及Accept队列的工作方式。

乍一看，证据似乎支持了前面的假设。

但是，我们写了一个Systemtap的探针脚本（如下图）尝试去捕捉SYN队列满溢情况，却没有得到任何输出。

因此，对于新版本代码性能问题导致SYN包被丢弃的猜测被证实是错误的。

Step 3.

用netstat -s重新检查网络状态

由于之前的猜测被推翻，我们用netstat-s重新检查了网络层面的状态。

通过检测，一条新的线索浮出水面（如下图），我们发现，大部分的SYN包被丢弃的原因是时间戳（timestamp）。

那么，时间戳是如何导致SYN包丢失的？

原来，‘Passive connections rejected because of time stamp'有一个专门的计数器LINUX_MIB_PAWSPASSIVEREJECTED，它在内核代码中只出现在一个地方[1]。当函数tcp_peer_is_proven(req,dst, true)返回false时，Linux内核会丢弃SYN包并记录在LINUX_MIB_PAWSPASSIVEREJECTED。

[1]https://elixir.bootlin.com/linux/v3.10/source/net/ipv4/tcp_ipv4.c#L1555

这段代码片段如下：