Linux 生产内核网络参数调优分析

本文总结了常见的 Linux 内核参数及相关问题。修改内核参数前，您需要：

从实际需要出发，最好有相关数据的支撑，不建议随意调整内核参数。
了解参数的具体作用，且注意同类型或版本环境的内核参数可能有所不同。

1. 查看和修改 Linux 实例内核参数

1.1 方法一

通过 /proc/sys/ 目录

查看内核参数: 使用 cat 查看对应文件的内容，例如执行命令 cat /proc/sys/net/ipv4/tcp_tw_recycle 查看 net.ipv4.tcp_tw_recycle 的值。
修改内核参数: 使用 echo 修改内核参数对应的文件，例如执行命令 echo "0" > /proc/sys/net/ipv4/tcp_tw_recycle 将 net.ipv4.tcp_tw_recycle 的值修改为 0。

注意：

/proc/sys/ 目录是 Linux 内核在启动后生成的伪目录，其目录下的 net 文件夹中存放了当前系统中开启的所有内核参数、目录树结构与参数的完整名称相关，如 net.ipv4.tcp_tw_recycle，它对应的文件是 /proc/sys/net/ipv4/tcp_tw_recycle，文件的内容就是参数值。

方法一修改的参数值仅在当次运行中生效，系统重启后会回滚历史值，一般用于临时性的验证修改的效果。若需要永久性修改，请参阅方法二(https://help.aliyun.com/knowledge_detail/41334.html#method2)。

1.2 方法二

通过 sysctl.conf 文件

查看内核参数: 执行命令 sysctl -a 查看当前系统中生效的所有参数。
修改内核参数:
- 执行命令 /sbin/sysctl -w kernel.parameter="example" 修改参数，如sysctl -w net.ipv4.tcp_tw_recycle="0"。
- 执行命令 vi /etc/sysctl.conf 修改 /etc/sysctl.conf 文件中的参数。
- 执行命令 /sbin/sysctl -p 使配置生效。

注：调整内核参数后内核处于不稳定状态，请务必重启实例。

2. Linux 网络相关内核参数引发的常见问题及处理

2.1 Linux 实例 NAT 哈希表满导致丢包

此处涉及的内核参数：

net.netfilter.nf_conntrack_buckets
net.nf_conntrack_max

2.1.1 问题现象

Linux 实例出现间歇性丢包，无法连接实例，通过 tracert、mtr 等工具排查，外部网络未见异常。同时，如下图所示，在系统日志中重复出现大量（table full, dropping packet.）错误信息。

Feb  6  16:05:07 i-*** kernel: nf_conntrack: table full, dropping packet.

2.1.2 原因分析

ip_conntrack 是 Linux 系统内 NAT 的一个跟踪连接条目的模块。ip_conntrack 模块会使用一个哈希表记录 TCP 协议 established connection 记录，当这个哈希表满了的时候，便会导致 nf_conntrack: table full, dropping packet 错误。Linux 系统会开辟一个空间用来维护每一个 TCP 链接，这个空间的大小与 nf_conntrack_buckets、nf_conntrack_max 相关，后者的默认值是前者的 4 倍，而前者在系统启动后无法修改，所以一般都是建议调大 nf_conntrack_max。

注意：系统维护连接比较消耗内存，请在系统空闲和内存充足的情况下调大 nf_conntrack_max，且根据系统的情况而定。

2.1.3 决思路

使用管理终端登录实例。
执行命令 # vi /etc/sysctl.conf 编辑系统内核配置。
修改哈希表项最大值参数：net.netfilter.nf_conntrack_max = 655350。
修改超时参数：net.netfilter.nf_conntrack_tcp_timeout_established = 1200，默认情况下 timeout 是 432000（秒）。
执行命令 # sysctl -p 使配置生效。

2.2 Time wait bucket table overflow 报错

此处涉及的内核参数：

net.ipv4.tcp_max_tw_buckets

2.2.1 问题现象

Linux 实例 /var/log/message 日志全是类似 kernel: TCP: time wait bucket table overflow 的报错信息，提示 time wait bucket table 溢出，如下：

Feb  18  12:28:38 i-*** kernel: TCP: time wait bucket table overflow
Feb  18  12:28:44 i-*** kernel: printk:  227 messages suppressed.

执行命令 netstat -ant|grep TIME_WAIT|wc -l 统计处于 TIME_WAIT 状态的 TCP 连接数，发现处于 TIME_WAIT 状态的 TCP 连接非常多。

2.2.2 原因分析

参数 net.ipv4.tcp_max_tw_buckets 可以调整内核中管理 TIME_WAIT 状态的数量，当实例中处于 TIME_WAIT 及需要转换为 TIME_WAIT 状态连接数之和超过了 net.ipv4.tcp_max_tw_buckets 参数值时，message 日志中将报错 time wait bucket table，同时内核关闭超出参数值的部分 TCP 连接。您需要根据实际情况适当调高 net.ipv4.tcp_max_tw_buckets，同时从业务层面去改进 TCP 连接。

2.2.3 解决思路

执行命令 netstat -anp |grep tcp |wc -l 统计 TCP 连接数。
执行命令 vi /etc/sysctl.conf，查询 net.ipv4.tcp_max_tw_buckets 参数。如果确认连接使用很高，容易超出限制。
调高参数 net.ipv4.tcp_max_tw_buckets，扩大限制。
执行命令 # sysctl -p 使配置生效。

2.3 Linux 实例中 FIN_WAIT2 状态的 TCP 链接过多

此处涉及的内核参数：

net.ipv4.tcp_fin_timeout

2.3.1 问题现象

FIN_WAIT2 状态的 TCP 链接过多。

2.3.2 原因分析

HTTP 服务中，Server 由于某种原因会主动关闭连接，例如 KEEPALIVE 超时的情况下。作为主动关闭连接的 Server 就会进入 FIN_WAIT2 状态。
TCP/IP 协议栈中，存在半连接的概念，FIN_WAIT2 状态不算做超时，如果 Client 不关闭，FIN_WAIT_2 状态将保持到系统重启，越来越多的 FIN_WAIT_2 状态会致使内核 Crash。
建议调小 net.ipv4.tcp_fin_timeout 参数，减少这个数值以便加快系统关闭处于 FIN_WAIT2 状态的 TCP 连接。

2.3.3 解决思路

执行命令 vi /etc/sysctl.conf，修改或加入以下内容：

net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_max_syn_backlog = 8192
net.ipv4.tcp_max_tw_buckets = 5000

执行命令 # sysctl -p 使配置生效。

注：由于 FIN_WAIT2 状态的 TCP 连接会进入 TIME_WAIT 状态，请同时参阅 time wait bucket table overflow 报错。

2.4 Linux 实例中出现大量 CLOSE_WAIT 状态的 TCP 连接

2.4.1 问题现象

执行命令 netstat -atn|grep CLOSE_WAIT|wc -l 发现当前系统中处于 CLOSE_WAIT 状态的 TCP 连接非常多。

2.4.2 原因分析

关闭 TCP 连接时，TCP 连接的两端都可以发起关闭连接的请求，若对端发起了关闭连接，但本地没有关闭连接，那么该连接就会处于 CLOSE_WAIT 状态。虽然该连接已经处于半开状态，但是已经无法和对端通信，需要及时的释放掉该链接。建议从业务层面及时判断某个连接是否已经被对端关闭，即在程序逻辑中对连接及时关闭检查。

2.4.3 解决思路

编程语言中对应的读、写函数一般包含了检测 CLOSE_WAIT TCP 连接功能，例如：

Java 语言：

通过 read 方法来判断 I/O 。当 read 方法返回 -1 时则表示已经到达末尾。
通过 close 方法关闭该链接。

C 语言：

检查 read 的返回值。
- 若等于 0 则可以关闭该连接。
- 若小于 0 则查看 errno，若不是 AGAIN 则同样可以关闭连接。

2.5 客户端配置 NAT 后仍无法访问 ECS 或 RDS 远端服务器

此处涉及的内核参数：

net.ipv4.tcp_tw_recycle
net.ipv4.tcp_timestamps

2.5.1 问题现象

客户端配置 NAT 后无法访问远端 ECS、RDS，包括配置了 SNAT 的 VPC ECS 。同时无法访问连接其他 ECS 或 RDS 等云产品，抓包检测发现远端对客户端发送的 SYN 包没有响应。

2.5.2 原因分析

若远端服务器的内核参数 net.ipv4.tcp_tw_recycle 和 net.ipv4.tcp_timestamps 的值都为 1，则远端服务器会检查每一个报文中的时间戳（Timestamp），若 Timestamp 不是递增的关系，不会响应这个报文。配置 NAT 后，远端服务器看到来自不同的客户端的源 IP 相同，但 NAT 前每一台客户端的时间可能会有偏差，报文中的 Timestamp 就不是递增的情况。

2.5.3 解决思路

远端服务器为 ECS 时，修改参数 net.ipv4.tcp_tw_recycle 为 0。
远端服务器为 RDS 等 PaaS 服务时。RDS 无法直接修改内核参数，需要在客户端上修改参数 net.ipv4.tcp_tw_recycle 和 net.ipv4.tcp_timestamps 为 0。

3. 总结, 以上涉及 Linux 内核参数说明

参数	说明
net.ipv4.tcp_max_syn_backlog	该参数决定了系统中处于 `SYN_RECV` 状态的 TCP 连接数量。`SYN_RECV` 状态指的是当系统收到 SYN 后，作了 SYN+ACK 响应后等待对方回复三次握手阶段中的最后一个 ACK 的阶段。
net.ipv4.tcp_syncookies	该参数表示是否打开 TCP 同步标签（`SYN_COOKIES`），内核必须开启并编译 CONFIG_SYN_COOKIES，`SYN_COOKIES` 可以防止一个套接字在有过多试图连接到达时引起过载。默认值 0 表示关闭。当该参数被设置为 1 且 `SYN_RECV` 队列满了之后，内核会对 SYN 包的回复做一定的修改，即，在响应的 SYN+ACK 包中，初始的序列号是由源 IP + Port、目的 IP + Port 及时间这五个参数共同计算出一个值组成精心组装的 TCP 包。由于 ACK 包中确认的序列号并不是之前计算出的值，恶意攻击者无法响应或误判，而请求者会根据收到的 SYN+ACK 包做正确的响应。启用 `net.ipv4.tcp_syncookies` 后，会忽略 `net.ipv4.tcp_max_syn_backlog`。
net.ipv4.tcp_synack_retries	该参数指明了处于 `SYN_RECV` 状态时重传 SYN+ACK 包的次数。
net.ipv4.tcp_abort_on_overflow	设置该参数为 1 时，当系统在短时间内收到了大量的请求，而相关的应用程序未能处理时，就会发送 Reset 包直接终止这些链接。建议通过优化应用程序的效率来提高处理能力，而不是简单地 Reset。默认值： 0
net.core.somaxconn	该参数定义了系统中每一个端口最大的监听队列的长度，是个全局参数。该参数和 `net.ipv4.tcp_max_syn_backlog` 有关联，后者指的是还在三次握手的半连接的上限，该参数指的是处于 ESTABLISHED 的数量上限。若您的 ECS 实例业务负载很高，则有必要调高该参数。`listen(2)` 函数中的参数 `backlog` 同样是指明监听的端口处于 ESTABLISHED 的数量上限，当 `backlog` 大于 `net.core.somaxconn`时，以 `net.core.somaxconn` 参数为准。
net.core.netdev_max_backlog	当内核处理速度比网卡接收速度慢时，这部分多出来的包就会被保存在网卡的接收队列上，而该参数说明了这个队列的数量上限。

4. 生产集群内核配置参考

4.1 参考1: 笔者所在公司的 Iot 生产环境 EMQ 集群的 sysctl.conf 配置 (CentOS 7.4 4C 32G)

# see: https://www.kernel.org/doc/Documentation/sysctl

fs.file-max = 1048576
fs.nr_open = 2097152

net.core.somaxconn = 32768
net.core.rmem_default = 262144
net.core.wmem_default = 262144
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.core.netdev_max_backlog = 8192

net.ipv4.tcp_mem = 378798 505064 757596
net.ipv4.tcp_rmem = 1024 4096 16777216
net.ipv4.tcp_wmem = 1024 4096 16777216
net.ipv4.tcp_max_tw_buckets = 5000
net.ipv4.tcp_fin_timeout = 15
net.ipv4.tcp_tw_recycle = 0
net.ipv4.tcp_tw_reuse = 0
net.ipv4.tcp_max_syn_backlog = 8192
net.ipv4.ip_local_port_range = 1024  65000

net.nf_conntrack_max = 262144

net.netfilter.nf_conntrack_max = 262144
net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60
net.netfilter.nf_conntrack_tcp_timeout_time_wait = 30

4.2 参考2: 感谢 lework/kainstall 的作者, 基于纯shell的 kubernetes 生产集群的 sysctl 配置

# see: https://www.kernel.org/doc/Documentation/sysctl
#############################################################################################
# 调整虚拟内存
#############################################################################################

# Default: 30
# 0 - 任何情况下都不使用swap。
# 1 - 除非内存不足（OOM），否则不使用swap。
vm.swappiness = 0

# 内存分配策略
#0 - 表示内核将检查是否有足够的可用内存供应用进程使用；如果有足够的可用内存，内存申请允许；否则，内存申请失败，并把错误返回给应用进程。
#1 - 表示内核允许分配所有的物理内存，而不管当前的内存状态如何。
#2 - 表示内核允许分配超过所有物理内存和交换空间总和的内存
vm.overcommit_memory=1

# OOM时处理
# 1关闭，等于0时，表示当内存耗尽时，内核会触发OOM killer杀掉最耗内存的进程。
vm.panic_on_oom=0

# vm.dirty_background_ratio 用于调整内核如何处理必须刷新到磁盘的脏页。
# Default value is 10.
# 该值是系统内存总量的百分比，在许多情况下将此值设置为5是合适的。
# 此设置不应设置为零。
vm.dirty_background_ratio = 5

# 内核强制同步操作将其刷新到磁盘之前允许的脏页总数
# 也可以通过更改 vm.dirty_ratio 的值（将其增加到默认值30以上（也占系统内存的百分比））来增加
# 推荐 vm.dirty_ratio 的值在60到80之间。
vm.dirty_ratio = 60

# vm.max_map_count 计算当前的内存映射文件数。
# mmap 限制（vm.max_map_count）的最小值是打开文件的ulimit数量（cat /proc/sys/fs/file-max）。
# 每128KB系统内存 map_count应该大约为1。 因此，在32GB系统上，max_map_count为262144。
# Default: 65530
vm.max_map_count = 2097152

#############################################################################################
# 调整文件
#############################################################################################

fs.may_detach_mounts = 1

# 增加文件句柄和inode缓存的大小，并限制核心转储。
fs.file-max = 2097152
fs.nr_open = 2097152
fs.suid_dumpable = 0

# 文件监控
fs.inotify.max_user_instances=8192
fs.inotify.max_user_watches=524288
fs.inotify.max_queued_events=16384

#############################################################################################
# 调整网络设置
#############################################################################################

# 为每个套接字的发送和接收缓冲区分配的默认内存量。
net.core.wmem_default = 25165824
net.core.rmem_default = 25165824

# 为每个套接字的发送和接收缓冲区分配的最大内存量。
net.core.wmem_max = 25165824
net.core.rmem_max = 25165824

# 除了套接字设置外，发送和接收缓冲区的大小
# 必须使用net.ipv4.tcp_wmem和net.ipv4.tcp_rmem参数分别设置TCP套接字。
# 使用三个以空格分隔的整数设置这些整数，分别指定最小，默认和最大大小。
# 最大大小不能大于使用net.core.wmem_max和net.core.rmem_max为所有套接字指定的值。
# 合理的设置是最小4KiB，默认64KiB和最大2MiB缓冲区。
net.ipv4.tcp_wmem = 20480 12582912 25165824
net.ipv4.tcp_rmem = 20480 12582912 25165824

# 增加最大可分配的总缓冲区空间
# 以页为单位（4096字节）进行度量
net.ipv4.tcp_mem = 65536 25165824 262144
net.ipv4.udp_mem = 65536 25165824 262144

# 为每个套接字的发送和接收缓冲区分配的最小内存量。
net.ipv4.udp_wmem_min = 16384
net.ipv4.udp_rmem_min = 16384

# 启用TCP窗口缩放，客户端可以更有效地传输数据，并允许在代理方缓冲该数据。
net.ipv4.tcp_window_scaling = 1

# 提高同时接受连接数。
net.ipv4.tcp_max_syn_backlog = 10240

# 将net.core.netdev_max_backlog的值增加到大于默认值1000
# 可以帮助突发网络流量，特别是在使用数千兆位网络连接速度时，
# 通过允许更多的数据包排队等待内核处理它们。
net.core.netdev_max_backlog = 65536

# 增加选项内存缓冲区的最大数量
net.core.optmem_max = 25165824

# 被动TCP连接的SYNACK次数。
net.ipv4.tcp_synack_retries = 2

# 允许的本地端口范围。
net.ipv4.ip_local_port_range = 2048 65535

# 防止TCP时间等待
# Default: net.ipv4.tcp_rfc1337 = 0
net.ipv4.tcp_rfc1337 = 1

# 减少tcp_fin_timeout连接的时间默认值
net.ipv4.tcp_fin_timeout = 15

# 积压套接字的最大数量。
# Default is 128.
net.core.somaxconn = 32768

# 打开syncookies以进行SYN洪水攻击保护。
net.ipv4.tcp_syncookies = 1

# 避免Smurf攻击
# 发送伪装的ICMP数据包，目的地址设为某个网络的广播地址，源地址设为要攻击的目的主机，
# 使所有收到此ICMP数据包的主机都将对目的主机发出一个回应，使被攻击主机在某一段时间内收到成千上万的数据包
net.ipv4.icmp_echo_ignore_broadcasts = 1

# 为icmp错误消息打开保护
net.ipv4.icmp_ignore_bogus_error_responses = 1

# 启用自动缩放窗口。
# 如果延迟证明合理，这将允许TCP缓冲区超过其通常的最大值64K。
net.ipv4.tcp_window_scaling = 1

# 打开并记录欺骗，源路由和重定向数据包
net.ipv4.conf.all.log_martians = 1
net.ipv4.conf.default.log_martians = 1

# 告诉内核有多少个未附加的TCP套接字维护用户文件句柄。 万一超过这个数字，
# 孤立的连接会立即重置，并显示警告。
# Default: net.ipv4.tcp_max_orphans = 65536
net.ipv4.tcp_max_orphans = 65536

# 不要在关闭连接时缓存指标
net.ipv4.tcp_no_metrics_save = 1

# 启用RFC1323中定义的时间戳记：
# Default: net.ipv4.tcp_timestamps = 1
net.ipv4.tcp_timestamps = 1

# 启用选择确认。
# Default: net.ipv4.tcp_sack = 1
net.ipv4.tcp_sack = 1

# 增加 tcp-time-wait 存储桶池大小，以防止简单的DOS攻击。
# net.ipv4.tcp_tw_recycle 已从Linux 4.12中删除。请改用net.ipv4.tcp_tw_reuse。
net.ipv4.tcp_max_tw_buckets = 14400
net.ipv4.tcp_tw_reuse = 1

# accept_source_route 选项使网络接口接受设置了严格源路由（SSR）或松散源路由（LSR）选项的数据包。
# 以下设置将丢弃设置了SSR或LSR选项的数据包。
net.ipv4.conf.all.accept_source_route = 0
net.ipv4.conf.default.accept_source_route = 0

# 打开反向路径过滤
net.ipv4.conf.all.rp_filter = 1
net.ipv4.conf.default.rp_filter = 1

# 禁用ICMP重定向接受
net.ipv4.conf.all.accept_redirects = 0
net.ipv4.conf.default.accept_redirects = 0
net.ipv4.conf.all.secure_redirects = 0
net.ipv4.conf.default.secure_redirects = 0

# 禁止发送所有IPv4 ICMP重定向数据包。
net.ipv4.conf.all.send_redirects = 0
net.ipv4.conf.default.send_redirects = 0

# 开启IP转发.
net.ipv4.ip_forward = 1

# 禁止IPv6
net.ipv6.conf.lo.disable_ipv6=1
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1

# 要求iptables不对bridge的数据进行处理
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-arptables = 1

# arp缓存
# 存在于 ARP 高速缓存中的最少层数，如果少于这个数，垃圾收集器将不会运行。缺省值是 128
net.ipv4.neigh.default.gc_thresh1=2048
# 保存在 ARP 高速缓存中的最多的记录软限制。垃圾收集器在开始收集前，允许记录数超过这个数字 5 秒。缺省值是 512
net.ipv4.neigh.default.gc_thresh2=4096
# 保存在 ARP 高速缓存中的最多记录的硬限制，一旦高速缓存中的数目高于此，垃圾收集器将马上运行。缺省值是 1024
net.ipv4.neigh.default.gc_thresh3=8192

# 持久连接
net.ipv4.tcp_keepalive_time = 600
net.ipv4.tcp_keepalive_intvl = 30
net.ipv4.tcp_keepalive_probes = 10

# conntrack表
net.nf_conntrack_max=1048576
net.netfilter.nf_conntrack_max=1048576
net.netfilter.nf_conntrack_buckets=262144
net.netfilter.nf_conntrack_tcp_timeout_fin_wait=30
net.netfilter.nf_conntrack_tcp_timeout_time_wait=30
net.netfilter.nf_conntrack_tcp_timeout_close_wait=15
net.netfilter.nf_conntrack_tcp_timeout_established=300

#############################################################################################
# 调整内核参数
#############################################################################################

# 地址空间布局随机化（ASLR）是一种用于操作系统的内存保护过程，可防止缓冲区溢出攻击。
# 这有助于确保与系统上正在运行的进程相关联的内存地址不可预测，
# 因此，与这些流程相关的缺陷或漏洞将更加难以利用。
# Accepted values: 0 = 关闭, 1 = 保守随机化, 2 = 完全随机化
kernel.randomize_va_space = 2

# 调高 PID 数量
kernel.pid_max = 65536
kernel.threads-max=30938

# coredump
kernel.core_pattern=core

# 决定了检测到soft lockup时是否自动panic，缺省值是0
kernel.softlockup_all_cpu_backtrace=1
kernel.softlockup_panic=1

2025年 2月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

Linux 生产内核网络参数调优分析

1. 查看和修改 Linux 实例内核参数

1.1 方法一

1.2 方法二

2. Linux 网络相关内核参数引发的常见问题及处理

2.1 Linux 实例 NAT 哈希表满导致丢包

2.1.1 问题现象

2.1.2 原因分析

2.1.3 决思路

2.2 Time wait bucket table overflow 报错

2.2.1 问题现象

2.2.2 原因分析

2.2.3 解决思路

2.3 Linux 实例中 FIN_WAIT2 状态的 TCP 链接过多

2.3.1 问题现象

2.3.2 原因分析

2.3.3 解决思路

2.4 Linux 实例中出现大量 CLOSE_WAIT 状态的 TCP 连接

2.4.1 问题现象

2.4.2 原因分析

2.4.3 解决思路

2.5 客户端配置 NAT 后仍无法访问 ECS 或 RDS 远端服务器

2.5.1 问题现象

2.5.2 原因分析

2.5.3 解决思路

3. 总结, 以上涉及 Linux 内核参数说明

4. 生产集群内核配置参考

留言 取消回复

留言取消回复