TCP重传问题的排查思路与实践,有点干货!_tcp不重传-程序员宅基地

技术标签: TCP  Java基础  

个人博客请访问 http://www.x0100.top 

1、关于TCP重传

TCP有重传是正常的机制,为了保障数据传输可靠性。只是局域网环境,网络质量有保障,因为网络问题出现重传应该极低;互联网或城域网环境,线路复杂(可以想象下城市地下管网,错综复杂的电线杆等),网络质量不好保障,重传出现概率较高。

TCP有重传,也不一定是网络层面的问题。也可能是接收端不存在,接收端receive buffer满了,应用程序有异常链接未正常关闭等等等。

2、TCP/IP相关

排查网络问题,要掌握TCP/IP原理,真相都在一个一个的数据包里。以下是和TCP重传比较关键的几个参数。

2.1 建立TCP链接时的参数

  1. #syn包重传多少次后放弃,重传间隔是2的n次方(1s,2s,4s..)

  2. net.ipv4.tcp_syn_retries

  3.  

  4. #syn ack包重传多少次后放弃

  5. net.ipv4.tcp_synack_retries

  6.  

  7. #syn包队列

  8. net.ipv4.tcp_max_syn_backlog

2.2 TCP重传类型

超时重传

在请求包发出去的时候,开启一个计时器,当计时器达到时间之后,没有收到ACK,则就进行重发请求的操作,一直重发直到达到重发上限次数或者收到ACK。

快速重传

当接收方收到的数据包是不正常的序列号,那么接收方会重复把应该收到的那一条ACK重复发送,这个时候,如果发送方收到连续3条的同一个序列号的ACK,那么就会启动快速重传机制,把这个ACK对应的发送包重新发送一次。具体可以参考: 

3、常见问题与措施

3.1单台机器或单个应用机器tcp重传

可能是链接的服务器或端口无法访问

排查思路

 
  1. 1、抓1000或者更多个tcp包

  2. # 出现2次以上seq一样的包就是发生了重传

  3. # syn包重传间隔是指数增加

  4. # 已经建立了链接的tcp重传间隔,参考RTO

  5. # 收到比较多ack重传,一般说明数据包出现乱序,seq较大的先到达了目的端,发送端收到3次sack会触发立即快速重传缺失的tcp分片。快速重传不太影响rt,但是发送窗口立即减半,会对吞吐带宽有一定影响

  6. # 云环境虚拟机,还要考虑分析宿主机的问题

  7.  

  8. sudo ss -anti |grep -B 1 retrans #重传统计

  9.  

  10. if=bond0

  11. sudo tcpdump -w /tmp/tcp.pcap -i $if -c 1000 -nn tcp 2>/dev/null

  12. sudo tcpdump -nn -r /tmp/tcp.pcap | awk '{print $3,$5,$8,$9}' | sort | uniq -c | sort -rn |sed 's/^ \{1,\}//g'|egrep -v "^1 |Request"

  13.  

  14. 2、联通性检查

  15. ping $ip

  16. nc -nvz $ip $port

  17.  

  18. 3、接收端应用程序问题排查;来源和目的抓包,wireshark分析具体是什么包丢失导致了重传

3.2 多台机器或多个应用同时tcp重传

可能是网络抖动

排查思路

  1. 1、查看网络区域埋点,查看网络设备报警,看是否有区域网络抖动

  2. 2、区域网络没问题的话。可以用常见问题:1 的方法缩小排查范围

3.3 带宽跑满

排查思路

  1. 1、查看主机监控,检查是否带宽跑满

  2. 2、检查重传联路上相关的网络设备是否有带宽跑满

3.4 不常见问题

1 网络设备端口或光模块异常等导致包checksum失败 2 网络路由收敛抖动 3 主机网络驱动有bug,网络设备有bug等

4、如何监控

使用tsar -tcp -C 可以监控到tcp的retran属性也即是重传次数。

tsar --tcp -C | sed 's/:/_/g;s/=/ /g' | xargs -n 2

感兴趣的朋友可以直接执行以下监控脚本获取tcp相关的状态监控数据,适用于open-falcon。

  1. #!/usr/bin/env bash

  2. HOSTNAME=`hostname`

  3. timestamp=`date +%s`

  4. tagapp="app=tsar.collect"

  5. data_item=""

  6. tsarcollectstring=`/opt/tsar/bin/tsar --tcp -C | sed 's/:/_/g;s/=/ /g' | xargs  -n 2 | tail -n +2|sed 's/ /|/'`

  7. for i in $tsarcollectstring

  8. do

  9. getkey=`echo $i|awk -F "|" '{print $1}'`

  10. getvalue=`echo $i|awk -F "|" '{print $2}'`

  11. tags="$tagapp"

  12. metric="tsar.collect.$getkey"

  13. metric_item="{\"endpoint\":\"${HOSTNAME}\",\"tags\":\"${tags}\",

  14.  

  15.                  \"timestamp\":${timestamp},\"metric\":\"$metric\",

  16.  

  17.                  \"value\":${getvalue},\"counterType\":\"GAUGE\",

  18.  

  19.                  \"step\":60}"

  20.  

  21. if [ "${data_item}x" = "x" ];then

  22. data_item="$metric_item"

  23. else

  24. data_item="${data_item},${metric_item}"

  25. fi

  26.  

  27. done

  28. echo "[$data_item]"

5、案例实践

1 在遇到丢包重传的机器上抓包并使用wireshark 分析该包,注意因为重传不是时刻都有的,所以抓包命令是要持续执行以便捕捉到重传的包。使用wireshark打开tcpdump的结果,在搜索框里入手tcp.analysis.retransmission 得到如下结果:

图1 表明服务端发生了三次重传动作。

2 由于包比较多,我们可以使用wireshark的追踪流功能获取重传相关的tcp流 

图二 追踪流-->TCP流 可以得到重传相关的数据包

图三 可以看出客户端和服务端的请求与应答。

3 解析重传

特别需要说明的是:

NO 67,68 client端由于某些原因没有收到正确的包数据,向server端发送dup ack,参考基础知识提到的快速重传

NO.68和NO.69之间的时间差200ms(关注time那一列,其他都是相差小于1ms),server等待超时,于是重传。

NO 73-74是client端发送了一个fin包并主动关闭连接。

这个案例仅仅发生一次,没有复现,通过抓包解析出来分析没有得到明确的结论。

6、小结

本文总结自己工作过程中遇到的TCP重传问题的解决过程 ,侧重于大致的解决问题的思路与具体的实践,理论知识偏少,大家有兴趣的可以多查阅相关文章以便深入了解tcp的工作机制。

更多精彩内容扫描下方二维码进入网站。。。。。

关注微信公众号。。。。。

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wufaliang003/article/details/90664256

智能推荐

LeetCode刷题总结(C语言版)_leetcode c语言-程序员宅基地

文章浏览阅读5.4k次,点赞6次,收藏73次。编程总结每每刷完一道题后,其思想和精妙之处没有地方记录,本篇博客用以记录刷题过程中的遇到的算法和技巧001)两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的两个整数。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] ..._leetcode c语言

小程序开发者工具正常显示,但是真机调试和真机中安卓加载正常ios加载首页失败,首页的请求返回204_苹果 sec-fetch-dest-程序员宅基地

文章浏览阅读125次。检查请求头中的’sec-fetch-dest’: ‘document’ ,是否进行了特殊处理(node层)_苹果 sec-fetch-dest

ansible 批量安装zabbix-agent-程序员宅基地

文章浏览阅读321次。服务器初始化(这是在建立在新的服务器基础上做的初始化)关闭防火墙、selinux,添加epel常用源,安装常用工具、添加普通用户并禁止root1、服务器批量初始化[root@fwd ansible]# cat init.yml 系统初始化脚本---- hosts: all tasks: - name: disable selinux、firew..._ansible批量安装zabbix-agent

java日志系统--log4j配置解析过程,源码分析_log4j 源码分析 读取配置-程序员宅基地

文章浏览阅读1.4w次,点赞3次,收藏2次。Logger.getLogger(Test.class);从getLogger开始,就启动了log4j的整个工作流程,通过调用LogManager获取logger实例return LogManager.getLogger(clazz.getName());LogManager类里面有个静态块static{},【初始化重要信息】【root logger】,做一些配置,其中url = Loader.ge_log4j 源码分析 读取配置

心灵震撼《一个8岁女孩的遗书》看完能有几人不哭…-程序员宅基地

文章浏览阅读533次。无奈的父亲­有一个美丽的小女孩,她的名字叫余艳,她有一双亮晶晶的大眼睛她有一颗透明的童心.她是一个孤儿,她在这个世界上只活了8年,她留在这个世界上最后的一句话是“我来过,我很乖”她希望死在秋天,纤瘦的身体就像一朵花自然开谢的过程.在遍地黄花堆积,落叶空中旋舞的时候,她会看见横空远行的雁儿们.她自愿放弃治疗,把全世界华人捐给她的54万分成了7份,把生命当成希望的蛋糕分给了7个正徘徊在生死线上的小

C++音视频开发从放弃到入门 (基于FFmpeg+OpenCV)-程序员宅基地

文章浏览阅读1.1w次,点赞12次,收藏88次。音视频开发一定要学C++吗?答案是肯定的。虽然其它语言也能搞音视频开发,甚至使用起来更简单,但“语言越高级,离真相就越远”,当你的功能需求日益增多,程序的性能需求越来越迫切,你想进一步了解程序实现的细节时,使用其它语言往往会面临“无法解决”的困境,最后不得不使用C++来解决问题,我们何不从一开始就使用C++呢?FFmpeg及OpenCV是开源、跨平台的音视频开发SDK,搞音视频开发基本都需要用到它。_c++音视频开发

随便推点

EV/HEV中的牵引逆变器驱动优化-程序员宅基地

文章浏览阅读1.6k次,点赞42次,收藏35次。什么是牵引逆变器?从本质上讲,牵引逆变器是电动汽车动力系统中的一个子系统,它从电池中获取高电压,并将其转换为交流电压——因此被称为逆变器——并基本上为电机供电。它控制电机速度和扭矩,直接影响效率和可靠性,这正成为牵引逆变器设计的设计挑战。此图片来源于网络如今的电动汽车至少有一个牵引逆变器。有些型号实际上不止一个。一个在前轴上,一个在后轴上。甚至一些高端车型实际上每个车轮都有一个牵引逆变器。因此,效率和可靠性非常重要。所以,从逆变器和电机控制的市场趋势来看——从技术趋势来看,我们看到了功率水平的提高。

Ubuntu之apt命令_ubuntu18.04 atp命令使用技巧-程序员宅基地

文章浏览阅读134次。简介apt-cache和apt-get是apt包的管理工具,他们根据/etc/apt/sources.list里的软件源地址列表搜索目标软件、并通过维护本地软件包列表来安装和卸载软件。查看本机是否安装软件:whereis package_name 或者which package_name1.搜索软件sudo apt-cache search pa..._ubuntu18.04 atp命令使用技巧

查询Dynamics 365的Audit History_dynamics 审核历史记录如何查询-程序员宅基地

文章浏览阅读150次。【代码】查询Dynamics 365的Audit History。_dynamics 审核历史记录如何查询

python yield函数的用法-程序员宅基地

文章浏览阅读1.3w次,点赞15次,收藏66次。什么是yield函数?yield函数是python里面的关键字,带有yield的函数相当于一个生成器generator.当你使用一个yield的时候,对应的函数就是一个生成器在python里面类似于return函数,他们主要的区别就是:遇到return会直接返回值,不会执行接下来的语句.但是yield并不是,在本次迭代返回之后,yield函数在下一次迭代时,从上一次迭代遇到的yield后面的代码(下一行)开始执行下面是案例分析:案例一:def gen_generator(): yiel_yield函数

【QT笔记】QFile读文件问题_qfileread后指针会移动吗-程序员宅基地

文章浏览阅读917次。如果不用seek(0)的话,默认是自己会把读取文件的指针后移的,不用手动后移;_qfileread后指针会移动吗

dw8051基本测试示例_dw8051 part1-程序员宅基地

文章浏览阅读2.5k次。整理了网上一份简单的dw8051测试示例,共享到云盘:http://pan.baidu.com/s/1bnu9lZT1.目录如下:---dut ---rtl:DW8051的core文件 ---model:ROM和RAM的model文件---testbench ---rtl.f:filelist文件 ---test_top.v:仿真的top_dw8051 part1