1.
准备与收集信息(必做)
操作步骤:A. 登录VPS,记录发行版与内核(cat /etc/os-release && uname -r)。B. 记录网络接口名与IP(ip addr show)。C. 记录默认路由与路由表(ip route show)。D. 收集当前连接测试目标(例如中国/俄罗斯/欧洲的目标IP或域名)。E. 保留时间戳,便于与运营商比对(date)。
2.
基础连通性检测(Ping/Traceroute)
操作步骤:A. 先用 ping 测试延迟与丢包:ping -c 10 目标IP。B. 用带时间统计的 traceroute:traceroute -n 目标IP 或 mtr -r -c 100 目标IP,保存输出(mtr > mtr.txt)。C. Windows 客户端使用 tracert 与 pathping 对比。
3.
丢包与抖动深入检测(MTR & IPerf)
操作步骤:A. 长时间运行 mtr:mtr -rwzbc 100 目标IP,观察丢包在哪一跳开始。B. 用 iperf3 测试吞吐:在一端启动 iperf3 -s,在另一端 iperf3 -c server_ip -P 4 -t 60。C. 若单向问题,使用 iperf3 的 -R 参数测试反向带宽。
4.
路由与BGP相关问题检查
操作步骤:A. 查看本地路由:ip route show。B. 用 bgp.he.net / RIPE Looking Glass 查询你的IP前缀的公告路径,确认是否通过CN2出口。C. 若怀疑被黑洞或不在主干路由,记录AS路径截图并联系提供商。
5.
MTU 与分片问题排查
操作步骤:A. 用 ping 测试MTU:ping -M do -s 1472 目标IP(Linux)。B. 若报错逐步减小报文长度直到通畅,计算实际MTU为payload+28。C. 临时调整:ip link set dev eth0 mtu 1400;长期修改网络配置文件并重启网络服务。
6.
防火墙与端口阻断检查
操作步骤:A. 检查服务器本地防火墙:iptables -L -n -v 或 nft list ruleset。B. 检查 cloud provider 防火墙或控制面板安全组是否开放目标端口(SSH/HTTP/应用端口)。C. 用 nmap -Pn -p 端口 目标IP 从外部测试端口连通性。
7.
TCP 连接与重传分析(ss/tcpdump)
操作步骤:A. 查看活动连接:ss -tunap 或 netstat -anp,定位异常大量重传。B. 抓包:tcpdump -i eth0 host 目标IP and port 端口 -w dump.pcap,使用 Wireshark/CloudShark 分析重传、握手超时。C. 标注时间段并记录重现步骤。
8.
网卡与链路状态诊断(ethtool)
操作步骤:A. 检查网卡错误:ethtool -S eth0 | grep -E 'err|drop|rx|tx'。B. 查看协商速度/双工:ethtool eth0。C. 若发现硬件错误,重插/重启 VM、联系机房更换物理端口或迁移宿主。
9.
应用层问题排查(服务日志与性能)
操作步骤:A. 检查应用日志(/var/log/* 或 systemctl status 服务名)。B. 测试本地 loopback 与绑定端口:curl -v http://127.0.0.1:端口。C. 若应用响应慢,查看 CPU/内存/IO:top、iotop、dstat 并定位瓶颈。
10.
DNS 与域名解析问题排查
操作步骤:A. 使用 dig +trace 域名 检查解析链路(dig +trace domain.com)。B. 对比 /etc/resolv.conf 与公共 DNS(8.8.8.8/1.1.1.1)解析结果。C. 若 DNS 导致跨国解析不稳定,考虑使用国内/国际 CDN 或设置多线解析。
11.
临时缓解与长期方案建议
操作步骤:A. 临时:调整 MTU、重启网络服务(systemctl restart networking/network),或迁移到同机房其他宿主。B. 长期:要求供应商做 BGP 优化、确认 CN2 路径、申请更优的出口或专线连接。C. 记录 SLA 和变更票据以备后续追责。
12.
与供应商沟通模板与证据准备
操作步骤:A. 准备关键证据:mtr/traceroute 输出、tcpdump pcap、iperf 报告、ethtool 状态、时间戳。B. 在工单中说明影响范围、重现步骤与期望(请提供路由调整/线路切换/端口白名单)。C. 要求提供商在其侧运行 traceroute/mtr 并返回日志。
13.
常见案例与快速处理示例
操作步骤:案例A(高丢包到某跳):定位到交换机,调整MTU并重启接口;若仍高丢包,提交机房更换端口。案例B(到俄罗斯延迟高):确认是否走CN2或公共互联网,若走公共链路可要求切换出口或申请CN2直连。
14.
问:如何判断问题在本地VPS还是上游运营商?
A: 首先用 mtr 确认丢包/延迟在哪一跳开始;如果在第一跳或本地网卡上就定位于VPS或宿主;如果从第二跳或更远开始,则更可能是上游或机房链路问题。提供 mtr/traceroute 与抓包证据给运营商,要求其侧比对。
15.
问:如果运营商说线路正常我仍有丢包怎么办?
A: 按步骤提供证据:长时段 mtr,tcpdump 的 pcap(标注时间)和 iperf3 结果;同时在不同时间段和不同出口 IP(如切换国内/海外测试点)复测。如果证据显示链路在其网络内有问题,坚持要求技术定位并升级工单。
16.
问:如何在短时间内临时优化俄罗斯CN2线路的稳定性?
A: 可先调整MTU至1400或更小避免分片、开启 net.ipv4.tcp_mtu_probing=1、使用多线程 iperf 测试并调整并发、临时切换 DNS/CDN、或把关键流量走备用出口/负载均衡。若有权限,考虑路由优先级调整或多线 BGP。
来源:实战问答解答俄罗斯cn2 vps性欧洲常见故障与解决流程