Linux存储运维稳定关键在变更可追溯、容量有余量、故障能自察;需排查df/du差异、合理配置挂载选项、优化rsync、用WWID绑定设备、监控LVM快照并规范操作。
Linux存储运维没有银弹,长期稳定运行的关键不在“配置多炫酷”,而在“变更可追溯、容量有余量、故障能自察”。以下是从百台生产服务器、五年无重大存储事故中沉淀出的实操要点。
常见现象:df -h 显示根分区 98% 满,但 du -sh /* 2>/dev/null | sort -hr | head -5 加起来才 60GB——差值不是小数点误差,而是真实磁盘空间被“吃掉”了。
lsof +L1 查找处于 deleted 状态的句柄,重启对应服务或 kill 进程释放空间noatime 虽能减少 IO,但某些监控脚本依赖 atime 判断文件活跃度,误判会导致归档逻辑失效;生产环境建议用 relatime 替代inode64 挂载选项后,xfs_info 显示的 agcount 可能影响大目录 ls 性能,不升级内核前勿在老硬件上盲目开启这个阶段本质是客户端扫描源目录生成文件列表,卡住说明 I/O 或内存受限,而非网络慢。
--files-from= 预先生成路径列表(用 find /src -type f -print0 | sort -z > list.txt),跳过递归扫描,提速 3–5 倍-a 中的 -o(属主)和 -g(属组):若目标端 UID/GID 映射不一致,会反复 stat 失败并重试,改用 -rltDv --chmod=Du=rwx,Dgo=rx,Fu=rw,Fgo=r
--max-alloc=1G 限制 rsync 自身内存用量,否则可能触发 OOM Killer 杀掉其他关键进程依赖 /dev/sdb 这类内核分配名做 LVM PV 或数据库裸设备,机器重启后设备名漂移是高频事故源头。
SUBSYSTEM=="block", KERNEL=="sd*", PROGRAM="/bin/bash -c 'echo $kernel'" 这类不可靠匹配;应查 scsi_id --whitelisted --replace-whitespace --device=/dev/sda
得到 WWID(如 360050763008000000000000000000001)SYMLINK+="disk-db-primary" 而非 NAME="disk-db-primary"(后者已被废弃且无效)/dev/disk/by-id/wwn-0x 是否存在,并在 /etc/fstab 中直接引用该路径,避免任何中间层解析快照逻辑卷(snapshot LV)本身不存数据,但其 COW(copy-on-write)元数据区会随原 LV 修改增长。一旦耗尽所在 VG 的剩余 PE,整个 VG 冻结,连 lvremove 都执行不了。
lvs -o lv_name,origin,snap_percent,vg_free,尤其关注 snap_percent 超过 70% 的快照lvcreate -s -L 5G -n snap_web /dev/vg0/www,绝不依赖默认(通常是原 LV 的 100%,极易误判)lvconvert --merge 要求原 LV 未激活,合并前需停服务或卸载文件系统真正难的不是命令怎么敲,而是每次 lvextend 前是否确认过文件系统支持在线扩容,每次 umount 前是否验证过 NFS 客户端已全部断开,每次 dd if=/dev/zero 清盘前是否 blkid 核对过设备号——这些动作没有日志自动记录,全靠人盯住。