Skip to content

运维

生产服务器要检查时间戳是否一致

检查生产服务器的时间戳一致性是一项非常重要的工作。时间不同步会导致一系列严重问题,例如:

日志分析困难:排查故障时,不同服务器的日志时间对不上,无法还原事件发生的真实顺序。
数据库主从同步异常:特别是使用基于时间点的复制时,时间差会导致数据不一致甚至复制中断。
分布式事务问题:在微服务或分布式系统中,事务依赖准确的时间顺序,时间不一致可能造成数据错乱。
证书验证失败:SSL/TLS证书、JWT Token等都有有效期,如果服务器时间不准,会导致验证失败,服务不可用。
定时任务错乱:分布式环境下的定时任务可能无法按预期执行。

生产数据冷备份策略

如果去了宇光现场,就顺手连着他们的内网,把他生产的所有数据都备份出来,放在我们的服务器上一份。以防止服务器被攻击,硬盘所有文件被黑客锁定,勒索等问题。 包括但不限于:

  1. Mysql数据表。
  2. 使用系统上传进来的各类文件。

上会的生产也要同样如此、后续其他的生产也同样如此。防范一手总归是好的。

定期检查服务器,特别是生产服务器

每两周至少1次,必须要做,保障生产服务器稳定运行,包括但不限于:

  1. 软件生产日志,排查报错,及时修复。一条错误就代表着一个客户的操作是失败的。
  2. 服务器SSH日志,排查是否有暴力破解登录等情况。
  3. 排查内存占用情况,不要爆满。那个占用内存大,要排查问题。
  4. 排查硬盘占用情况,同样不要爆满,不然离线资源无法保存。
  5. 排查每天凌晨自动备份的策略,是否正常、生效。
  6. 根据实际场景查看服务器连接数,连接数过大就证明被恶意攻击。可以考虑购买阿里云的DDOS防御手段。
  7. 排查服务器的cpu温度、硬盘温度、固态硬盘已使用寿命、风扇转速等,温度过高会导致服务器down掉,硬件损坏,中断生产。及时排查实体服务器的环境情况。
  8. 每年要更换掉所有的密码,特别是服务器ssh链接密码。密码千万不要使用弱口令。被暴力解码后安装挖矿应用、锁定文件勒索比特币等情况我真实的遇到过。密码可以采用现在用的随机的32位的UUID,强度拉满。被破解概率无线接近于0。
  9. 定期更新服务器安全补丁,服务器提示重启之后,就要找个合适的时间重启。有些严重漏洞不予理睬会造成服务器被攻击。