找回密码
立即注册
发新帖

330

积分

0

好友

83

主题
发表于 2025-12-26 17:04:33 | 查看: 8| 回复: 0
1.1 资料完整性,准确性
  • 无论使用 Excel、Word、运维工具、运维平台、PPT、Visio 等,各种相关文档的完整性和准确性非常重要。
  • 机房平面图、机柜面板图、机房及机柜具体位置。
  • 主机名称、硬件型号、IP、用户、密码、机柜位置、设备序列号、设备上线时间、初验时间、终验时间、合同号、维保合同号、过保时间、运行应用程序。
  • 网络设备端口表。
  • 各种 SSH、URL、客户端、Oracle、应用程序等的登录用户与密码。
  • IP 地址包括:固定 IP、浮动 IP、内网 IP、外网 IP。
  • 组网图,需标明 IP、网内、网外信息。
  • 逻辑图、流程图。
  • 各种软硬件版本号,如防火墙、交换机、存储、操作系统、数据库、各类应用。
  • 变更记录表。包含原版本、目标版本、解决的主要问题、操作人、时间。
  • 整个系统的启动、停止、查看状态命令,包括所有软硬件的启动、停止、查看。
  • 周边网元信息,包括账号、密码、接口方式、协议、IP、端口、服务端、客户端、联系厂家、人员、电话、邮件。
  • 应急方案(针对系统各种应急情况、故障情况的应对措施)。
  • 联系人表,包括客户、厂家维护人员、维护主管、市场人员、第三方厂家人员、各公司 400 联系方式,以及相关人员姓名、电话、邮箱。
  • 产品培训文档。
  • 产品文档:安装、调试、操作、维护、故障处理、参考、专题、术语等。

1.2 监控
  • 监控范围包括主机、网络、存储、操作系统、数据库、应用。
  • 支持客户端显示告警。
  • 告警分级别,重要级别应支持短信、邮件、微信告警。
  • 告警应做到及时、准确。
  • 可使用统一监控平台,也可自定义部分脚本。

思考:
  • 互联网云平台可根据监控问题实现故障自愈与业务扩缩容。
  • 应尽量减少误告警。

1.3 巡检
  • 通过运维平台、维护工具、脚本实现自动定时巡检,如每天、每周、每月一次。
  • 可对主机、网络、存储、应用、数据库进行巡检。
  • 每天或每周查看一次巡检结果。
  • 发现问题应尽快处理。

思考:
  • 巡检如同个人体检,是最重要的维护手段之一,必须实现脚本、工具、平台自动化。

1.4 备份
  • 实现自动本地定时备份,自动上传至备份服务器(建议配备存储),并自动删除本地超过设定天数的文件。
  • 备份服务器应具有目录结构,备份各节点配置、数据库、网络配置等,并自动定期删除旧文件。
  • 备份系统软件、平台安装软件、文档资料、产品手册等。
  • 尽可能配备两台备份服务器,异地更佳。定期执行备份。
  • 建议个人使用移动硬盘进行额外备份。
  • 通过脚本、工具或运维平台实现自动备份。

其它注意事项:
  • 备份是最重要的维护工作之一,无论是传统 IT 备份还是云平台镜像,都是故障时恢复业务的关键手段。

1.5 双机、集群
  • 所有重要设备应实现双机或集群部署,包括防火墙、交换机、负载均衡器、数据库、核心业务等;网络核心设备应分布在两个相邻机柜,配备双电源或四电源。
  • 支持多地多机房部署。
  • 核心业务可多套同时对外服务。

思考:
  • 在云计算中,若规模较大,也应实现多地部署。

1.6 冗余
  • 若所有设备集中于单一机房或单一网络设备下,建议为核心部件建立冗余系统。
  • 冗余系统可为单机或多机。
  • 核心业务、数据库等可建立冗余系统。
  • 当核心业务或数据库发生故障且无法恢复时,可通过冗余系统修改 IP 并启动服务。

思考:
  • 在云计算中,冗余更容易实现,可通过虚拟机或容器镜像完成。
  • 重要系统可能需建立包含数十至数百台设备的完整冗余系统。

1.7 跳转机、堡垒机
  • 尽量配备两台跳转机或堡垒机。
  • 各类应用客户端应安装在堡垒机上,如运维平台客户端或页面、SecureCRT、Xmanager、PL/SQL、巡检工具、FTP、浏览器、存储及网络设备维护工具等。
  • 采用 VPN、短信验证或其他安全方式登录堡垒机,确保认证安全、难以破解。
  • 对于 Windows 7 或 Windows Server 2008,可在外部防火墙和主机防火墙开启防护,仅开放必要端口,并通过外部防火墙进行端口映射。
  • 设备较少时(如 8-10 台),可使用 SecureCRT 管理;设备较多时(如数百上千台),应使用运维工具或运维平台进行管理。

1.8 安全加固
  • 升级应用程序、安装补丁。
  • 修改配置以增强安全。
  • 采取规避措施。
  • 所有节点的维护端口(如 SSH 22、FTP 21、数据库 1521、Web 80 等)应仅对堡垒机或运维平台开放,禁止其他机器(包括局域网内其他机器)访问。
  • 通过 Oracle 的 sqlnet.ora、主机的 hosts.allow、NTP 的 ntp.conf 等文件限制 IP 访问。
  • 使用 iptables 进行防护。
  • 对漏洞端口通过本地 iptables 封堵或停止相关服务。

思考:
  • 安全加固可能引发许多问题、故障甚至事故。
  • 安全是平衡的结果,无法做到全面加固而不影响维护。
  • 系统安全取决于最薄弱环节,需在各方面取得平衡。
  • 尽量在网络层、传输层进行限制,而非仅在应用层应对攻击。
  • 硬件防火墙、交换机流策略或 ACL、主机 iptables、应用配置及认证机制均为安全防护手段。

1.9 过保或停止服务设备统计
  • 统计已过维保期、客户未购买服务或原厂不再提供维保的硬件和软件。
  • 涵盖主机、网络、存储、操作系统、中间件、数据库、应用等。
  • 及时告知客户。
  • 推动客户购买维保、更换设备或升级软硬件。
  • 提前准备应急方案。

1.10 系统隐患排查
  • 排查硬件隐患(如单点故障)、软件隐患(如无后续版本、License 到期)、无人维护、无厂家支持等问题。
  • 及时告知客户。
  • 推动问题解决与设备更换。

1.11 用户密码
  • 从维护效率考虑,建议每个系统(涵盖几十至百余台设备)仅设置三至四种密码,避免密码过于复杂多样。
  • 堡垒机密码应定期修改;内部应用密码是否定期更换视维护规定而定。
  • 系统内密码种类过多会显著降低维护效率,即使使用运维平台也仅能部分改善。
  • 在重大故障、紧急问题定位时,繁杂的密码将极大增加处理难度。
  • 尽量通过运维平台或工具统一管理、修改密码。

1.12 信息收集
  • 主机信息:主机名、CPU、内存、磁盘、网卡、挂载点、VG、LV、双机状态、双机脚本、启动脚本、路由、路由文件、after.local、boot.local、rpm -qa 输出、内置硬盘是否故障等。
  • 网络信息:收集 disp diag 等信息。
  • 存储信息:通过存储工具收集存储配置信息。
  • 应用软件配置。
  • 这些信息在故障处理、重启、设备更换时对问题定位有重要帮助。

1.13 启动停止命令表
  • 维护人员可能负责多个系统,在机房停电或人员变动时,需有明确的启动、停止、查看命令表。
  • 整个系统加电启动应有明确顺序:网络设备 → 存储 → 主机。
  • 记录应用启动命令、查看命令。
  • 记录所有应用停止命令。
  • 明确系统停止顺序。

1.14 及时刷新维护资料
  • 更新日常操作手册,记录最常见操作。
  • 及时更新各种系统信息,如用户密码等。
  • 及时更新应急方案。
  • 及时总结案例经验。


睡觉是向死亡的借贷,睡得越多越长,那么还款期也越长。
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|企业IT论坛

GMT+8, 2026-2-4 11:36 , Processed in 0.097550 second(s), 31 queries .

快速回复 返回顶部 返回列表