高可用与高可靠系统设计

GGBOND2025/11/5大约 6 分钟

高可用与高可靠系统设计

一、引言

在当今数字化时代，系统的稳定性与可靠性已成为衡量软件质量的核心指标。无论是电商、金融、社交还是 SaaS 平台，短暂宕机都可能造成巨额经济损失与品牌信誉受损。

例如：

亚马逊：每 1 秒 downtime ≈ $10 万损失
Netflix：每年宕机损失达数千万美元

因此，高可用（High Availability）与高可靠（High Reliability）成为现代软件架构设计的核心目标。

二、核心概念解析

2.1 高可用性（High Availability）

高可用性指系统在故障或异常情况下仍能持续提供服务的能力。常用“几个 9”表示系统可用率：

可用性等级	年度停机时间	说明
90% (1个9)	36.5 天	基本可用
99% (2个9)	87.6 小时	较好可用
99.9% (3个9)	8.76 小时	良好可用
99.99% (4个9)	52.56 分钟	高可用
99.999% (5个9)	5.26 分钟	极高可用

2.2 高可靠性（High Reliability）

高可靠性关注系统执行任务的正确性与稳定性，衡量系统能否在特定条件下持续、无误地运行。

2.3 区别与联系

对比项	高可用	高可靠
关注点	服务是否持续可用	服务是否正确可靠
目标	减少停机时间	提高任务成功率
技术手段	冗余、故障转移、健康检查	校验、事务、容错机制

三、设计原则

3.1 高可用设计原则

冗余设计（Redundancy）
通过多副本与多实例消除单点故障（SPOF）。

故障隔离（Fault Isolation）
系统划分为多个独立“故障域”，避免单点问题蔓延全局。

快速恢复（Fast Recovery）
自动检测故障并执行自动化恢复（Self-Healing）。

优雅降级（Graceful Degradation）
在资源不足或部分功能异常时，保证核心功能仍可用。

3.2 高可靠设计原则

原则	说明
容错设计	在局部故障下继续提供正确结果
数据一致性	异常场景下保持数据正确
可预测性	系统行为应可复现、可预期
可验证性	提供日志与监控，方便验证与回溯

四、关键技术实现

4.1 负载均衡（Load Balancing）

实现服务请求分发、消除单点瓶颈、提升系统吞吐量。

四层负载均衡（TCP/UDP）

# Nginx 四层负载均衡
stream {
    upstream mysql_backend {
        server 192.168.1.10:3306;
        server 192.168.1.11:3306;
    }
    server {
        listen 3306;
        proxy_pass mysql_backend;
    }
}

七层负载均衡（HTTP/HTTPS）

# Nginx 七层负载均衡
upstream web_backend {
    server 192.168.1.10:8080 weight=3;
    server 192.168.1.11:8080 weight=2;
}
server {
    listen 80;
    location / {
        proxy_pass http://web_backend;
        proxy_set_header Host $host;
    }
}

4.2 数据库高可用架构

主从复制（读写分离）

# 主库配置
[mysqld]
server-id=1
log-bin=mysql-bin

# 从库配置
[mysqld]
server-id=2
relay-log=relay-bin
read_only=1

集群与自动故障转移

# MySQL Group Replication 示例
[mysqld]
plugin_load_add='group_replication.so'
group_replication_group_name="group-uuid"
group_replication_local_address="192.168.1.10:33061"
group_replication_group_seeds="192.168.1.10:33061,192.168.1.11:33061"

4.3 缓存高可用设计

Redis Cluster

# Redis 集群配置
port 7000
cluster-enabled yes
cluster-config-file nodes.conf
appendonly yes

多级缓存（Local + Distributed）

public Object get(String key) {
    Object value = localCache.getIfPresent(key);
    if (value != null) return value;

    value = redisTemplate.opsForValue().get(key);
    if (value != null) localCache.put(key, value);
    return value;
}

4.4 微服务高可用设计

服务注册与发现（Consul）

service:
  name: user-service
  port: 8080
  check:
    http: http://localhost:8080/health
    interval: 10s

熔断与降级（Hystrix）

@HystrixCommand(fallbackMethod = "fallbackUser")
public User getUser(Long id) {
    return restTemplate.getForObject("http://user-service/" + id, User.class);
}
public User fallbackUser(Long id) {
    return new User(id, "默认用户", "[email protected]");
}

五、度量标准与监控体系

指标类别	指标	说明	全称	计算方法
可用性	可用率	衡量系统运行稳定性	可用性（Availability）	(系统可用时间 / 总时间) × 100%
可用性	MTBF	衡量系统运行稳定性	平均无故障时间（Mean Time Between Failures）	总运行时间 / 故障次数
可用性	MTTR	衡量系统运行稳定性	平均修复时间（Mean Time To Repair）	总修复时间 / 故障次数
可靠性	成功率	衡量任务完成正确性	成功率（Success Rate）	(成功请求数 / 总请求数) × 100%
可靠性	故障率	衡量任务完成正确性	故障率（Failure Rate）	(故障次数 / 总运行时间) × 100%
性能	响应时间	衡量系统处理能力	响应时间（Response Time）	请求发出到收到响应的时间间隔
性能	吞吐量	衡量系统处理能力	吞吐量（Throughput）	单位时间内处理的请求数量