前言 在分布式系统中,存储是一个核心问题。当数据量从 GB 级增长到 TB、PB 级,单机存储已经无法满足需求,我们需要一个高可用、高扩展、高性能 的分布式存储方案。
Ceph 是目前最流行的开源分布式存储系统之一,被 Red Hat、Canonical 等公司广泛采用,也是 OpenStack、Kubernetes 等云平台的首选存储后端。
本文将从问题背景、架构设计、部署实践、竞品对比 四个维度,深入解析 Ceph。
一、Ceph 解决了什么问题? 1.1 传统存储的痛点
问题
说明
单点故障
传统 NAS/SAN 存储,控制器故障导致服务不可用
扩展性差
存储容量受限于单机硬件,扩容需要停机迁移
成本高昂
商业存储设备价格昂贵,license 费用持续支出
数据孤岛
不同业务使用不同存储系统,数据无法互通
运维复杂
存储管理需要专业团队,故障恢复依赖厂商支持
1.2 Ceph 的核心价值 1 Ceph = 统一存储 + 无中心架构 + 自动愈合 + 弹性扩展
Ceph 提供三种存储接口:
存储类型
接口
典型场景
对象存储 (RADOS Gateway)
S3/Swift 兼容 API
图片、视频、日志、备份
块存储 (RBD)
内核模块 / QEMU
虚拟机磁盘、数据库存储
文件系统 (CephFS)
POSIX 兼容
共享文件系统、HPC
核心优势:
✅ 无单点故障 :去中心化架构,任意节点故障不影响服务
✅ 线性扩展 :添加节点即可扩展容量和性能
✅ 自动愈合 :数据副本自动修复,无需人工干预
✅ 统一存储 :一套系统支持对象、块、文件三种接口
✅ 开源免费 :社区活跃,无 license 费用
二、Ceph 怎么解决这些问题? 2.1 核心架构 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 ┌─────────────────────────────────────────────────────────────┐ │ Client Layer │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ RBD │ │ CephFS │ │ RGW │ │ │ │ (块存储) │ │ (文件系统) │ │ (对象存储) │ │ │ └─────────────┘ └─────────────┘ └─────────────┘ │ └─────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────┐ │ RADOS Layer │ │ (Reliable Autonomic Distributed Object Store) │ │ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ CRUSH 算法 │ │ │ │ (数据分布、故障域、副本放置) │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │ │ OSD │ │ OSD │ │ OSD │ │ OSD │ │ │ │ (磁盘) │ │ (磁盘) │ │ (磁盘) │ │ (磁盘) │ │ │ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │ └─────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────┐ │ Monitor Layer │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │ │ MON-1 │ │ MON-2 │ │ MON-3 │ │ │ │ (仲裁) │ │ (仲裁) │ │ (仲裁) │ │ │ └─────────┘ └─────────┘ └─────────┘ │ └─────────────────────────────────────────────────────────────┘
2.2 核心组件
组件
说明
部署建议
OSD (Object Storage Daemon)
管理单块磁盘,处理数据读写、复制、恢复
每块磁盘一个 OSD,建议 SSD + HDD 混合
MON (Monitor)
维护集群状态、OSD Map、PG Map
3-5 个节点,奇数个,独立部署
MDS (Metadata Server)
管理 CephFS 元数据
2+ 个节点,Active/Standby 模式
RGW (RADOS Gateway)
提供 S3/Swift 兼容 API
2+ 个节点,负载均衡
MGR (Manager)
提供集群监控、管理接口
2 个节点,Active/Standby 模式
2.3 CRUSH 算法:数据分布的核心 CRUSH (Controlled Replication Under Scalable Hashing) 是 Ceph 的核心算法,解决数据如何分布在集群中。
1 Object → HASH → PG (Placement Group ) → CRUSH → OSD
CRUSH 的核心优势:
去中心化 :不需要中心化的元数据服务器
确定性 :相同输入总是映射到相同位置
可配置 :支持故障域(机架、机房、数据中心)
动态调整 :添加/删除节点时,只迁移部分数据
故障域示例:
1 Datacenter → Room → Row → Rack → Host → OSD
当配置了机架级故障域时,数据副本会分布在不同机架,即使整个机架故障,数据仍然可用。
2.4 数据一致性:Peering 机制 Ceph 使用 Peering 机制保证数据一致性:
1 2 3 4 5 6 7 Primary OSD ←→ Replica OSDs │ ├── 1. 选举 Primary OSD ├── 2. 比较 OSD 日志 ├── 3. 发现差异对象 ├── 4. 修复不一致数据 └── 5. 标记 PG 为 active
PG 状态:
creating:PG 正在创建
active:PG 可用,可以处理读写
clean:所有副本一致
degraded:部分副本缺失,正在恢复
recovering:正在恢复数据
backfill:正在后台迁移数据
三、Ceph 怎么使用? 3.1 部署架构 推荐的最小生产环境:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 ┌─────────────────────────────────────────────────────────┐ │ Ceph Cluster │ │ │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ Node -1 │ │ Node -2 │ │ Node -3 │ │ │ │ │ │ │ │ │ │ │ │ MON + MGR │ │ MON + MGR │ │ MON + MGR │ │ │ │ OSD x3 │ │ OSD x3 │ │ OSD x3 │ │ │ │ MDS │ │ MDS │ │ MDS │ │ │ │ RGW │ │ RGW │ │ RGW │ │ │ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ │ 总计:3 MON, 3 MGR, 9 OSD, 3 MDS, 3 RGW │ └─────────────────────────────────────────────────────────┘
硬件配置建议:
角色
CPU
内存
磁盘
网络
MON/MGR
4 核
8GB
100GB SSD
1GbE
OSD
4 核/每块磁盘
4GB/每块磁盘
数据盘 HDD + WAL SSD
10GbE
MDS
8 核
16GB
200GB SSD
10GbE
RGW
8 核
16GB
100GB SSD
10GbE
3.2 使用 cephadm 部署(推荐) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 curl --silent --remote-name --location https://github.com/ceph/ceph/raw/quincy/src/cephadm/cephadmchmod +x cephadmsudo ./cephadm installsudo cephadm bootstrap --mon-ip 192.168.1.10 --cluster-network 192.168.2.0/24sudo ceph orch host add node2 192.168.1.11sudo ceph orch host add node3 192.168.1.12sudo ceph orch apply osd --all-available-devicessudo ceph -ssudo ceph osd treesudo ceph pg stat
3.3 使用 RBD 块存储 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 sudo ceph osd pool create rbd-pool 128sudo rbd pool init rbd-poolsudo rbd create rbd-pool/vm-disk --size 102400 sudo rbd map rbd-pool/vm-disksudo mkfs.ext4 /dev/rbd0sudo mount /dev/rbd0 /mnt/rbdsudo rbd ls rbd-poolsudo rbd info rbd-pool/vm-disk
3.4 使用 RADOS Gateway (S3) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 sudo radosgw-admin user create --uid="testuser" --display-name="Test User" { "user_id" : "testuser" , "display_name" : "Test User" , "keys" : [ { "user" : "testuser" , "access_key" : "XXXXXXXXXXXXXXXXXXXX" , "secret_key" : "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX" } ] } aws configure set aws_access_key_id "XXXXXXXXXXXXXXXXXXXX" aws configure set aws_secret_access_key "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX" aws configure set default.region "default" aws --endpoint-url http://rgw-node:8080 s3 mb s3://my-bucket aws --endpoint-url http://rgw-node:8080 s3 cp file.txt s3://my-bucket/ aws --endpoint-url http://rgw-node:8080 s3 ls s3://my-bucket/
3.5 使用 CephFS 文件系统 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 sudo ceph osd pool create cephfs-data 128sudo ceph osd pool create cephfs-metadata 128sudo ceph fs new cephfs cephfs-metadata cephfs-datasudo apt install ceph-fusesudo ceph-fuse -m 192.168.1.10:6789 /mnt/cephfssudo mount -t ceph 192.168.1.10:6789:/ /mnt/cephfs -o name=admin,secretfile=/etc/ceph/admin.secret
3.6 Kubernetes 集成 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: ceph-rbd provisioner: rbd.csi.ceph.com parameters: clusterID: <cluster-id> pool: rbd-pool imageFeatures: layering csi.storage.k8s.io/provisioner-secret-name: csi-rbd-secret csi.storage.k8s.io/provisioner-secret-namespace: ceph-csi csi.storage.k8s.io/node-stage-secret-name: csi-rbd-secret csi.storage.k8s.io/node-stage-secret-namespace: ceph-csi reclaimPolicy: Delete allowVolumeExpansion: true mountOptions: - discard
1 2 3 4 5 6 7 8 9 10 11 12 apiVersion: v1 kind: PersistentVolumeClaim metadata: name: ceph-rbd-pvc spec: accessModes: - ReadWriteOnce resources: requests: storage: 10Gi storageClassName: ceph-rbd
四、竞品分析 4.1 分布式存储系统对比
特性
Ceph
MinIO
GlusterFS
HDFS
SeaweedFS
存储类型
对象/块/文件
对象
文件
文件
对象
协议
S3/Swift/RBD/CephFS
S3
NFS/Gluster
HDFS API
HTTP API
元数据
去中心化 (CRUSH)
去中心化
去中心化
中心化 (NameNode)
中心化 (Master)
数据一致性
强一致
强一致
最终一致
强一致
最终一致
小文件优化
⭐⭐
⭐⭐⭐
⭐⭐
⭐
⭐⭐⭐⭐
大文件优化
⭐⭐⭐⭐
⭐⭐⭐⭐⭐
⭐⭐⭐
⭐⭐⭐⭐⭐
⭐⭐⭐
部署复杂度
高
低
中
高
低
运维复杂度
高
低
中
高
低
社区活跃度
⭐⭐⭐⭐⭐
⭐⭐⭐⭐
⭐⭐⭐
⭐⭐⭐⭐
⭐⭐⭐
生产案例
Red Hat, Canonical
云原生
企业 NAS
Hadoop 生态
小规模部署
4.2 详细对比分析 Ceph vs MinIO
维度
Ceph
MinIO
定位
统一存储平台
专注对象存储
优势
支持多种存储接口,功能全面
轻量级,部署简单,S3 兼容性好
劣势
部署复杂,运维成本高
只支持对象存储,无块/文件支持
适用场景
需要统一存储的企业级场景
纯对象存储场景,云原生环境
选型建议:
如果只需要 S3 对象存储 → MinIO
如果需要块存储/文件系统 → Ceph
如果运维能力有限 → MinIO
Ceph vs GlusterFS
维度
Ceph
GlusterFS
定位
统一存储平台
分布式文件系统
优势
功能全面,强一致性
部署简单,POSIX 兼容性好
劣势
部署复杂
无块存储/对象存储支持
元数据
去中心化
去中心化
适用场景
需要多种存储接口
纯文件共享场景
选型建议:
如果需要 NFS 替代方案 → GlusterFS
如果需要块存储/对象存储 → Ceph
如果追求简单易用 → GlusterFS
Ceph vs HDFS
维度
Ceph
HDFS
定位
通用存储平台
大数据存储
优势
支持多种接口,随机读写
大文件顺序读写性能高
劣势
小文件性能差
只支持文件,单点故障 (NameNode)
适用场景
通用存储
Hadoop/Spark 生态
选型建议:
如果是 Hadoop/Spark 生态 → HDFS
如果需要通用存储 → Ceph
如果需要对象存储 → Ceph
4.3 选型决策树 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 你的存储需求是什么? │ ├── 需要对象存储 (S3 ) │ ├── 只需要对象存储 → MinIO │ └── 还需要块/文件 → Ceph │ ├── 需要块存储 (VM/数据库) │ └── Ceph (RBD) │ ├── 需要文件系统 (共享存储) │ ├── NFS 替代 → GlusterFS │ └── 高性能需求 → CephFS │ └── 需要大数据存储 ├── Hadoop/Spark 生态 → HDFS └── 通用存储 → Ceph
五、生产环境最佳实践 5.1 性能优化 1. 分层存储 (Tiering)
1 SSD Pool (热数据) ←→ Cache Tier ←→ HDD Pool (冷数据)
1 2 3 4 5 6 7 8 9 10 11 12 13 sudo ceph osd pool create cache-pool 128sudo ceph osd pool create cold-pool 128sudo ceph tier add cold-pool cache-poolsudo ceph tier cache-mode cache-pool writebacksudo ceph osd pool set cache-pool hit_set_type bloomsudo ceph osd pool set cache-pool hit_set_count 1sudo ceph osd pool set cache-pool hit_set_period 3600sudo ceph osd pool set cache-pool target_max_bytes 100000000000
2. 纠删码 (Erasure Coding)
纠删码可以用更少的存储空间提供相同的数据可靠性。
1 2 3 4 5 6 7 sudo ceph osd pool create ec-pool 128 erasuresudo ceph osd erasure-code-profile set my-profile k=4 m=2 crush-failure-domain=racksudo ceph osd pool create ec-pool 128 erasure my-profile
纠删码 vs 副本:
策略
存储开销
可靠性
性能
3 副本
3x
高
高
纠删码 4+2
1.5x
高
中
5.2 监控告警 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 sudo ceph -ssudo ceph health detailsudo ceph osd treesudo ceph osd stat sudo ceph pg stat sudo ceph pg dumpsudo ceph osd pool statssudo ceph osd perf
推荐监控工具:
Ceph Dashboard :官方 Web 管理界面
Prometheus + Grafana :指标采集和可视化
Zabbix :企业级监控告警
5.3 备份恢复 1 2 3 4 5 6 7 8 9 10 11 12 13 sudo rbd snap create rbd-pool/vm-disk@snap1sudo rbd snap ls rbd-pool/vm-disksudo rbd export rbd-pool/vm-disk /backup/vm-disk.imgsudo rbd import /backup/vm-disk.img rbd-pool/vm-disk-restoredsudo rados -p rbd-pool export /backup/rados-exportsudo rados -p rbd-pool import /backup/rados-export
六、常见问题与解决方案 6.1 OSD 频繁宕机 原因:
解决方案:
1 2 3 4 5 6 7 8 9 sudo journalctl -u ceph-osd@<osd-id>sudo smartctl -a /dev/sdXsudo ceph config set osd osd_heartbeat_grace 60sudo ceph config set osd osd_heartbeat_interval 10
6.2 集群空间不足 解决方案:
1 2 3 4 5 6 7 8 9 10 11 12 sudo ceph df sudo ceph osd df sudo rados -p rbd-pool cleanupsudo ceph osd pool set rbd-pool size 2sudo ceph osd pool create ec-pool 128 erasure
6.3 性能问题 排查步骤:
1 2 3 4 5 6 7 8 sudo ceph osd perfsudo ceph daemon osd.<id > dump_ops_in_flightsudo ceph daemon mon.<id > perf dump
总结 Ceph 是一个功能强大的分布式存储系统,适合需要统一存储、高可用、弹性扩展 的企业级场景。
适用场景:
✅ 云平台存储后端(OpenStack、Kubernetes)
✅ 虚拟化环境存储
✅ 大规模对象存储
✅ 需要块存储 + 文件系统的混合场景
不适用场景:
❌ 小规模部署(运维成本高)
❌ 纯对象存储场景(MinIO 更简单)
❌ 纯大数据场景(HDFS 更专业)
选型建议:
如果团队有存储运维能力,且需要统一存储 → Ceph
如果只需要 S3 对象存储 → MinIO
如果需要 NFS 替代 → GlusterFS
如果是 Hadoop 生态 → HDFS
参考资料
最后更新:2026-05-09