Làm chủ ReaR (Relax-and-Recover): Giải pháp phục hồi thảm họa Bare Metal trên CentOS – ITFROMZERO

Table of Contents

Đừng để “mất bò mới lo làm chuồng”: Backup file hay Backup hệ thống?

Nếu từng thức trắng đêm cài lại một con server CentOS từ đầu vì ổ cứng hỏng, bạn sẽ hiểu cảm giác bất lực khi mọi thứ biến mất. Thông thường, anh em mình hay dùng rsync, tar để đẩy dữ liệu đi. Cách này ổn cho đến khi server chết hẳn phần cứng hoặc lỗi kernel không thể boot.

Khi đó, quy trình phục hồi thường rất mệt mỏi: Cài lại OS, chia lại partition, cấu hình Network, rồi mới đến bước Restore data. Tổng thời gian mất ít nhất 3-4 tiếng cho một kỹ thuật viên lành nghề. ReaR (Relax-and-Recover) sinh ra để rút ngắn thời gian này xuống còn vài phút. Nó thực hiện Bare Metal Recovery (BMR) — phục hồi từ con số không lên một hệ thống chạy hoàn chỉnh chỉ với một lệnh duy nhất.

So sánh các phương pháp Backup thực tế

Dựa trên kinh nghiệm vận hành, mình chia backup thành 3 cấp độ để anh em dễ lựa chọn:

Cấp độ 1 (File-level): rsync, Bacula. Ưu điểm là nhẹ, dễ quản lý. Tuy nhiên, bạn phải dựng lại môi trường OS trước khi đổ data vào, tốn nhiều công sức cấu hình lại từ đầu.
Cấp độ 2 (Snapshot): VMware, Cloud Snapshot. Rất nhanh và an toàn nhưng phụ thuộc chặt chẽ vào nền tảng ảo hóa. Nếu chạy server vật lý (Bare Metal), bạn gần như không thể dùng cách này linh hoạt.
Cấp độ 3 (ReaR): Tạo ra bản bootable ISO chứa đầy đủ driver, bootloader và data. Bạn chỉ cần mount ISO qua iDRAC/IPMI và chạy lệnh. Nó kết hợp sự linh hoạt của file-level và tính toàn diện của snapshot.

Tại sao ReaR là “cứu cánh” cho hệ thống CentOS?

Hồi CentOS 8 chuẩn bị EOL, mình phải migrate gấp 5 server quan trọng sang Rocky Linux trong 1 tuần. Việc dùng ReaR tạo bản dự phòng trước khi chuyển đổi là quyết định đúng đắn nhất. Khi một script migration làm hỏng hệ thống, mình chỉ mất đúng 15 phút để quay về trạng thái cũ thay vì ngồi gõ lệnh cả buổi chiều.

Điểm cộng lớn nhất là ReaR hoàn toàn miễn phí và cực kỳ nhẹ. Nó không chạy ngầm gây tốn RAM hay CPU. Công cụ này chỉ hoạt động khi bạn ra lệnh tạo bản backup.

Triển khai ReaR trên CentOS trong 3 bước

Trong ví dụ này, chúng ta sẽ lưu bản backup vào một server khác qua giao thức NFS. Đây là cách làm chuẩn trong các Datacenter để đảm bảo an toàn dữ liệu.

1. Cài đặt các gói bổ trợ

Khởi đầu bằng việc cài đặt gói rear và công cụ tạo file ISO genisoimage. Đừng quên nfs-utils để kết nối với server lưu trữ từ xa.

sudo yum install rear genisoimage syslinux nfs-utils -y

2. Cấu hình file local.conf

File cấu hình chính nằm tại /etc/rear/local.conf. Giả sử server NFS của bạn có IP 192.168.1.50 và thư mục share là /mnt/backups. Hãy thêm nội dung sau:

OUTPUT=ISO
BACKUP=NETFS
BACKUP_URL=nfs://192.168.1.50/mnt/backups
BACKUP_PROG_EXCLUDE=("/tmp/*" "/dev/*" "/proc/*" "/sys/*" "/run/*" "/mnt/*" "/media/*")

Giải thích nhanh: OUTPUT=ISO tạo file có thể boot. BACKUP=NETFS sử dụng trình backup tích hợp. BACKUP_PROG_EXCLUDE giúp loại bỏ các thư mục tạm để giảm dung lượng file backup (có thể giảm từ vài GB xuống còn vài trăm MB nếu cấu hình khéo).

3. Tạo bản backup đầu tiên

Mọi thứ đã sẵn sàng. Hãy chạy lệnh dưới đây để ReaR bắt đầu đóng gói hệ thống:

sudo rear -v mkbackup

Khi hoàn tất, tại server NFS sẽ xuất hiện một thư mục chứa file ISO cứu hộ và file backup.tar.gz. Đây chính là “phao cứu sinh” của bạn.

Quy trình hồi sinh hệ thống khi gặp thảm họa

Giả sử server bị hỏng ổ cứng hoàn toàn. Sau khi thay ổ cứng mới, bạn thực hiện các bước:

Mount file ISO ReaR vào server qua USB hoặc đĩa ảo iDRAC/ILO.
Boot từ ISO và chọn dòng “Relax-and-Recover” từ menu hiện ra.
Đăng nhập bằng user root (mặc định không mật khẩu).
Gõ lệnh: rear -v recover

Lúc này, ReaR sẽ tự động chia lại partition y hệt như cũ. Nó format định dạng file system (XFS/EXT4), mount ổ cứng và xả nén dữ liệu từ NFS. Cuối cùng, nó tự cài lại Grub Bootloader cho bạn. Chỉ cần gõ reboot, server sẽ khởi động lại như chưa từng có sự cố xảy ra.

Kinh nghiệm thực chiến để tránh lỗi

Triển khai thực tế thường phát sinh những vấn đề nhỏ nhưng gây nhức đầu. Bạn nên lưu ý:

Xử lý Card mạng: Khi boot ISO, đôi khi card mạng không nhận IP tự động. Hãy chuẩn bị sẵn lệnh ip addr add để gán IP thủ công, giúp server thấy được kho lưu trữ NFS.
Dung lượng /tmp: ReaR cần không gian trống để build ISO. Nếu phân vùng này đầy, lệnh mkbackup sẽ báo lỗi ngay lập tức.
Nguyên tắc “Backup giả – Restore thật”: Đừng tin vào file backup cho đến khi bạn restore thử thành công trên một máy ảo. Mình luôn yêu cầu team kỹ thuật diễn tập phục hồi định kỳ 3 tháng một lần.

Quản trị hệ thống giỏi không phải là người giữ hệ thống không bao giờ hỏng. Đó là người có khả năng đưa hệ thống hoạt động trở lại nhanh nhất. ReaR chính là tấm bảo hiểm tốt nhất cho hạ tầng CentOS của bạn.