vSphere HA & DRS: Bộ Đôi “Cứu Sinh” Giúp Bạn Kê Cao Gối Ngủ Trong Hạ Tầng Ảo Hóa – ITFROMZERO

Table of Contents

Nỗi ám ảnh mang tên “Sập hệ thống” lúc nửa đêm

Hãy tưởng tượng kịch bản này: Bạn đang quản trị 50 máy ảo (VM) vận hành toàn bộ hệ thống kế toán và ERP của công ty. Đúng 2 giờ sáng, một con server vật lý (ESXi Host) bị nổ tụ nguồn và đột ngột tắt lịm. Nếu không có cơ chế dự phòng, hàng chục dịch vụ sẽ “ngỏm” theo. Sáng hôm sau, văn phòng sẽ hỗn loạn và bạn sẽ phải đối mặt với một núi ticket phàn nàn.

Để giải quyết bài toán này, VMware cung cấp bộ đôi quyền lực: vSphere HA (High Availability) và vSphere DRS (Distributed Resource Scheduler). Trong khi HA đóng vai trò là đội cứu hộ khẩn cấp, thì DRS lại là một kiến trúc sư điều phối tài nguyên tài ba. Thực tế tại các hệ thống mình từng triển khai, việc cấu hình đúng HA giúp giảm thời gian phục hồi (RTO) từ vài giờ xuống chỉ còn dưới 3 phút.

Giải mã HA và DRS: Chúng khác nhau thế nào?

1. vSphere HA – Tự động hồi sinh máy ảo

Cơ chế HA hoạt động như một máy phát điện dự phòng. Khi một Host trong Cluster gặp sự cố phần cứng, vCenter sẽ ngay lập tức ra lệnh cho các Host còn lại khởi động lại những máy ảo bị ảnh hưởng. Bạn cần lưu ý: HA gây ra một khoảng gián đoạn ngắn (downtime) vì máy ảo cần thời gian để boot lại OS, không phải là cơ chế chạy song song (Fault Tolerance).

2. vSphere DRS – Cân bằng tải thông minh

Nếu HA lo chuyện sống còn, thì DRS đảm bảo các máy ảo luôn “khỏe mạnh”. DRS liên tục giám sát mức sử dụng CPU và RAM. Nếu Host A đang gánh 90% tải trong khi Host B chỉ dùng 20%, DRS sẽ thực hiện vMotion để di chuyển máy ảo sang Host B mà không gây ra bất kỳ giây downtime nào. Điều này giúp loại bỏ tình trạng “nghẽn cổ chai” cục bộ.

Nhiều anh em thường so sánh với tính năng HA trên Proxmox. Dù Proxmox rất tốt cho lab, nhưng khả năng dự báo ngưỡng tài nguyên và độ mượt mà khi vMotion của VMware DRS vẫn ở một đẳng cấp khác, đặc biệt là trong các môi trường Enterprise lớn.

Điều kiện để triển khai thành công

Đừng vội bật tính năng nếu bạn chưa check kỹ 4 yếu tố then chốt này:

vCenter Server: Bộ não bắt buộc phải có để điều phối Cluster.
Shared Storage: Đây là linh hồn của hệ thống. Các Host phải cùng kết nối tới một vùng lưu trữ chung (SAN, iSCSI hoặc vSAN). Nếu VM nằm ở ổ cứng cục bộ, HA sẽ hoàn toàn vô dụng.
Network vMotion: Nên sử dụng card mạng tốc độ cao (tối thiểu 1Gbps, khuyến nghị 10Gbps) để việc di chuyển VM diễn ra nhanh chóng.
License: Nhớ check lại license vì DRS thường yêu cầu gói Enterprise Plus.

Các bước cấu hình thực chiến

Bước 1: Khởi tạo Cluster

Chuột phải vào Datacenter, chọn New Cluster. Hãy đặt tên theo chuẩn quản lý, ví dụ: PRD-Cluster-01. Đây là nơi gom các tài nguyên vật lý thành một khối thống nhất.

Bước 2: Kích hoạt vSphere HA

Vào Configure -> vSphere Availability -> Edit.

vSphere HA: Gạt sang ON.
Host Monitoring: Luôn bật để vCenter theo dõi tín hiệu “nhịp tim” (Heartbeat) của server.
Admission Control: Đừng bỏ qua mục này. Nếu bạn có 2 Host, hãy đặt dự phòng 50%. Nếu có 4 Host, hãy đặt 25%. Điều này đảm bảo khi 1 Host chết, các Host còn lại vẫn đủ sức gánh thêm tải.

Bước 3: Tối ưu vSphere DRS

Trong mục vSphere DRS -> Edit:

Automation Level: Hãy chọn Fully Automated. Hệ thống sẽ tự động tính toán và di chuyển VM mà không cần bạn phải click phê duyệt thủ công.
Migration Threshold: Level 3 là điểm ngọt (sweet spot). Ở mức này, DRS chỉ di chuyển VM khi thực sự cần thiết, tránh tình trạng vMotion liên tục gây lãng phí băng thông mạng.

Kiểm tra nhanh bằng PowerCLI

Thay vì click chuột qua từng menu, bạn có thể dùng script này để kiểm tra trạng thái của toàn bộ Cluster trong 5 giây:

Connect-VIServer -Server vcenter.yourdomain.com
Get-Cluster | Select-Object Name, 
    @{N="HA_Status"; E={$_.ExtensionData.Configuration.DasConfig.Enabled}}, 
    @{N="DRS_Automation"; E={$_.ExtensionData.Configuration.DrsConfig.DefaultVmBehavior}}
Disconnect-VIServer -Confirm:$false

3 lưu ý “xương máu” khi vận hành

Tên Port Group phải đồng nhất: Hãy đảm bảo tên mạng trên mọi Host phải giống hệt nhau, kể cả chữ hoa chữ thường. Một lỗi typo nhỏ cũng khiến VM mất kết nối sau khi HA kích hoạt.
Datastore Heartbeat: Luôn chọn ít nhất 2 Datastore làm kênh dự phòng để HA kiểm tra trạng thái Host. Điều này giúp tránh tình trạng “Split-brain” khi mạng quản lý gặp sự cố.
Anti-Affinity Rules: Nếu bạn chạy 2 Domain Controller, hãy dùng quy tắc này để ép chúng nằm trên 2 Host vật lý khác nhau. Đừng bao giờ bỏ tất cả trứng vào một giỏ.

Lời kết

Triển khai HA và DRS không chỉ là bật tính năng, đó là tư duy về thiết kế hạ tầng bền vững. Khi đã làm chủ được bộ đôi này, bạn không chỉ bảo vệ được dữ liệu mà còn bảo vệ được chính thời gian nghỉ ngơi của mình. Hãy kiểm tra lại cấu hình Admission Control của bạn ngay hôm nay để đảm bảo hệ thống luôn sẵn sàng cho mọi kịch bản xấu nhất.