Tạm biệt nỗi lo Patching: Làm chủ vSphere Lifecycle Manager (vLCM) thực chiến

VMware tutorial - IT technology blog
VMware tutorial - IT technology blog

Nỗi ám ảnh mang tên “Patching Day” và sự ra đời của vLCM

Anh em quản trị hệ thống chắc chẳng lạ gì cảnh trực đêm để patch lỗi cho cụm 32 Host ESXi. Ngồi chờ từng con vào Maintenance Mode, cầu nguyện cho Driver không xung đột thực sự là một cực hình. Cách làm cũ với vSphere Update Manager (VUM) thường khá hên xui. Host này chạy ngon nhưng Host kia lại thiếu Driver card mạng, khiến cả Cluster trở nên khập khiễng.

Sau 6 tháng đưa vSphere Lifecycle Manager (vLCM) vào hệ thống Production, mình thấy đây là một sự thay đổi hoàn toàn. Nếu trước đây mình nghịch Lab với Proxmox và chỉ cần apt update, thì vLCM mang lại trải nghiệm tương tự nhưng ở đẳng cấp Enterprise. Nó thay đổi tư duy từ “phải cài gì” sang “Host phải trông như thế nào”. Cách tiếp cận Image-based này thực sự cứu cánh cho những hệ thống lớn.

Thay vì cài cắm vụn vặt, vLCM cho phép mình định nghĩa một “Desired State” (trạng thái mong muốn). Tất cả các máy chủ trong cụm buộc phải giống hệt nhau. Từ phiên bản ESXi, Driver cho đến cả Firmware phần cứng đều phải đồng nhất 100%.

Điều kiện cần để triển khai vLCM mượt mà

Đừng vội vã nhấn nút. Dưới đây là những thứ mình đã phải trả giá bằng vài đêm thức trắng mới rút ra được:

  • vCenter Server: Phải từ bản 7.0 trở lên, nhưng mình khuyên dùng bản 8.0 để ổn định nhất.
  • ESXi Hosts: Bắt buộc từ bản 7.0. Các dòng cũ hơn sẽ không hỗ trợ mô hình Image-based.
  • Quản lý phần cứng: Nếu muốn quản lý cả Firmware, hãy cài thêm Vendor Support Management (như Dell OpenManage hoặc HPE OneView).
  • Tài nguyên Cluster: Đảm bảo DRS đã bật và ở chế độ Fully Automated để máy ảo (VM) tự động di tản.

Cấu hình chi tiết vLCM: Chuyển đổi sang Image-based

Các Cluster cũ thường vẫn chạy kiểu Baseline truyền thống. Để dùng vLCM, bạn buộc phải chuyển sang dạng Image. Thú thật là thao tác này chỉ có đường đi, không có đường về. Một khi đã lên Image thì không quay lại Baseline được đâu nhé.

Bước 1: Thiết lập Image mẫu cho Cluster

  1. Vào vSphere Client, chọn Cluster cần nâng cấp.
  2. Tìm đến tab Updates > Image.
  3. Chọn Setup Image và chọn phiên bản ESXi mục tiêu (ví dụ: ESXi 8.0 Update 2).
  4. Vendor Add-on: Đây là điểm mấu chốt. Nếu dùng server Dell PowerEdge R740, hãy chọn đúng Dell Customization. Hệ thống sẽ tự gom Driver chuẩn của hãng vào.
  5. Nhấn Validate. Bước này cực kỳ quan trọng để check xem phần cứng hiện tại có “vênh” với Image không.

Bước 2: Kiểm tra mức độ tuân thủ (Compliance Check)

vLCM sẽ so sánh từng Host với Image mẫu. Thay vì click chuột mỏi tay trên giao diện, mình thường dùng PowerCLI để check nhanh xem con Host nào đang bị lệch (Out of Sync):

# Kết nối vCenter
Connect-VIServer -Server vcenter.yourdomain.com

# Kiểm tra trạng thái Compliance của Cluster
$myCluster = Get-Cluster -Name "Production-Cluster"
Get-Compliance -Entity $myCluster | Select-Object Entity, Status, LastResultTime

Thực thi cập nhật tự động (Remediation)

Đây là lúc vLCM tỏa sáng. Khi nhấn Remediate All, mọi thứ diễn ra như một cỗ máy được lập trình sẵn:

  1. vLCM chọn Host, kích hoạt Maintenance Mode.
  2. DRS đẩy toàn bộ VM sang các Host khác trong vài phút.
  3. Hệ thống cài đặt Image, cập nhật Driver và tự Reboot.
  4. Sau khi Host online và báo “Healthy”, vLCM mới chuyển sang con tiếp theo.

Mẹo nhỏ: Đừng bao giờ Remediate ngay. Hãy dùng Stage All trước. Tính năng này tải trước các gói cài đặt về bộ nhớ đệm. Nó giúp giảm thời gian downtime mỗi Host từ 45 phút xuống còn khoảng 15-20 phút vì không phải chờ download.

Giám sát và xử lý lỗi thực tế

Trong lúc chạy, hãy để mắt đến tab Events. Lỗi kinh điển mình hay gặp là Host kẹt ở Maintenance Mode do có file ISO đang mount từ máy tính cá nhân vào VM. Hãy ngắt kết nối hết ISO để quy trình không bị gián đoạn giữa chừng.

Để kiểm tra lại thành quả sau khi update xong cho cả cụm 10-20 Host, script này sẽ giúp bạn:

# Liệt kê phiên bản ESXi và Build Number để đối chiếu
Get-Cluster -Name "Production-Cluster" | Get-VMHost | Select-Object Name, Version, Build | Format-Table -AutoSize

Khả năng check HCL: “Phao cứu sinh” cho Admin

Điểm mình cực thích ở vLCM là khả năng check HCL (Hardware Compatibility List) trực tiếp. vLCM sẽ cảnh báo ngay nếu Driver định cài không tương thích với dòng server đó. Tính năng này đã giúp mình tránh được một cú “tím màn hình” (PSOD) nhớ đời khi suýt cài nhầm Driver card mạng cũ.

Kết luận

Dùng vLCM không đơn thuần là update phần mềm, mà là chuẩn hóa toàn bộ hạ tầng. Việc mở rộng Cluster giờ nhàn tênh. Chỉ cần kéo một Host mới vào, vLCM sẽ tự động ép nó phải tuân thủ đúng Image mẫu của cụm. Tuy việc cấu hình ban đầu hơi tốn công tìm hiểu Vendor Add-on, nhưng sự ổn định mà nó mang lại cho môi trường Production là hoàn toàn xứng đáng.

Share: