Thông thường khi gặp các lỗi nghiêm trọng về phần cứng liên quan đến RAM, CPU hoặc lỗi phần mềm, stack overflow, hết tài nguyên,.. gây ra sự tương tác không đúng cách giữa các thành phần trong máy chủ ESxi, khiến cho máy chủ ngưng hoạt động.
ESxi phát hiện ra lỗi và không thể tiếp tục chạy, màn hình tím xuất hiện như lời trăn trối cuối cùng ghi lại các sự kiện liên quan đến sự cố của nó như: phiên bản Esxi, thời gian hoạt động, thông báo lỗi,...
Vấn đề này có thể giải quyết bằng cách reboot máy chủ, nhưng lỗi sẽ vẫn lặp lại nếu như nguyên nhân gây lỗi vẫn chưa được giải quyết
Dấu hiệu nhận biết là máy chủ đột ngột rơi vào trạng thái Not responding. Kết nối vào iRMC, iDRAC, iLO,.. sẽ bắt gặp màn hình màu tím như hình ảnh phía dưới. Điều tiếp theo chúng ta nên làm là chụp lại hình ảnh này và mở case với hãng
Tuy nhiên ở bài viết này, mình sẽ chia sẻ về trường hợp mà mình đã từng gặp và cách giải quyết.
#1 Lỗi liên quan đến QLogic qfle3f driver
Dựa vào thông báo lỗi trên màn hình, xác định lỗi VMware đã đưa ra ở KB: https://kb.vmware.com/s/article/83785
Nguyên nhân gây ra PSOD là do một lỗi QLogic qfle3f driver phiên bản 1.0.77.2 trở về trước, giải quyết bằng cách update driver lên phiên bản phù hợp
Các bước thực hiện:
1. Maintenance mode
2. Download driver theo phiên bản mới nhất của ESXi
https://www.vmware.com/resources/co..._interval=10&sortColumn=Partner&sortOrder=Asc
3. Giải nén
4. Dùng WinSCP copy file offline_bundle vào mục /tmp
5. Dùng lệnh : esxcli software vib update -d /tmp/MRVL-E3-Ethernet-iSCSI-FCoE_2.0.182.0-1OEM.670.0.0.8169922-offline_bundle-19033025.zip
6. Thời gian update < 1 phút
7. Reboot server
8. Kiểm tra
#2 Lỗi liên quan đến igbn driver
VMware KB: https://kb.vmware.com/s/article/67686
Tương tự như trường hợp 1, trường hợp 2 nguyên nhân gây ra lỗi do lỗi trên driver igbn phiên bản 1.4.10, giải quyết bằng cách update driver lên phiên bản mới nhất (mình sử dụng trình Update Manager trên vCenter)
Các bước thực hiện:
1. Download driver theo phiên bản mới nhất của ESXi
2. Vào vCenter > Update Manager > Upload From File
3. Tạo Baseline
4. Vào host cần update, chọn Updates > Attached
5. Chọn Pre-check Remediation (kiểm tra xeDRS có được bật hay không để các máy ảo đang chạy có thể được di chuyển mà không có thời gian ngừng hoạt động)
6. Maintenance mode
7. Chọn Remediate (Host sẽ được update và tự khởi động lại sau khi hoàn thành)
-- HẾT--
ESxi phát hiện ra lỗi và không thể tiếp tục chạy, màn hình tím xuất hiện như lời trăn trối cuối cùng ghi lại các sự kiện liên quan đến sự cố của nó như: phiên bản Esxi, thời gian hoạt động, thông báo lỗi,...
Vấn đề này có thể giải quyết bằng cách reboot máy chủ, nhưng lỗi sẽ vẫn lặp lại nếu như nguyên nhân gây lỗi vẫn chưa được giải quyết
Dấu hiệu nhận biết là máy chủ đột ngột rơi vào trạng thái Not responding. Kết nối vào iRMC, iDRAC, iLO,.. sẽ bắt gặp màn hình màu tím như hình ảnh phía dưới. Điều tiếp theo chúng ta nên làm là chụp lại hình ảnh này và mở case với hãng
Tuy nhiên ở bài viết này, mình sẽ chia sẻ về trường hợp mà mình đã từng gặp và cách giải quyết.
#1 Lỗi liên quan đến QLogic qfle3f driver
Dựa vào thông báo lỗi trên màn hình, xác định lỗi VMware đã đưa ra ở KB: https://kb.vmware.com/s/article/83785
Nguyên nhân gây ra PSOD là do một lỗi QLogic qfle3f driver phiên bản 1.0.77.2 trở về trước, giải quyết bằng cách update driver lên phiên bản phù hợp
Các bước thực hiện:
1. Maintenance mode
2. Download driver theo phiên bản mới nhất của ESXi
https://www.vmware.com/resources/co..._interval=10&sortColumn=Partner&sortOrder=Asc
3. Giải nén
4. Dùng WinSCP copy file offline_bundle vào mục /tmp
5. Dùng lệnh : esxcli software vib update -d /tmp/MRVL-E3-Ethernet-iSCSI-FCoE_2.0.182.0-1OEM.670.0.0.8169922-offline_bundle-19033025.zip
6. Thời gian update < 1 phút
7. Reboot server
8. Kiểm tra
#2 Lỗi liên quan đến igbn driver
VMware KB: https://kb.vmware.com/s/article/67686
Tương tự như trường hợp 1, trường hợp 2 nguyên nhân gây ra lỗi do lỗi trên driver igbn phiên bản 1.4.10, giải quyết bằng cách update driver lên phiên bản mới nhất (mình sử dụng trình Update Manager trên vCenter)
Các bước thực hiện:
1. Download driver theo phiên bản mới nhất của ESXi
2. Vào vCenter > Update Manager > Upload From File
3. Tạo Baseline
4. Vào host cần update, chọn Updates > Attached
5. Chọn Pre-check Remediation (kiểm tra xeDRS có được bật hay không để các máy ảo đang chạy có thể được di chuyển mà không có thời gian ngừng hoạt động)
6. Maintenance mode
7. Chọn Remediate (Host sẽ được update và tự khởi động lại sau khi hoàn thành)
-- HẾT--