VMWare Lỗi Purple Screen of Death (PSOD)

diephan

Internship/Fresher
Sep 7, 2020
76
27
18
Thông thường khi gặp các lỗi nghiêm trọng về phần cứng liên quan đến RAM, CPU hoặc lỗi phần mềm, stack overflow, hết tài nguyên,.. gây ra sự tương tác không đúng cách giữa các thành phần trong máy chủ ESxi, khiến cho máy chủ ngưng hoạt động.

ESxi phát hiện ra lỗi và không thể tiếp tục chạy, màn hình tím xuất hiện như lời trăn trối cuối cùng ghi lại các sự kiện liên quan đến sự cố của nó như: phiên bản Esxi, thời gian hoạt động, thông báo lỗi,...

Vấn đề này có thể giải quyết bằng cách reboot máy chủ, nhưng lỗi sẽ vẫn lặp lại nếu như nguyên nhân gây lỗi vẫn chưa được giải quyết

Dấu hiệu nhận biết là máy chủ đột ngột rơi vào trạng thái Not responding. Kết nối vào iRMC, iDRAC, iLO,.. sẽ bắt gặp màn hình màu tím như hình ảnh phía dưới. Điều tiếp theo chúng ta nên làm là chụp lại hình ảnh này và mở case với hãng

Tuy nhiên ở bài viết này, mình sẽ chia sẻ về trường hợp mà mình đã từng gặp và cách giải quyết.

#1 Lỗi liên quan đến QLogic qfle3f driver
Dựa vào thông báo lỗi trên màn hình, xác định lỗi VMware đã đưa ra ở KB: https://kb.vmware.com/s/article/83785

1708944090990.png


Nguyên nhân gây ra PSOD là do một lỗi QLogic qfle3f driver phiên bản 1.0.77.2 trở về trước, giải quyết bằng cách update driver lên phiên bản phù hợp

1708944829167.png


Các bước thực hiện:

1. Maintenance mode

2. Download driver theo phiên bản mới nhất của ESXi
https://www.vmware.com/resources/co..._interval=10&sortColumn=Partner&sortOrder=Asc

3. Giải nén
1708944940855.png


4. Dùng WinSCP copy file offline_bundle vào mục /tmp
1708944997012.png


5. Dùng lệnh : esxcli software vib update -d /tmp/MRVL-E3-Ethernet-iSCSI-FCoE_2.0.182.0-1OEM.670.0.0.8169922-offline_bundle-19033025.zip
1708945158440.png


6. Thời gian update < 1 phút
1708945117817.png


7. Reboot server

8. Kiểm tra
1708945187170.png


#2 Lỗi liên quan đến igbn driver
VMware KB: https://kb.vmware.com/s/article/67686
1708945612719.png


Tương tự như trường hợp 1, trường hợp 2 nguyên nhân gây ra lỗi do lỗi trên driver igbn phiên bản 1.4.10, giải quyết bằng cách update driver lên phiên bản mới nhất (mình sử dụng trình Update Manager trên vCenter)

Các bước thực hiện:
1. Download driver theo phiên bản mới nhất của ESXi

2. Vào vCenter > Update Manager > Upload From File
1708946670115.png

1708946615611.png


3. Tạo Baseline

1708947017367.png


4. Vào host cần update, chọn Updates > Attached
1709115386419.png

1709115344246.png


5. Chọn Pre-check Remediation (kiểm tra xeDRS có được bật hay không để các máy ảo đang chạy có thể được di chuyển mà không có thời gian ngừng hoạt động)
1708947678644.png



6. Maintenance mode

7. Chọn Remediate (Host sẽ được update và tự khởi động lại sau khi hoàn thành)
1709115298948.png


-- HẾT--
 

Attachments

  • 1708946521997.png
    1708946521997.png
    156.9 KB · Views: 0
  • 1708946912388.png
    1708946912388.png
    64.3 KB · Views: 0
  • 1708947182445.png
    1708947182445.png
    199.4 KB · Views: 0
  • 1708947347960.png
    1708947347960.png
    74.9 KB · Views: 0
  • 1708948491568.png
    1708948491568.png
    98.2 KB · Views: 0

About us

  • Securityzone.vn là một trang web chuyên về an ninh mạng và công nghệ thông tin. Trang web này cung cấp các bài viết, tin tức, video, diễn đàn và các dịch vụ liên quan đến lĩnh vực này. Securityzone.vn là một trong những cộng đồng IT lớn và uy tín tại Việt Nam, thu hút nhiều người quan tâm và tham gia. Securityzone.vn cũng là nơi để các chuyên gia, nhà nghiên cứu, sinh viên và người yêu thích an ninh mạng có thể trao đổi, học hỏi và chia sẻ kiến thức, kinh nghiệm và giải pháp về các vấn đề bảo mật trong thời đại số.

Quick Navigation

User Menu