hongphuc
Intern
1. Khái niệm Deduplication
Deduplication, hay chống trùng lặp dữ liệu, là kỹ thuật giảm dung lượng lưu trữ bằng cách loại bỏ các phần dữ liệu bị lặp lại. Thay vì lưu nhiều bản sao giống nhau của cùng một dữ liệu, hệ thống chỉ lưu một bản duy nhất và các bản sao còn lại sẽ được thay bằng thông tin tham chiếu.
Trong backup, dữ liệu thường được chia thành nhiều data block. Khi một block mới được đưa vào backup repository, hệ thống sẽ kiểm tra xem block đó đã tồn tại trước đó hay chưa. Nếu block chưa có, hệ thống sẽ ghi block đó vào repository. Nếu block đã tồn tại, hệ thống không ghi lại block trùng mà chỉ tạo reference trỏ đến block đã có. Deduplication trong NAKIVO được mô tả là phương pháp giảm kích thước backup bằng cách loại bỏ các data block trùng lặp và chỉ lưu các block duy nhất trong Backup Repository.
2. Vai trò của Deduplication trong hệ thống Backup
Trong môi trường ảo hóa, deduplication rất quan trọng vì nhiều máy ảo thường có dữ liệu giống nhau. Ví dụ, các VM có thể được triển khai từ cùng một template, dùng chung hệ điều hành, cùng bản vá, cùng phần mềm hoặc có nhiều file hệ thống giống nhau. Khi backup các VM này, nếu không dùng deduplication, repository có thể phải lưu nhiều lần cùng một loại dữ liệu, làm lãng phí dung lượng lưu trữ. Global deduplication có thể xét dữ liệu của nhiều backup trong cùng repository, kể cả backup từ VMware VM, Hyper-V VM và Amazon EC2 instance, để loại bỏ block trùng lặp.
3. NAKIVO giảm trùng lặp dữ liệu như thế nào?
NAKIVO Backup & Replication sử dụng cơ chế Global Data Deduplication ở cấp Backup Repository. Khi tính năng này được bật trong repository forever-incremental, tất cả data block của các backup trong cùng repository đều được xem xét để loại bỏ trùng lặp. Điều này có nghĩa là dữ liệu trùng có thể được nhận diện không chỉ trong cùng một VM qua nhiều lần backup, mà còn giữa nhiều VM khác nhau nếu chúng được lưu trong cùng repository.
Quy trình xử lý có thể mô tả như sau:
4. Global deduplication và forever-incremental repository
Deduplication của NAKIVO hoạt động trong mô hình forever-incremental Backup Repository. Với kiểu lưu trữ này, lần backup đầu tiên tạo full backup, còn các lần sau chỉ gửi dữ liệu thay đổi vào repository. NAKIVO cho biết deduplication chỉ khả dụng cho forever-incremental Backup Repositories để tránh xung đột với deduplication appliances.
Trong repository, dữ liệu backup không nhất thiết được lưu thành từng file full riêng biệt cho từng VM. Thay vào đó, repository lưu các block dữ liệu và metadata để tái dựng recovery point khi cần restore. Backup Repository có cấu trúc riêng, không nên chỉnh sửa hoặc xóa thủ công các file/folder trong thư mục repository.
5. Cấu hình deduplication trong NAKIVO
Khi tạo Local Backup Repository, deduplication được cấu hình trong phần Data size reduction. Nếu bật Data size reduction, hệ thống sử dụng các cơ chế giảm dung lượng để tiết kiệm disk space. Trong phần settings, người dùng có thể chọn compression level, tùy chọn Store backups in separate files và Deduplication.
Các điểm cấu hình quan trọng:
6. Deduplication giúp tiết kiệm dung lượng như thế nào?
NAKIVO sử dụng nhiều phương pháp để tối ưu kích thước backup, bao gồm deduplication và compression. Mục tiêu là cân bằng giữa lượng dữ liệu cần đọc, truyền và lưu trữ trong quá trình backup.
Ví dụ: nếu có 10 VM chạy cùng Windows Server 2016, mỗi VM có 10 GB dữ liệu hệ điều hành giống nhau, tổng dữ liệu là 100 GB. Khi bật deduplication, repository chỉ cần ghi một bản OS data khoảng 10 GB, tạo mức tiết kiệm kiểu 10:1. NAKIVO cũng cho biết VM backup deduplication có thể giúp giảm yêu cầu dung lượng lưu trữ từ 10X đến 30X trong một số trường hợp.
Khái niệm thường dùng: Deduplication ratio = Dung lượng dữ liệu gốc / Dung lượng sau dedup
7. Deduplication tiêu tốn tài nguyên hệ thống như thế nào?
Deduplication giúp tiết kiệm dung lượng, nhưng đổi lại sẽ tiêu tốn thêm tài nguyên hệ thống. Các tài nguyên bị ảnh hưởng chính gồm CPU, RAM, Disk I/O, Network và thời gian xử lý backup.
7.1 CPU
CPU được dùng để tính toán, kiểm tra và so sánh data block. Khi bật Data size reduction, tùy chọn này có thể tạo thêm tải lên CPU. Nếu bật compression, mức compression càng cao thì càng dùng nhiều CPU và có thể làm chậm tốc độ backup VM.
Ảnh hưởng CPU:
7.2 RAM
RAM thường được sử dụng cho metadata, cache và quá trình xử lý luồng dữ liệu bởi Transporter. Khi repository lớn, nhiều VM hoặc nhiều backup job chạy đồng thời, lượng metadata cần xử lý có thể tăng. NAKIVO không đưa một con số RAM cố định cho dedup trong các trang nguồn trên, nhưng về mặt vận hành, RAM vẫn là tài nguyên cần quan tâm vì deduplication cần theo dõi block/reference và xử lý data stream.
7.3 Disk I/O
Deduplication làm tăng hoạt động đọc/ghi trên repository vì hệ thống cần kiểm tra block, ghi block mới và cập nhật metadata. Nếu repository nằm trên ổ chậm, NAS chậm hoặc NFS chậm, backup có thể bị ảnh hưởng rõ. NAKIVO cũng khuyến nghị các hoạt động tiêu tốn CPU như space reclamation hoặc verification nên chạy ngoài giờ làm việc; CPU được sử dụng là CPU của máy có Transporter được gán cho repository đó.
7.4 Network
Deduplication có thể giúp giảm network load vì duplicate data đã được backup trước đó không cần truyền lại. Deduplication giúp tiết kiệm storage space và giảm network load vì các duplicate blocks đã được backup trước đó sẽ không được truyền lại qua mạng.
7.5 Thời gian backup
Backup có thể nhanh hơn hoặc chậm hơn tùy dữ liệu và cấu hình. Nếu dữ liệu có nhiều phần trùng, dung lượng ghi vào repository giảm. Nhưng quá trình kiểm tra, so sánh block và nén dữ liệu vẫn cần thời gian xử lý. NAKIVO cũng cho biết với compression, mức nén cao hơn có thể làm backup chậm hơn do tiêu tốn CPU nhiều hơn.
8. Khi nào deduplication hiệu quả và khi nào không hiệu quả?
Deduplication hiệu quả khi dữ liệu có nhiều phần lặp lại. Ví dụ: nhiều VM cùng OS, VM clone từ template, nhiều recovery point có ít thay đổi hoặc file dữ liệu giống nhau được lưu ở nhiều nơi.
Deduplication kém hiệu quả hơn khi dữ liệu đã được nén, mã hóa hoặc thay đổi liên tục. Các loại dữ liệu đã nén sẵn như JPG, PNG, MPG, AVI, MP4, ZIP, RAR thường không dedup hiệu quả; dữ liệu mã hóa hoặc metadata-rich cũng kém hiệu quả hơn.
9. Deduplication appliance và NAKIVO
Ngoài deduplication tích hợp trong repository, NAKIVO còn hỗ trợ tích hợp với deduplication appliances. Deduplication appliance là thiết bị hoặc giải pháp chuyên dụng để loại bỏ dữ liệu trùng lặp trong môi trường bảo vệ dữ liệu. NAKIVO hỗ trợ loại repository chuyên biệt gọi là stream repository, tối ưu cho hiệu năng khi dùng với deduplication appliances.
Khi dùng deduplication appliance, built-in global deduplication của NAKIVO không được dùng để tránh “double deduplication”. Nói cách khác, nếu storage đích đã có cơ chế dedup chuyên dụng, không nên bật thêm dedup phần mềm cùng lúc để tránh tiêu tốn tài nguyên không cần thiết.
10. Ưu điểm và hạn chế của deduplication
Ưu điểm
11. Kết luận
Deduplication là kỹ thuật quan trọng trong backup, giúp giảm dung lượng lưu trữ bằng cách loại bỏ các block dữ liệu trùng lặp. Trong NAKIVO Backup & Replication, deduplication được triển khai ở cấp Backup Repository theo cơ chế global data deduplication, nghĩa là các block trong cùng forever-incremental repository đều được xét để loại bỏ trùng lặp. Khi phát hiện block đã tồn tại, NAKIVO không lưu lại block đó mà tạo reference đến block có sẵn.
Deduplication đặc biệt hiệu quả trong môi trường nhiều VM giống nhau, VM clone từ template hoặc nhiều recovery point có ít thay đổi. Tuy nhiên, tính năng này cũng tiêu tốn tài nguyên hệ thống như CPU, RAM, Disk I/O và thời gian xử lý. Khi kết hợp với compression, mức compression cao hơn sẽ tiết kiệm dung lượng tốt hơn nhưng dùng nhiều CPU hơn. Vì vậy, khi triển khai thực tế cần cân bằng giữa hiệu quả tiết kiệm dung lượng và hiệu năng hệ thống.
Deduplication, hay chống trùng lặp dữ liệu, là kỹ thuật giảm dung lượng lưu trữ bằng cách loại bỏ các phần dữ liệu bị lặp lại. Thay vì lưu nhiều bản sao giống nhau của cùng một dữ liệu, hệ thống chỉ lưu một bản duy nhất và các bản sao còn lại sẽ được thay bằng thông tin tham chiếu.
2. Vai trò của Deduplication trong hệ thống Backup
Trong môi trường ảo hóa, deduplication rất quan trọng vì nhiều máy ảo thường có dữ liệu giống nhau. Ví dụ, các VM có thể được triển khai từ cùng một template, dùng chung hệ điều hành, cùng bản vá, cùng phần mềm hoặc có nhiều file hệ thống giống nhau. Khi backup các VM này, nếu không dùng deduplication, repository có thể phải lưu nhiều lần cùng một loại dữ liệu, làm lãng phí dung lượng lưu trữ. Global deduplication có thể xét dữ liệu của nhiều backup trong cùng repository, kể cả backup từ VMware VM, Hyper-V VM và Amazon EC2 instance, để loại bỏ block trùng lặp.
3. NAKIVO giảm trùng lặp dữ liệu như thế nào?
NAKIVO Backup & Replication sử dụng cơ chế Global Data Deduplication ở cấp Backup Repository. Khi tính năng này được bật trong repository forever-incremental, tất cả data block của các backup trong cùng repository đều được xem xét để loại bỏ trùng lặp. Điều này có nghĩa là dữ liệu trùng có thể được nhận diện không chỉ trong cùng một VM qua nhiều lần backup, mà còn giữa nhiều VM khác nhau nếu chúng được lưu trong cùng repository.
Quy trình xử lý có thể mô tả như sau:
- Bước 1: VM hoặc workload được backup.
- Bước 2: Dữ liệu backup được chia thành các data block.
- Bước 3: NAKIVO kiểm tra block mới với các block đã có trong repository.
- Bước 4: Nếu block chưa tồn tại, block được ghi vào repository.
- Bước 5: Nếu block đã tồn tại, block không được ghi lại.
- Bước 6: Recovery point lưu metadata/reference để biết cần dùng block nào khi restore.
4. Global deduplication và forever-incremental repository
Deduplication của NAKIVO hoạt động trong mô hình forever-incremental Backup Repository. Với kiểu lưu trữ này, lần backup đầu tiên tạo full backup, còn các lần sau chỉ gửi dữ liệu thay đổi vào repository. NAKIVO cho biết deduplication chỉ khả dụng cho forever-incremental Backup Repositories để tránh xung đột với deduplication appliances.
Trong repository, dữ liệu backup không nhất thiết được lưu thành từng file full riêng biệt cho từng VM. Thay vào đó, repository lưu các block dữ liệu và metadata để tái dựng recovery point khi cần restore. Backup Repository có cấu trúc riêng, không nên chỉnh sửa hoặc xóa thủ công các file/folder trong thư mục repository.
5. Cấu hình deduplication trong NAKIVO
Khi tạo Local Backup Repository, deduplication được cấu hình trong phần Data size reduction. Nếu bật Data size reduction, hệ thống sử dụng các cơ chế giảm dung lượng để tiết kiệm disk space. Trong phần settings, người dùng có thể chọn compression level, tùy chọn Store backups in separate files và Deduplication.
Các điểm cấu hình quan trọng:
- Data size reduction: Bật cơ chế giảm dung lượng backup
- Compression: Nén dữ liệu backup để giảm kích thước
- Deduplication: Loại bỏ duplicate data blocks
- Store backups in separate files: Lưu dữ liệu từng máy thành file riêng
- Encryption: Mã hóa repository, tùy loại repository và hệ điều hành
6. Deduplication giúp tiết kiệm dung lượng như thế nào?
NAKIVO sử dụng nhiều phương pháp để tối ưu kích thước backup, bao gồm deduplication và compression. Mục tiêu là cân bằng giữa lượng dữ liệu cần đọc, truyền và lưu trữ trong quá trình backup.
Ví dụ: nếu có 10 VM chạy cùng Windows Server 2016, mỗi VM có 10 GB dữ liệu hệ điều hành giống nhau, tổng dữ liệu là 100 GB. Khi bật deduplication, repository chỉ cần ghi một bản OS data khoảng 10 GB, tạo mức tiết kiệm kiểu 10:1. NAKIVO cũng cho biết VM backup deduplication có thể giúp giảm yêu cầu dung lượng lưu trữ từ 10X đến 30X trong một số trường hợp.
Khái niệm thường dùng: Deduplication ratio = Dung lượng dữ liệu gốc / Dung lượng sau dedup
7. Deduplication tiêu tốn tài nguyên hệ thống như thế nào?
Deduplication giúp tiết kiệm dung lượng, nhưng đổi lại sẽ tiêu tốn thêm tài nguyên hệ thống. Các tài nguyên bị ảnh hưởng chính gồm CPU, RAM, Disk I/O, Network và thời gian xử lý backup.
7.1 CPU
CPU được dùng để tính toán, kiểm tra và so sánh data block. Khi bật Data size reduction, tùy chọn này có thể tạo thêm tải lên CPU. Nếu bật compression, mức compression càng cao thì càng dùng nhiều CPU và có thể làm chậm tốc độ backup VM.
Ảnh hưởng CPU:
- Tính toán hash/checksum cho data blocks
- So sánh block mới với block đã có
- Xử lý metadata/reference
- Nén dữ liệu nếu bật compression
- Xử lý các tác vụ repository như verification hoặc space reclaim
7.2 RAM
RAM thường được sử dụng cho metadata, cache và quá trình xử lý luồng dữ liệu bởi Transporter. Khi repository lớn, nhiều VM hoặc nhiều backup job chạy đồng thời, lượng metadata cần xử lý có thể tăng. NAKIVO không đưa một con số RAM cố định cho dedup trong các trang nguồn trên, nhưng về mặt vận hành, RAM vẫn là tài nguyên cần quan tâm vì deduplication cần theo dõi block/reference và xử lý data stream.
7.3 Disk I/O
Deduplication làm tăng hoạt động đọc/ghi trên repository vì hệ thống cần kiểm tra block, ghi block mới và cập nhật metadata. Nếu repository nằm trên ổ chậm, NAS chậm hoặc NFS chậm, backup có thể bị ảnh hưởng rõ. NAKIVO cũng khuyến nghị các hoạt động tiêu tốn CPU như space reclamation hoặc verification nên chạy ngoài giờ làm việc; CPU được sử dụng là CPU của máy có Transporter được gán cho repository đó.
7.4 Network
Deduplication có thể giúp giảm network load vì duplicate data đã được backup trước đó không cần truyền lại. Deduplication giúp tiết kiệm storage space và giảm network load vì các duplicate blocks đã được backup trước đó sẽ không được truyền lại qua mạng.
7.5 Thời gian backup
Backup có thể nhanh hơn hoặc chậm hơn tùy dữ liệu và cấu hình. Nếu dữ liệu có nhiều phần trùng, dung lượng ghi vào repository giảm. Nhưng quá trình kiểm tra, so sánh block và nén dữ liệu vẫn cần thời gian xử lý. NAKIVO cũng cho biết với compression, mức nén cao hơn có thể làm backup chậm hơn do tiêu tốn CPU nhiều hơn.
8. Khi nào deduplication hiệu quả và khi nào không hiệu quả?
Deduplication hiệu quả khi dữ liệu có nhiều phần lặp lại. Ví dụ: nhiều VM cùng OS, VM clone từ template, nhiều recovery point có ít thay đổi hoặc file dữ liệu giống nhau được lưu ở nhiều nơi.
Deduplication kém hiệu quả hơn khi dữ liệu đã được nén, mã hóa hoặc thay đổi liên tục. Các loại dữ liệu đã nén sẵn như JPG, PNG, MPG, AVI, MP4, ZIP, RAR thường không dedup hiệu quả; dữ liệu mã hóa hoặc metadata-rich cũng kém hiệu quả hơn.
9. Deduplication appliance và NAKIVO
Ngoài deduplication tích hợp trong repository, NAKIVO còn hỗ trợ tích hợp với deduplication appliances. Deduplication appliance là thiết bị hoặc giải pháp chuyên dụng để loại bỏ dữ liệu trùng lặp trong môi trường bảo vệ dữ liệu. NAKIVO hỗ trợ loại repository chuyên biệt gọi là stream repository, tối ưu cho hiệu năng khi dùng với deduplication appliances.
Khi dùng deduplication appliance, built-in global deduplication của NAKIVO không được dùng để tránh “double deduplication”. Nói cách khác, nếu storage đích đã có cơ chế dedup chuyên dụng, không nên bật thêm dedup phần mềm cùng lúc để tránh tiêu tốn tài nguyên không cần thiết.
10. Ưu điểm và hạn chế của deduplication
Ưu điểm
- Giảm dung lượng backup repository
- Lưu được nhiều recovery point hơn
- Giảm chi phí lưu trữ
- Giảm lượng dữ liệu trùng phải truyền qua mạng
- Phù hợp với môi trường nhiều VM giống nhau
- Hiệu quả cao khi backup nhiều VM vào cùng repository
- Tốn thêm CPU để xử lý block/hash/compression
- Tăng nhu cầu xử lý metadata
- Có thể tăng Disk I/O trên repository
- Hiệu quả thấp với dữ liệu đã nén hoặc mã hóa
- Một số tùy chọn không thể thay đổi sau khi tạo repository
- Không nên bật đồng thời với deduplication appliance
11. Kết luận
Deduplication là kỹ thuật quan trọng trong backup, giúp giảm dung lượng lưu trữ bằng cách loại bỏ các block dữ liệu trùng lặp. Trong NAKIVO Backup & Replication, deduplication được triển khai ở cấp Backup Repository theo cơ chế global data deduplication, nghĩa là các block trong cùng forever-incremental repository đều được xét để loại bỏ trùng lặp. Khi phát hiện block đã tồn tại, NAKIVO không lưu lại block đó mà tạo reference đến block có sẵn.
Deduplication đặc biệt hiệu quả trong môi trường nhiều VM giống nhau, VM clone từ template hoặc nhiều recovery point có ít thay đổi. Tuy nhiên, tính năng này cũng tiêu tốn tài nguyên hệ thống như CPU, RAM, Disk I/O và thời gian xử lý. Khi kết hợp với compression, mức compression cao hơn sẽ tiết kiệm dung lượng tốt hơn nhưng dùng nhiều CPU hơn. Vì vậy, khi triển khai thực tế cần cân bằng giữa hiệu quả tiết kiệm dung lượng và hiệu năng hệ thống.
Bài viết liên quan
Được quan tâm