Cloudera Cloudera CDP: Giải pháp toàn diện cho quản lý dữ liệu lớn

TỔNG QUAN CDP PRIVATE CLOUD

Cloudera Data Platform (CDP) Private Cloud Base là phiên bản bên trong của Cloudera Data Platform, một nền tảng quản lý dữ liệu tích hợp được xây dựng cho doanh nghiệp. Với CDP, các doanh nghiệp quản lý và bảo mật toàn bộ vòng đời của dữ liệu - thu thập, làm giàu, phân tích, thử nghiệm và dự đoán với dữ liệu của họ - để thúc đẩy những hiểu biết hành động và ra quyết định dựa trên dữ liệu. Những trường hợp sử dụng kinh doanh có giá trị và mang tính chuyển đổi nhất yêu cầu các đường ống phân tích đa giai đoạn để xử lý các bộ dữ liệu doanh nghiệp. CDP cho phép các doanh nghiệp khai thác giá trị từ dữ liệu quy mô lớn, phức tạp, phân tán và thay đổi nhanh chóng, đồng thời cạnh tranh trong kỷ nguyên chuyển đổi số.

1722236380562.png


CDP Private Cloud cung cấp các khối lượng công việc mạnh mẽ về phân tích, giao dịch và học máy trên một nền tảng dữ liệu lai (hybrid). Nó kết hợp sự nhanh nhẹn và linh hoạt của đám mây công cộng với khả năng kiểm soát của trung tâm dữ liệu. Với phân tích đàn hồi và lưu trữ đối tượng có khả năng mở rộng, CDP Private Cloud hiện đại hóa các triển khai cụm đơn truyền thống thành một nền tảng dữ liệu toàn diện, có khả năng mở rộng và hiệu quả

CDP Private Cloud Base có thể hoạt động như một nền tảng phân tích dữ liệu độc lập, hoặc nó cũng có thể được sử dụng cùng với CDP Private Cloud Data Services để tạo thành giải pháp CDP Private Cloud hoàn chỉnh. CDP Private Cloud là một giải pháp lai hoặc đa cụm, nơi các tác vụ tính toán có thể được tách khỏi lưu trữ dữ liệu và dữ liệu có thể được truy cập từ các cụm từ xa.

Ví dụ, cụm CDP Private Cloud Base được triển khai cùng với CDP Private Cloud Data Services, một cụm tính toán riêng biệt chạy trên nền tảng container có thể được triển khai với CDP Private Cloud Base. Cách tiếp cận này cung cấp nền tảng cho các ứng dụng container hóa bằng cách quản lý lưu trữ, sơ đồ bảng, xác thực, ủy quyền và quản trị trong CDP Private Cloud Base. Nó bao gồm các thành phần khác nhau như Hệ thống Tập tin Phân tán Apache Hadoop (HDFS), Apache Hive, Apache HBase và Apache Impala, cùng với nhiều thành phần khác cho các khối lượng công việc chuyên biệt. Bạn có thể chọn bất kỳ sự kết hợp nào của các dịch vụ này để tạo ra các cụm đáp ứng yêu cầu kinh doanh và khối lượng công việc phân tích của bạn.

CDP Private Cloud xây dựng trên nền tảng lưu trữ và dịch vụ được thiết lập trong CDP Private Cloud Base và cung cấp những gì được gọi là "Data Services" dưới dạng khối lượng công việc container hóa. Các khối lượng công việc này, theo thời gian, sẽ bao gồm:

  • Data Flow and Streaming
  • Data Engineering
  • Data Warehouse
  • Operational Database
  • Machine Learning
1722239928403.png


KIẾN TRÚC CDP PRIVATE CLOUD

Hai cụm được triển khai với CDP Private Cloud:
  • Cụm CDP Private Cloud Base: chạy trên hệ điều hành Red Hat Enterprise Linux Server.
  • Cụm CDP Private Cloud Data Services: chạy trên nền tảng container.
Hai cụm này riêng biệt và độc lập với nhau từ góc độ kiến trúc và lập kế hoạch triển khai
Minh họa các thành phần chính trong một triển khai đầy đủ của CDP Private Cloud.

1722239983381.png


Cloudera Shared Data Experience (SDX) là một lớp cốt lõi của CDP Private Cloud Base, cung cấp các khả năng thống nhất về Data (dữ liệu), Schema (sơ đồ), Replication (sao chép), Security (an toàn) , Governance (quản trị).

  • Schema: Tự động thu thập và lưu trữ tất cả các định nghĩa sơ đồ và siêu dữ liệu theo cách các khối lượng công việc của nền tảng sử dụng và tạo ra chúng.
  • Replication: Cung cấp các bản sao dữ liệu và chính sách dữ liệu cần thiết để doanh nghiệp hoạt động, với tính toàn vẹn và bảo mật hoàn toàn.
  • Security: Kiểm soát truy cập dựa trên vai trò được áp dụng thống nhất trên toàn nền tảng, bao gồm mã hóa toàn ngăn xếp và quản lý khóa.
  • Governance: Khả năng kiểm toán, nguồn gốc dữ liệu và quản trị cấp doanh nghiệp được áp dụng trên toàn nền tảng với khả năng mở rộng phong phú để tích hợp với các đối tác.
Cloudera Runtime bao gồm một bộ lớn các thành phần phần mềm bao gồm Apache Hadoop, Apache Hive, Apache HBase, Apache Impala và nhiều thành phần khác cho các khối lượng công việc chuyên biệt.

Đối với các khối lượng công việc thông thường trên CDP Private Cloud Base, có sẵn một số gói dịch vụ được cấu hình sẵn, đôi khi được gọi là các hình dạng cụm (cluster shapes). Các dịch vụ này bao gồm:

  • Data Engineering: Cung cấp khả năng thu thập, chuyển đổi và phân tích dữ liệu. Dịch vụ bao gồm: HDFS, YARN, YARN Queue Manager, Ranger, Atlas, Hive, Hive trên Tez, Spark, Oozie, Hue và Data Analytics Studio.
  • Kho dữ liệu nhỏ (Data Mart): Cho phép bạn duyệt, truy vấn và khám phá dữ liệu của mình theo cách tương tác. Dịch vụ bao gồm: HDFS, Ranger, Atlas, Hive, Impala và Hue.
  • Cơ sở dữ liệu hoạt động (Operational Database): Cung cấp khả năng ghi, đọc độ trễ thấp và truy cập dữ liệu liên tục cho các trường hợp sử dụng Xử lý Giao dịch Trực tuyến (OLTP) và phân tích thời gian thực. Dịch vụ bao gồm: HDFS, Ranger, Atlas và HBase.
1722240180115.png


Cloudera Runtime là bản phân phối phần mềm mã nguồn mở cốt lõi trong CDP, được Cloudera duy trì, hỗ trợ, quản lý phiên bản và đóng gói thành một thực thể duy nhất. Cloudera Runtime bao gồm nhiều dự án mã nguồn mở khác nhau, bao gồm các thành phần Apache, các đầu nối và thành phần mã hóa, cùng các thành phần khác từ Cloudera. Các thành phần này cấu thành bộ phân phối cốt lõi của các công cụ quản lý dữ liệu trong CDP.

Cloudera Manager là một ứng dụng web cho phép quản trị viên và những người khác cấu hình, quản lý và giám sát các cụm CDP và các dịch vụ của Cloudera Runtime. Bạn cũng có thể sử dụng Cloudera Manager API để thực hiện các tác vụ quản lý theo chương trình.

Cloudera Runtime Component:


Thành phần
Mô tả
Apache ArrowArrow là một nền tảng phát triển đa ngôn ngữ cho dữ liệu trong bộ nhớ.
Apache AtlasAtlas cung cấp khả năng quản trị dữ liệu cho Hadoop. Atlas cũng là kho lưu trữ siêu dữ liệu chung, được thiết kế để trao đổi siêu dữ liệu bên trong và bên ngoài ngăn xếp Hadoop.
Apache AvroAvro là một khung gọi thủ tục từ xa theo hàng và khung tuần tự hóa dữ liệu cho Apache Hadoop.
Apache CalciteCalcite là một khung để xây dựng các hệ thống quản lý cơ sở dữ liệu và dữ liệu. Nó bao gồm một trình phân tích cú pháp SQL, một API để xây dựng các biểu thức trong đại số quan hệ và một công cụ lập kế hoạch truy vấn.
Apache HadoopApache Hadoop là một khung cho phép xử lý phân tán các tập dữ liệu lớn trên các cụm hệ thống, sử dụng các mô hình lập trình đơn giản. Apache Hadoop được thiết kế để mở rộng từ các máy chủ đơn lẻ đến hàng nghìn máy chủ. Hadoop cũng bao gồm YARN để quản lý tài nguyên và lập lịch và HDFS, Hệ thống Tệp Phân tán Hadoop.
Apache HBaseHBase cung cấp quyền truy cập ngẫu nhiên, liên tục vào dữ liệu dưới dạng cơ sở dữ liệu không quan hệ gốc. HBase lý tưởng cho các tình huống yêu cầu phân tích thời gian thực và dữ liệu dạng bảng cho các ứng dụng người dùng cuối.
Apache HiveHive là một hệ thống kho dữ liệu để tóm tắt, truy vấn và phân tích các tập dữ liệu khổng lồ, không đồng nhất.
Apache ImpalaImpala cung cấp các truy vấn SQL hiệu suất cao, độ trễ thấp trên dữ liệu được lưu trữ ở các định dạng tệp Apache Hadoop.
Apache KafkaKafka là một nền tảng truyền phát sự kiện phân tán và có tính sẵn sàng cao. Nó được sử dụng cho các pipeline dữ liệu hiệu suất cao, phân tích luồng, tích hợp dữ liệu và các ứng dụng quan trọng.
Apache KnoxKnox là một cổng ứng dụng để tương tác an toàn với các API REST và giao diện người dùng của một hoặc nhiều cụm Hadoop.
Apache KuduKudu kết hợp các lệnh chèn và cập nhật nhanh chóng, cùng với chức năng quét theo cột hiệu quả, để cho phép nhiều khối lượng công việc phân tích thời gian thực trên một lớp lưu trữ duy nhất. Kudu cung cấp phân tích nhanh trên dữ liệu nhanh.
Apache LivyLivy là một dịch vụ cho phép tương tác dễ dàng với cụm Spark thông qua giao diện REST.
Apache MapReduceMapReduce là một khung phần mềm để viết các ứng dụng xử lý khối lượng lớn dữ liệu song song trên các cụm lớn một cách đáng tin cậy và chịu lỗi.
Apache OozieOozie là một dịch vụ luồng công việc và phối hợp để quản lý các tác vụ Apache Hadoop.
Apache ORCOptimized Row Columnar (ORC) là một định dạng tệp theo cột có khả năng tự mô tả và nhận dạng kiểu, được thiết kế cho các khối lượng công việc Hadoop.
Apache OzoneOzone là một kho lưu trữ đối tượng có thể mở rộng, dự phòng và phân tán, được tối ưu hóa cho các khối lượng công việc dữ liệu lớn.
Apache ParquetParquet là một định dạng lưu trữ theo cột có sẵn cho bất kỳ dự án nào trong hệ sinh thái Hadoop, bất kể khung xử lý dữ liệu, mô hình dữ liệu hay ngôn ngữ lập trình.
Apache PhoenixPhoenix là một tiện ích cho Apache HBase cung cấp giao diện SQL ANSI theo chương trình.
Apache RangerRanger là một thành phần bảo mật của CDP cho phép bạn kiểm soát quyền truy cập vào các dịch vụ CDP. Ranger cũng cung cấp kiểm tra và báo cáo quyền truy cập.
Apache SolrSolr cung cấp quyền truy cập ngôn ngữ tự nhiên vào dữ liệu được lưu trữ hoặc đưa vào Hadoop, HBase hoặc lưu trữ đám mây.
Apache SparkSpark là một công cụ xử lý dữ liệu trong bộ nhớ, phân tán được thiết kế cho xử lý và phân tích dữ liệu quy mô lớn.
Apache SqoopSqoop là một công cụ dựa trên CLI để truyền dữ liệu số lượng lớn giữa các cơ sở dữ liệu quan hệ và HDFS hoặc kho lưu trữ đối tượng đám mây.
Apache TezTez là một khung mở rộng để xây dựng các ứng dụng xử lý dữ liệu hàng loạt và tương tác hiệu suất cao, được YARN phối hợp trong Apache Hadoop.
Apache YARNYARN là lớp xử lý để quản lý các ứng dụng phân tán chạy trên nhiều máy trong một mạng.
Apache ZeppelinZeppelin là một sổ ghi chép đa năng, dựa trên web cho phép phân tích dữ liệu tương tác theo hướng dữ liệu và các tài liệu cộng tác với SQL, Scala, Python, R và hơn thế nữa.
Apache ZooKeeperZooKeeper là một dịch vụ tập trung cho phép phối hợp phân tán có độ tin cậy cao, bao gồm duy trì thông tin cấu hình, đặt tên và cung cấp các dịch vụ đồng bộ hóa và nhóm phân tán.
 
Last edited:
  • Like
Reactions: l3g0n

About us

  • Securityzone.vn là một trang web chuyên về an ninh mạng và công nghệ thông tin. Trang web này cung cấp các bài viết, tin tức, video, diễn đàn và các dịch vụ liên quan đến lĩnh vực này. Securityzone.vn là một trong những cộng đồng IT lớn và uy tín tại Việt Nam, thu hút nhiều người quan tâm và tham gia. Securityzone.vn cũng là nơi để các chuyên gia, nhà nghiên cứu, sinh viên và người yêu thích an ninh mạng có thể trao đổi, học hỏi và chia sẻ kiến thức, kinh nghiệm và giải pháp về các vấn đề bảo mật trong thời đại số.

Quick Navigation

User Menu