Các cluster Dell ECS cho phép bạn di chuyển dữ liệu của mình đến bất kỳ storage nào tương thích với S3. Dell ECS gọi tính năng này là “Data Movement”, còn được gọi là copy-to-cloud. Đây là tính năng được giới thiệu trong ECS 3.8.0.1 cho phép bạn sao chép các đối tượng từ Dell ECS sang MinIO, tính năng này khá phổ biến với khách hàng và khách hàng tiềm năng đang hiện đại hóa storage stack của họ để hỗ trợ các yêu cầu về cơ sở hạ tầng dữ liệu AI. Data Movement được xây dựng trên công cụ open-source ECS Sync cung cấp khả năng sao chép dữ liệu song song.
Trong phần tổng quan này, chúng tôi sẽ chỉ cho bạn cách di chuyển dữ liệu từ Dell ECS sang MinIO bằng cách tập trung cụ thể vào các mục sau:
- Configuring Source and Target Buckets
- Setting up Data Movement Policies
- Monitoring and Logging the migration to MinIO
Configure Source and Target Buckets
Trước khi chúng ta có thể bắt đầu tạo Data Movement Policies, hãy đảm bảo rằng Source and Target Buckets được cấu hình cho Data Movement.
Configure Dell ECS source bucket
Bên trong Data Movement Policies sẽ quét source bucket để liệt kê tất cả các objects để di chuyển dữ liệu bằng Metadata (MD) Search.
Để Data Movement thực sự di chuyển dữ liệu, bạn cần đảm bảo MD Search được bật trên source bucket Dell ECS và bao gồm LastModified làm indexed field.
Configure MinIO Target Bucket
Để dữ liệu được chuyển đến MinIO, chúng ta cần tạo tài nguyên sau trong MInIO trước:
- Access and Secret Keys
- Bucket Name
- IAM policy
Khi tạo bucket, hãy đảm bảo enable bucket versioning, trừ khi bucket mục tiêu trong MinIO chỉ dành riêng cho data movement policy. Hãy đảm bảo ghi chú các chi tiết trên sau khi tạo vì giá trị của chúng sẽ cần sau này.
Chính sách IAM phải cho phép các API sau:
- s3:ListBucket
- s3:GetObject
- s3:PutObject
- s3:DeleteObject
Làm theo hướng dẫn này để tìm hiểu cách tạo IAM policies, Access Keys và Buckets trong MinIO console.
- Nhập username đã được thiết lập khi cấu hình cluster.
- Nhập password đã được thiết lập khi cấu hình cluster.
- Nhấp vào “Login”.
- Object Browser: Các bucket đã được tạo và dữ liệu đã tải lên sẽ được hiển thị ở đây.
- Access Keys: Access Keys theo kiểu AWS IAM
- Create Access Key: Nhấp vào đây để tạo quyền access and secret riêng biệt với quyền access and secret mà chúng ta đã sử dụng để khởi chạy cluster.
- Buckets: Liệt kê tất cả các bucket có sẵn.
- Create Bucket: Nếu không có buckets nào, hãy tiếp tục và tạo một bucket mới.
- Policies: Chính sách IAM
- Identity: Tạo và kết nối nhiều IDP khác nhau như OpenID và LDAP.
- Monitoring: Giám sát mọi khía cạnh của cluster và gửi đến Prometheus.
Sau khi các Source và Target buckets được định cấu hình, hãy thiết lập Data Movement Policy.
Data Movement Policy
Data Movement Policy là một định nghĩa trong Dell ECS có thể được thiết lập thông qua UI hoặc API để xác định objects nào trong source bucket Dell ECS sẽ được sao chép vào MinIO target bucket. Các tác vụ quét chính sách di chuyển dữ liệu được kích hoạt tự động nhưng có thể tạm dừng hoặc tiếp tục bất kỳ lúc nào. Điều này rất giống với quy trình MinIO’s batch replication. Theo mặc định, data movement policy sẽ di chuyển dữ liệu sang MinIO theo thứ tự thời gian LastModified.
Chúng tôi sẽ chỉ cho bạn hai kịch bản di chuyển dữ liệu khác nhau để bạn có ý tưởng về cách thức hoạt động của nó.
Data Movement to MinIO
Trong cấu hình này, chúng ta sẽ thêm các bits và bobs MinIO cần thiết để Dell ECS giao tiếp. Bước đầu tiên, sau khi MD Search được bật, là bật Data Mobility thành ON như minh họa bên dưới.
Sau khi Data Mobility được đặt thành ON, chúng ta có thể tiếp tục và cấu hình policy.
- Endpoint: Đặt MinIO endpoint thành http://<minio_ip>:<minio_port>
- Access and Secret Key: Khóa này được tạo trong MinIO console và được lưu trong bước trước đó.
- Bucket Name: Tên MinIO target bucket
- Logging Bucket: Đây là bucket trong Dell ECS ghi lại mọi lỗi trong quá trình di chuyển.
Xin lưu ý rằng nếu dữ liệu bị xóa khỏi Dell ECS source bucket, dữ liệu đó sẽ không bị xóa khỏi MinIO target bucket sau khi quá trình di chuyển hoàn tất.
Data Movement with Dremio to MinIO
Có một vài bước diễn ra trong quá trình di chuyển này
- Ứng dụng của khách hàng ghi vào Dell ECS bucket.
- ECS sao chép vào staging bucket trong MinIO được cấu hình bằng data movement policy.
- Dữ liệu được sao chép vào staging bucket.
- MinIO staging bucket sẽ sử dụng Event Notification để gửi tin nhắn đến RabbitMQ, Dremio sẽ subscribed.
- Dremio đọc tin nhắn và ingests data từ MinIO staging bucket vào Dremio bucket trong MinIO.
- Sau khi dữ liệu được ingestes, bạn có thể dọn dẹp MinIO staging bucket bằng lifecycle policy.
Data Movement Monitoring and Logging
Trong quá trình di chuyển dữ liệu, điều quan trọng là phải theo dõi toàn bộ quá trình di chuyển khi nó di chuyển dữ liệu đến MinIO. Dell ECS GUI cung cấp bảng điều khiển tổng quan với chức năng giám sát nâng cao hiển thị tổng số đối tượng đã sao chép, tổng số byte đã sao chép, độ trễ hình mờ, tổng số lỗi, đối tượng đã sao chép, số byte đã sao chép, v.v.
Bạn có thể phân tích sâu hơn để hiển thị thông tin cụ thể về nguồn/mục tiêu như số lượng đối tượng và kích thước thùng trong khoảng thời gian đã chọn trong quá trình di chuyển.
Trong sơ đồ ban đầu ở phần đầu, chúng tôi đã trình bày một log bucket mà chúng tôi có ở phía ECS, đây là nơi ghi lại tất cả các logs từ Data Movement. Điều này rất hữu ích để gỡ lỗi bất kỳ sự cố nào trong quá trình di chuyển, đặc biệt là khi mất rất nhiều thời gian do các hạn chế về phần cứng và vật lý.
Sau đây là ví dụ về cách các logs trông như thế nào:
2024-08-31T11:40:51Z DM.COPY demo sourcebucket ASIAD708D0875B4F32F8 test.pdf 2022-08-31T09:30:52Z 1,951,137 5895c19c9e742a88d1bec75d40288e0f http://targetendpoint targetbucket AKIA7A04FF4B251997E0 288 SUCCESS
Why migrate to MinIO?
MinIO là single Go binary có thể được khởi chạy trong nhiều loại môi trường đám mây và on-prem khác nhau. Nó rất nhẹ, nhưng cũng có nhiều tính năng như sao chép và mã hóa, và nó cung cấp khả năng tích hợp với nhiều ứng dụng khác nhau.
Chúng tôi đã đánh giá chuẩn tốc độ này ở mức 325 GiB/giây (349 GB/giây) on GET và 165 GiB/giây (177 GB/giây) on PUT chỉ với 32 nodes SSD NVMe có sẵn – và được sử dụng để xây dựng data lakes/lake houses cũng như khối lượng công việc phân tích và AI/ML.
Không chỉ vậy, MinIO còn bao gồm:
- Encryption: MinIO hỗ trợ cả mã hóa khi Rest và khi Transit. Điều này đảm bảo dữ liệu được mã hóa trong mọi khía cạnh của giao dịch từ thời điểm cuộc gọi được thực hiện cho đến khi đối tượng được đặt trong thùng.
- Bitrot Protection: Có một số lý do khiến dữ liệu có thể bị hỏng trên đĩa vật lý. Có thể là do điện áp tăng đột biến, lỗi trong firmware, đọc và ghi sai hướng cùng nhiều lý do khác. MinIO đảm bảo rằng những lỗi này được ghi lại và sửa ngay lập tức để đảm bảo tính toàn vẹn của dữ liệu.
- Erasure Coding: Thay vì đảm bảo redundancy của dữ liệu bằng RAID, điều này làm tăng thêm chi phí về hiệu suất, MinIO sử dụng tính năng redundancy and availability để tái tạo lại các đối tượng một cách nhanh chóng mà không cần bất kỳ phần cứng hoặc phần mềm bổ sung nào.
- Secure Access ACLs and PBAC: Hỗ trợ các chính sách kiểu IAM S3 với IDP tích hợp.
- Tiering: Đối với dữ liệu không được truy cập thường xuyên, bạn có thể chuyển dữ liệu sang một cold storage khác chạy MinIO để bạn có thể tối ưu hóa dữ liệu mới nhất trên phần cứng tốt nhất của mình mà không chiếm dung lượng dữ liệu không sử dụng.
- Object Locking and Retention: MinIO hỗ trợ object locking (retention) thực thi write once và sẵn sàng nhiều hoạt động trong thời gian lưu giữ xác định và vô thời hạn. Điều này cho phép tuân thủ việc lưu giữ dữ liệu quan trọng và đáp ứng các yêu cầu của SEC17a-4(f), FINRA 4511(C) và CFTC 1.31(c)-(d).
Thông tin về hãng cung cấp giải pháp