Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Lưu ý: Nội dung trong bài Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong hệ thống lưu trữ phân tán HDFS của Hadoop, thành phần nào đóng vai trò quản lý siêu dữ liệu (metadata) và điều phối việc truy cập tệp tin của người dùng?

A. DataNode
B. NameNode
C. JobTracker
D. TaskTracker

💡 Lời giải chi tiết:

Theo kiến trúc chuẩn của HDFS, NameNode là máy chủ trung tâm quản lý không gian tên hệ thống tệp và điều chỉnh việc truy cập của khách hàng, dẫn đến Kết luận Lý giải: NameNode

Câu 2: Đặc trưng nào của Dữ liệu lớn (Big Data) mô tả về sự không chắc chắn, không đồng nhất hoặc độ tin cậy thấp của dữ liệu đầu vào?

A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Variety (Đa dạng)
D. Veracity (Tính xác thực)

💡 Lời giải chi tiết:

Veracity đề cập đến chất lượng, tính chính xác và mức độ tin cậy của dữ liệu thu thập được trong các hệ thống Big Data, dẫn đến Kết luận Lý giải: Veracity (Tính xác thực)

Câu 3: Tại sao Apache Spark thường có hiệu suất xử lý dữ liệu nhanh hơn MapReduce trong các thuật toán lặp đi lặp lại?

A. Vì Spark sử dụng cơ chế xử lý dữ liệu trên bộ nhớ trong (in-memory) thay vì ghi dữ liệu trung gian xuống đĩa cứng
B. Vì Spark chỉ hỗ trợ xử lý dữ liệu có cấu trúc từ các cơ sở dữ liệu quan hệ
C. Vì Spark không yêu cầu cài đặt trên các cụm máy tính phân tán
D. Vì Spark loại bỏ hoàn toàn giai đoạn Shuffle trong quá trình xử lý

💡 Lời giải chi tiết:

Khả năng lưu trữ dữ liệu trung gian trên RAM giúp Spark giảm thiểu độ trễ do thao tác I/O đĩa cứng so với mô hình của MapReduce, dẫn đến Kết luận Lý giải: Vì Spark sử dụng cơ chế xử lý dữ liệu trên bộ nhớ trong (in-memory) thay vì ghi dữ liệu trung gian xuống đĩa cứng

Câu 4: Trong định lý CAP dành cho các hệ thống phân tán, ba yếu tố cốt lõi được đề cập bao gồm những gì?

A. Complexity, Availability, Partition Tolerance
B. Consistency, Availability, Partition Tolerance
C. Consistency, Adaptability, Performance
D. Capacity, Availability, Persistence

💡 Lời giải chi tiết:

Định lý CAP khẳng định một hệ thống lưu trữ dữ liệu phân tán không thể đồng thời đảm bảo cả ba yếu tố là Tính nhất quán, Tính sẵn sàng và Tính chịu lỗi phân vùng, dẫn đến Kết luận Lý giải: Consistency, Availability, Partition Tolerance

Câu 5: Loại cơ sở dữ liệu NoSQL nào là lựa chọn tối ưu nhất để lưu trữ và truy vấn dữ liệu có mối quan hệ phức tạp như mạng xã hội hoặc bản đồ giao thông?

A. Key-Value Store
B. Document Store
C. Graph Database
D. Column-Family Store

💡 Lời giải chi tiết:

Cơ sở dữ liệu đồ thị sử dụng các nút và cạnh để biểu diễn các mối liên kết phức tạp một cách hiệu quả hơn so với các mô hình dữ liệu khác, dẫn đến Kết luận Lý giải: Graph Database

Câu 6: Nhiệm vụ chính của thành phần YARN (Yet Another Resource Negotiator) trong kiến trúc Hadoop 2.x là gì?

A. Lưu trữ dữ liệu dưới dạng các khối (blocks)
B. Chuyển đổi các truy vấn SQL thành các tác vụ MapReduce
C. Quản lý tài nguyên cụm và lập lịch thực thi cho các ứng dụng
D. Nén dữ liệu để giảm dung lượng lưu trữ trên đĩa

💡 Lời giải chi tiết:

YARN tách biệt chức năng quản lý tài nguyên và lập lịch công việc khỏi khung xử lý dữ liệu, cho phép nhiều công cụ cùng chạy trên một cụm Hadoop, dẫn đến Kết luận Lý giải: Quản lý tài nguyên cụm và lập lịch thực thi cho các ứng dụng

Câu 7: Trong mô hình lập trình MapReduce, giai đoạn nào chịu trách nhiệm tập hợp, sắp xếp và chuyển các cặp 'key-value' từ các tác vụ Map sang các tác vụ Reduce?

A. Giai đoạn Mapping
B. Giai đoạn Shuffling and Sorting
C. Giai đoạn Reducing
D. Giai đoạn Input Splitting

💡 Lời giải chi tiết:

Shuffle and Sort là bước trung gian quan trọng giúp đảm bảo tất cả các giá trị có cùng một khóa sẽ được xử lý bởi cùng một Reducer, dẫn đến Kết luận Lý giải: Giai đoạn Shuffling and Sorting

Câu 8: Công cụ nào trong hệ sinh thái Hadoop được thiết kế đặc biệt để di chuyển dữ liệu hàng loạt giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?

A. Apache Flume
B. Apache Oozie
C. Apache Sqoop
D. Apache Zookeeper

💡 Lời giải chi tiết:

Apache Sqoop cung cấp các dòng lệnh để nhập dữ liệu từ SQL sang HDFS/Hive và ngược lại một cách tự động, dẫn đến Kết luận Lý giải: Apache Sqoop

Câu 9: Sự khác biệt cơ bản nhất giữa Data Lake và Data Warehouse là gì?

A. Data Lake chỉ lưu trữ dữ liệu văn bản, còn Data Warehouse lưu trữ hình ảnh
B. Data Lake lưu trữ dữ liệu thô ở định dạng nguyên bản, trong khi Data Warehouse lưu trữ dữ liệu đã qua xử lý và có cấu trúc
C. Data Warehouse có dung lượng lưu trữ lớn hơn nhiều so với Data Lake
D. Data Lake chỉ hoạt động trên nền tảng đám mây, còn Data Warehouse chỉ hoạt động tại chỗ

💡 Lời giải chi tiết:

Data Lake cho phép lưu trữ mọi loại dữ liệu (chưa cấu trúc hoặc bán cấu trúc) để phân tích sau này, trong khi Data Warehouse yêu cầu dữ liệu phải được làm sạch và định nghĩa sơ đồ trước khi nạp, dẫn đến Kết luận Lý giải: Data Lake lưu trữ dữ liệu thô ở định dạng nguyên bản, trong khi Data Warehouse lưu trữ dữ liệu đã qua xử lý và có cấu trúc

Câu 10: Thành phần nào của Apache Spark cung cấp khả năng xử lý các dòng dữ liệu trực tuyến (real-time stream processing)?

A. Spark SQL
B. MLlib
C. Spark Streaming
D. GraphX

💡 Lời giải chi tiết:

Spark Streaming chia nhỏ các dòng dữ liệu trực tiếp thành các lô nhỏ (micro-batches) để xử lý thông qua công cụ Spark Core, dẫn đến Kết luận Lý giải: Spark Streaming

Câu 11: Trong MapReduce, thành phần 'Combiner' được sử dụng nhằm mục đích chính là gì?

A. Thay thế hoàn toàn cho giai đoạn Reduce
B. Thực hiện tổng hợp dữ liệu cục bộ tại phía Map để giảm lưu lượng dữ liệu truyền qua mạng
C. Kiểm tra tính hợp lệ của dữ liệu đầu vào
D. Phân chia dữ liệu đầu vào thành các khối nhỏ hơn

💡 Lời giải chi tiết:

Combiner đóng vai trò như một bộ giảm dữ liệu sơ bộ tại các nút bản địa, giúp tối ưu hóa băng thông trong quá trình Shuffle, dẫn đến Kết luận Lý giải: Thực hiện tổng hợp dữ liệu cục bộ tại phía Map để giảm lưu lượng dữ liệu truyền qua mạng

Câu 12: Cơ sở dữ liệu Apache Cassandra thuộc loại NoSQL nào dưới đây?

A. Document store
B. Key-value store
C. Wide-column store
D. Graph store

💡 Lời giải chi tiết:

Cassandra được thiết kế theo mô hình các cột rộng (wide-column) giúp nó có khả năng mở rộng cao và hiệu suất ghi vượt trội trên các cụm máy tính lớn, dẫn đến Kết luận Lý giải: Wide-column store

Câu 13: Khái niệm 'Speculative Execution' (Thực thi dự đoán) trong Hadoop được hiểu như thế nào?

A. Dự đoán kết quả phân tích dữ liệu trước khi hoàn thành công việc
B. Chạy song song một bản sao của cùng một tác vụ đang xử lý chậm trên một nút khác để rút ngắn thời gian hoàn thành
C. Tự động xóa các dữ liệu rác để giải phóng bộ nhớ
D. Ưu tiên thực hiện các tác vụ có kích thước dữ liệu nhỏ nhất

💡 Lời giải chi tiết:

Cơ chế này giúp loại bỏ ảnh hưởng của các 'stragglers' (các nút chạy chậm bất thường) đến tổng thời gian thực hiện công việc, dẫn đến Kết luận Lý giải: Chạy song song một bản sao của cùng một tác vụ đang xử lý chậm trên một nút khác để rút ngắn thời gian hoàn thành

Câu 14: Định dạng tệp tin Parquet thường được ưu tiên sử dụng trong các hệ thống Big Data vì lý do chính nào?

A. Đây là định dạng dạng văn bản thuần túy nên dễ đọc bởi con người
B. Đây là định dạng lưu trữ dạng cột (columnar) giúp nén dữ liệu tốt và tối ưu cho các truy vấn phân tích
C. Định dạng này không hỗ trợ sơ đồ dữ liệu (schema) nên rất linh hoạt
D. Tốc độ ghi dữ liệu của Parquet nhanh hơn mọi định dạng tệp tin khác

💡 Lời giải chi tiết:

Lưu trữ dạng cột cho phép hệ thống chỉ đọc các cột cần thiết cho truy vấn và áp dụng các kỹ thuật nén hiệu quả, dẫn đến Kết luận Lý giải: Đây là định dạng lưu trữ dạng cột (columnar) giúp nén dữ liệu tốt và tối ưu cho các truy vấn phân tích

Câu 15: Trong hệ thống Apache Kafka, một 'Partition' (Phân vùng) đóng vai trò gì trong một Topic?

A. Là một bản sao dự phòng của toàn bộ dữ liệu trong hệ thống
B. Là đơn vị cơ bản để chia nhỏ dữ liệu trong một Topic, cho phép xử lý song song và tăng khả năng mở rộng
C. Là một tệp tin cấu hình quy định quyền truy cập của người dùng
D. Là một công cụ dùng để lọc dữ liệu trước khi gửi tới Consumer

💡 Lời giải chi tiết:

Việc chia Topic thành nhiều Partition cho phép Kafka phân phối tải trên nhiều Broker và cho phép nhiều Consumer đọc dữ liệu đồng thời, dẫn đến Kết luận Lý giải: Là đơn vị cơ bản để chia nhỏ dữ liệu trong một Topic, cho phép xử lý song song và tăng khả năng mở rộng

Câu 16: Thư viện nào của Apache Spark cung cấp các thuật toán học máy (Machine Learning) phổ biến như phân loại, hồi quy và phân cụm?

A. Spark SQL
B. GraphX
C. MLlib
D. Spark Streaming

💡 Lời giải chi tiết:

MLlib là thư viện học máy có khả năng mở rộng của Spark, chứa các tiện ích và thuật toán được tối ưu hóa cho môi trường phân tán, dẫn đến Kết luận Lý giải: MLlib

Câu 17: Vấn đề 'Small Files Problem' trong HDFS gây ra ảnh hưởng tiêu cực nhất đến thành phần nào?

A. DataNode do phải quản lý quá nhiều khối dữ liệu vật lý
B. NameNode do phải lưu trữ quá nhiều siêu dữ liệu trong bộ nhớ RAM
C. Mạng nội bộ do băng thông bị chiếm dụng bởi các tệp tin nhỏ
D. Bộ nhớ đệm của các máy khách (Client cache)

💡 Lời giải chi tiết:

Mỗi đối tượng tệp tin và khối dữ liệu trong HDFS chiếm khoảng 150 bytes trong bộ nhớ của NameNode, nên quá nhiều tệp nhỏ sẽ làm cạn kiệt tài nguyên NameNode, dẫn đến Kết luận Lý giải: NameNode do phải lưu trữ quá nhiều siêu dữ liệu trong bộ nhớ RAM

Câu 18: Trong lý thuyết CAP, tính 'nhất quán' (Consistency) được hiểu cụ thể là gì?

A. Dữ liệu luôn sẵn sàng để phản hồi mọi yêu cầu từ khách hàng
B. Mọi yêu cầu đọc sẽ nhận được dữ liệu được ghi gần nhất hoặc một thông báo lỗi
C. Hệ thống vẫn hoạt động bình thường ngay cả khi mạng bị ngắt kết nối giữa các nút
D. Dữ liệu được lưu trữ ở nhiều định dạng khác nhau để đảm bảo an toàn

💡 Lời giải chi tiết:

Tính nhất quán đảm bảo rằng tất cả các nút trong hệ thống đều nhìn thấy cùng một dữ liệu tại cùng một thời điểm sau khi một thao tác ghi hoàn tất, dẫn đến Kết luận Lý giải: Mọi yêu cầu đọc sẽ nhận được dữ liệu được ghi gần nhất hoặc một thông báo lỗi

Câu 19: Apache Hive được sử dụng trong hệ sinh thái Hadoop chủ yếu để làm gì?

A. Xử lý dòng dữ liệu theo thời gian thực
B. Cung cấp giao diện giống SQL để truy vấn và quản lý các tập dữ liệu lớn trong HDFS
C. Quản lý việc đồng bộ hóa giữa các nút trong cụm
D. Thay thế hoàn toàn cho hệ thống tệp tin HDFS

💡 Lời giải chi tiết:

Hive cho phép những người có kỹ năng SQL có thể phân tích dữ liệu trên Hadoop mà không cần viết mã Java MapReduce phức tạp, dẫn đến Kết luận Lý giải: Cung cấp giao diện giống SQL để truy vấn và quản lý các tập dữ liệu lớn trong HDFS

Câu 20: Chương trình 'Driver' trong một ứng dụng Apache Spark có vai trò gì?

A. Trực tiếp lưu trữ các khối dữ liệu RDD
B. Điều hành hàm main, tạo SparkContext và lập kế hoạch thực thi cho các tác vụ
C. Cung cấp giao diện đồ họa cho người dùng cuối
D. Thực hiện các phép toán logic trên các nút công nhân (Worker nodes)

💡 Lời giải chi tiết:

Driver là quy trình điều phối trung tâm, chịu trách nhiệm chuyển đổi mã của người dùng thành các đơn vị công việc để gửi đến các Executor, dẫn đến Kết luận Lý giải: Điều hành hàm main, tạo SparkContext và lập kế hoạch thực thi cho các tác vụ

Câu 21: Hệ thống Apache Zookeeper thường được tích hợp vào các nền tảng Big Data nhằm mục đích gì?

A. Lưu trữ dữ liệu lịch sử của người dùng
B. Đồng bộ hóa, quản lý cấu hình và cung cấp dịch vụ tên cho các hệ thống phân tán
C. Nén và giải nén dữ liệu tự động
D. Xây dựng các mô hình học máy phức tạp

💡 Lời giải chi tiết:

Zookeeper giúp các dịch vụ phân tán phối hợp với nhau hiệu quả, tránh các xung đột và quản lý trạng thái của các nút trong cụm, dẫn đến Kết luận Lý giải: Đồng bộ hóa, quản lý cấu hình và cung cấp dịch vụ tên cho các hệ thống phân tán

Câu 22: Phương thức xử lý nào thực hiện tính toán trên dữ liệu ngay khi nó vừa được tạo ra hoặc vừa nạp vào hệ thống?

A. Batch Processing (Xử lý theo lô)
B. Stream Processing (Xử lý dòng)
C. Offline Processing (Xử lý ngoại tuyến)
D. Manual Processing (Xử lý thủ công)

💡 Lời giải chi tiết:

Xử lý dòng cho phép phản hồi tức thì với các sự kiện dữ liệu, phù hợp cho các ứng dụng như phát hiện gian lận hoặc giám sát hệ thống, dẫn đến Kết luận Lý giải: Stream Processing (Xử lý dòng)

Câu 23: Khi một NodeManager trong Hadoop YARN bị lỗi trong lúc đang thực hiện tác vụ, hệ thống sẽ xử lý như thế nào?

A. Toàn bộ công việc (Job) sẽ bị hủy bỏ ngay lập tức
B. Dữ liệu trên nút đó sẽ bị mất vĩnh viễn
C. ResourceManager sẽ phát hiện lỗi và yêu cầu lập lịch lại các tác vụ đó trên các nút khác đang hoạt động
D. Hệ thống sẽ tạm dừng cho đến khi người quản trị khởi động lại nút bị lỗi

💡 Lời giải chi tiết:

Khả năng chịu lỗi của YARN đảm bảo tính sẵn sàng bằng cách tự động phân phối lại các công việc bị gián đoạn sang các tài nguyên còn trống khác, dẫn đến Kết luận Lý giải: ResourceManager sẽ phát hiện lỗi và yêu cầu lập lịch lại các tác vụ đó trên các nút khác đang hoạt động

Câu 24: Sự khác biệt chính giữa HDFS và Amazon S3 khi được dùng làm kho lưu trữ cho dữ liệu lớn là gì?

A. HDFS là dịch vụ lưu trữ đối tượng, còn S3 là hệ thống tệp tin cục bộ
B. HDFS là hệ thống tệp phân tán chạy trên các ổ đĩa cục bộ của cụm máy tính, còn S3 là dịch vụ lưu trữ đối tượng qua Internet
C. S3 không hỗ trợ lưu trữ các tệp tin có kích thước lớn hơn 1GB
D. HDFS chỉ có thể lưu trữ dữ liệu có cấu trúc, còn S3 lưu trữ mọi loại dữ liệu

💡 Lời giải chi tiết:

HDFS cung cấp độ trễ thấp do dữ liệu nằm gần bộ vi xử lý, trong khi S3 mang lại khả năng mở rộng và độ bền cực cao như một dịch vụ đám mây tách biệt, dẫn đến Kết luận Lý giải: HDFS là hệ thống tệp phân tán chạy trên các ổ đĩa cục bộ của cụm máy tính, còn S3 là dịch vụ lưu trữ đối tượng qua Internet

Câu 25: Trừu tượng dữ liệu cơ bản nhất trong Apache Spark, cho phép xử lý dữ liệu song song và có khả năng phục hồi lỗi, được gọi là gì?

A. DataFrame
B. DataSet
C. RDD (Resilient Distributed Dataset)
D. DataArray

💡 Lời giải chi tiết:

RDD là thành phần cốt lõi của Spark, đại diện cho một tập hợp các đối tượng bất biến được phân tán trên các nút của cụm máy tính, dẫn đến Kết luận Lý giải: RDD (Resilient Distributed Dataset)

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 174 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 191 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 208 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 225 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 242 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 259 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong hệ thống lưu trữ phân tán HDFS của Hadoop, thành phần nào đóng vai trò quản lý siêu dữ liệu (metadata) và điều phối việc truy cập tệp tin của người dùng?

Câu 2: Đặc trưng nào của Dữ liệu lớn (Big Data) mô tả về sự không chắc chắn, không đồng nhất hoặc độ tin cậy thấp của dữ liệu đầu vào?

Câu 3: Tại sao Apache Spark thường có hiệu suất xử lý dữ liệu nhanh hơn MapReduce trong các thuật toán lặp đi lặp lại?

Câu 4: Trong định lý CAP dành cho các hệ thống phân tán, ba yếu tố cốt lõi được đề cập bao gồm những gì?

Câu 5: Loại cơ sở dữ liệu NoSQL nào là lựa chọn tối ưu nhất để lưu trữ và truy vấn dữ liệu có mối quan hệ phức tạp như mạng xã hội hoặc bản đồ giao thông?

Câu 6: Nhiệm vụ chính của thành phần YARN (Yet Another Resource Negotiator) trong kiến trúc Hadoop 2.x là gì?

Câu 7: Trong mô hình lập trình MapReduce, giai đoạn nào chịu trách nhiệm tập hợp, sắp xếp và chuyển các cặp 'key-value' từ các tác vụ Map sang các tác vụ Reduce?

Câu 8: Công cụ nào trong hệ sinh thái Hadoop được thiết kế đặc biệt để di chuyển dữ liệu hàng loạt giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?

Câu 9: Sự khác biệt cơ bản nhất giữa Data Lake và Data Warehouse là gì?

Câu 10: Thành phần nào của Apache Spark cung cấp khả năng xử lý các dòng dữ liệu trực tuyến (real-time stream processing)?

Câu 11: Trong MapReduce, thành phần 'Combiner' được sử dụng nhằm mục đích chính là gì?

Câu 12: Cơ sở dữ liệu Apache Cassandra thuộc loại NoSQL nào dưới đây?

Câu 13: Khái niệm 'Speculative Execution' (Thực thi dự đoán) trong Hadoop được hiểu như thế nào?

Câu 14: Định dạng tệp tin Parquet thường được ưu tiên sử dụng trong các hệ thống Big Data vì lý do chính nào?

Câu 15: Trong hệ thống Apache Kafka, một 'Partition' (Phân vùng) đóng vai trò gì trong một Topic?

Câu 16: Thư viện nào của Apache Spark cung cấp các thuật toán học máy (Machine Learning) phổ biến như phân loại, hồi quy và phân cụm?

Câu 17: Vấn đề 'Small Files Problem' trong HDFS gây ra ảnh hưởng tiêu cực nhất đến thành phần nào?

Câu 18: Trong lý thuyết CAP, tính 'nhất quán' (Consistency) được hiểu cụ thể là gì?

Câu 19: Apache Hive được sử dụng trong hệ sinh thái Hadoop chủ yếu để làm gì?

Câu 20: Chương trình 'Driver' trong một ứng dụng Apache Spark có vai trò gì?

Câu 21: Hệ thống Apache Zookeeper thường được tích hợp vào các nền tảng Big Data nhằm mục đích gì?

Câu 22: Phương thức xử lý nào thực hiện tính toán trên dữ liệu ngay khi nó vừa được tạo ra hoặc vừa nạp vào hệ thống?

Câu 23: Khi một NodeManager trong Hadoop YARN bị lỗi trong lúc đang thực hiện tác vụ, hệ thống sẽ xử lý như thế nào?

Câu 24: Sự khác biệt chính giữa HDFS và Amazon S3 khi được dùng làm kho lưu trữ cho dữ liệu lớn là gì?

Câu 25: Trừu tượng dữ liệu cơ bản nhất trong Apache Spark, cho phép xử lý dữ liệu song song và có khả năng phục hồi lỗi, được gọi là gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top