Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong mô hình 5V của Dữ liệu lớn, đặc trưng nào đề cập đến sự tin cậy và độ chính xác của dữ liệu?

Câu 2: Thành phần nào trong kiến trúc Hadoop chịu trách nhiệm quản lý siêu dữ liệu (metadata) và sơ đồ cây thư mục của HDFS?

Câu 3: Ưu điểm nổi bật nhất của Apache Spark so với MapReduce truyền thống trong việc xử lý dữ liệu là gì?

Câu 4: Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào sau đây?

Câu 5: Trong hệ sinh thái Hadoop, công cụ nào được thiết kế để chuyển đổi dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS)?

Câu 6: Đặc điểm chính của cơ sở dữ liệu NoSQL dạng 'Document-oriented' là gì?

Câu 7: Khái niệm 'Data Lake' (Hồ dữ liệu) khác biệt với 'Data Warehouse' (Kho dữ liệu) ở điểm cốt lõi nào?

Câu 8: Apache Kafka thường được sử dụng trong hệ thống Big Data với vai trò chủ yếu là gì?

Câu 9: Kỹ thuật 'Sharding' trong các hệ thống Big Data dùng để giải quyết vấn đề gì?

Câu 10: Trong mô hình MapReduce, giai đoạn 'Shuffle and Sort' có mục tiêu chính là gì?

Câu 11: Cấu trúc dữ liệu cốt lõi của Apache Spark, cho phép xử lý song song và có khả năng phục hồi lỗi, được gọi là gì?

Câu 12: Đặc trưng 'Variety' của Big Data phản ánh thách thức nào sau đây?

Câu 13: Tại sao HDFS lại mặc định sao chép mỗi khối dữ liệu (block) thành 3 bản trên các nút khác nhau?

Câu 14: Công cụ nào trong hệ sinh thái Hadoop cung cấp giao diện truy vấn giống SQL để phân tích dữ liệu trên HDFS?

Câu 15: Trong phân tích Big Data, 'Edge Computing' mang lại lợi ích gì so với việc gửi toàn bộ dữ liệu về Cloud?

Câu 16: Thuật ngữ 'Batch Processing' (Xử lý theo lô) thường được dùng để chỉ loại hình xử lý dữ liệu nào?

Câu 17: Hệ thống NoSQL nào sau đây thuộc loại 'Graph Database', chuyên dùng để xử lý các mối quan hệ phức tạp?

Câu 18: Vai trò của Apache Zookeeper trong một cụm Big Data là gì?

Câu 19: Trong ngữ cảnh Big Data, 'Data Governance' (Quản trị dữ liệu) tập trung vào vấn đề gì?

Câu 20: Hệ thống Apache Flink nổi tiếng với khả năng xử lý loại dữ liệu nào với độ trễ cực thấp?

Câu 21: Mục tiêu chính của việc sử dụng YARN (Yet Another Resource Negotiator) trong Hadoop 2.x là gì?

Câu 22: Trong kiến trúc Lambda, tầng 'Speed Layer' (Tầng tốc độ) có nhiệm vụ gì?

Câu 23: Sự khác biệt chính giữa Structured Data và Unstructured Data là gì?

Câu 24: Ứng dụng phổ biến nhất của phân tích cảm xúc (Sentiment Analysis) trên Big Data là gì?

Câu 25: Trong hệ thống Big Data, 'Veracity' thường đối mặt với thách thức nào nhất?