Bộ 7 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Veracity' tập trung vào khía cạnh nào sau đây?

Câu 2: Thành phần nào trong kiến trúc Hadoop HDFS chịu trách nhiệm quản lý metadata và điều phối truy cập của máy khách?

Câu 3: Kỹ thuật 'MapReduce' thường thực hiện quá trình nào để sắp xếp và chuyển dữ liệu từ các tác vụ Map sang các tác vụ Reduce?

Câu 4: Tại sao Apache Spark thường được đánh giá là có tốc độ xử lý nhanh hơn đáng kể so với Hadoop MapReduce truyền thống?

Câu 5: Trong định lý CAP dành cho các hệ thống phân tán, ba yếu tố cốt lõi được đề cập là gì?

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

Câu 7: Khái niệm 'Schema-on-read' thường gắn liền với kiến trúc lưu trữ dữ liệu nào?

Câu 8: Công cụ nào trong hệ sinh thái Hadoop cung cấp giao diện truy vấn SQL để phân tích dữ liệu lưu trữ trên HDFS?

Câu 9: Mục đích chính của việc sử dụng Apache Sqoop trong dự án Big Data là gì?

Câu 10: Apache Kafka đóng vai trò gì phổ biến nhất trong các hệ thống xử lý dữ liệu lớn hiện nay?

Câu 11: Đặc tính nào sau đây là cốt lõi của RDD (Resilient Distributed Dataset) trong Apache Spark?

Câu 12: Trong hệ sinh thái Hadoop 2.x trở lên, thành phần YARN (Yet Another Resource Negotiator) đảm nhận nhiệm vụ gì?

Câu 13: Apache HBase được phát triển dựa trên cảm hứng từ thiết kế của hệ thống nào của Google?

Câu 14: Ngôn ngữ 'Pig Latin' được sử dụng trong công cụ Apache Pig nhằm mục đích gì?

Câu 15: Định dạng lưu trữ 'Parquet' mang lại lợi ích chính nào cho việc phân tích dữ liệu lớn?

Câu 16: Apache Zookeeper thường được sử dụng trong các cụm Big Data để giải quyết vấn đề gì?

Câu 17: Kiến trúc 'Lambda' trong xử lý dữ liệu lớn kết hợp những yếu tố nào để đảm bảo tính toàn diện?

Câu 18: Đặc điểm nổi bật của Apache Flink so với các công cụ stream processing khác là gì?

Câu 19: Kỹ thuật 'Data Sharding' trong các cơ sở dữ liệu Big Data nhằm mục đích chính là gì?

Câu 20: Sự khác biệt cơ bản nhất giữa quy trình ETL và ELT trong xử lý dữ liệu lớn là gì?

Câu 21: Theo mặc định, hệ thống HDFS thường lưu trữ bao nhiêu bản sao (replication factor) cho mỗi khối dữ liệu?

Câu 22: Công cụ Apache Flume được thiết kế tối ưu nhất cho kịch bản nào?

Câu 23: Trong Spark SQL, đối tượng nào cung cấp giao diện lập trình hướng bảng với khả năng tối ưu hóa truy vấn mạnh mẽ?

Câu 24: Loại cơ sở dữ liệu NoSQL nào là lựa chọn tốt nhất để biểu diễn các mối quan hệ phức tạp như mạng xã hội hay mạng lưới giao thông?

Câu 25: Apache Oozie đóng vai trò gì trong một hệ thống Hadoop?