Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc trưng nào đại diện cho độ tin cậy và tính chính xác của dữ liệu?

Câu 2: Thành phần nào trong kiến trúc Hadoop HDFS đóng vai trò quản lý metadata và điều phối truy cập tệp của người dùng?

Câu 3: Tại sao Apache Spark thường được đánh giá là có tốc độ xử lý nhanh hơn MapReduce truyền thống trong các thuật toán lặp?

Câu 4: Trong định lý CAP áp dụng cho các hệ thống phân tán, ba yếu tố nào không thể được tối ưu hóa đồng thời 100%?

Câu 5: Đặc điểm cốt lõi phân biệt cơ sở dữ liệu NoSQL với cơ sở dữ liệu quan hệ (RDBMS) truyền thống là gì?

Câu 6: Trong hệ sinh thái Hadoop, công cụ nào được sử dụng để chuyển đổi dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?

Câu 7: Loại cơ sở dữ liệu NoSQL nào như Neo4j tập trung vào việc lưu trữ các mối quan hệ phức tạp giữa các thực thể?

Câu 8: Khái niệm 'Data Lake' trong kiến trúc Big Data khác với 'Data Warehouse' ở điểm chính nào?

Câu 9: Trong Apache Spark, RDD (Resilient Distributed Dataset) có đặc tính quan trọng nào giúp hệ thống tự phục hồi khi có lỗi nút xảy ra?

Câu 10: Công nghệ nào đóng vai trò là một hệ thống nhắn tin phân tán (Distributed Messaging System) phổ biến để xử lý luồng dữ liệu thời gian thực?

Câu 11: Mục đích chính của thành phần YARN (Yet Another Resource Negotiator) trong Hadoop 2.x là gì?

Câu 12: Đặc điểm 'Variety' trong Dữ liệu lớn đề cập đến điều gì?

Câu 13: Apache Hive cung cấp giao diện nào giúp người dùng dễ dàng thao tác với dữ liệu trên Hadoop?

Câu 14: Trong giai đoạn 'Reduce' của mô hình MapReduce, nhiệm vụ chính của nó là gì?

Câu 15: HBase là loại cơ sở dữ liệu gì trong hệ sinh thái Big Data?

Câu 16: Yếu tố 'Velocity' (Tốc độ) trong Big Data thường được biểu hiện rõ nhất qua ứng dụng nào sau đây?

Câu 17: Ưu điểm chính của việc lưu trữ dữ liệu theo định dạng cột (Columnar Storage) như Parquet so với định dạng dòng (Row-based) là gì?

Câu 18: Công cụ Apache Flume thường được sử dụng hiệu quả nhất cho mục đích nào?

Câu 19: Trong Apache Spark, thành phần nào chịu trách nhiệm điều phối việc thực thi các tác vụ (tasks) trên các nút công nhân (worker nodes)?

Câu 20: Thuật ngữ 'Dark Data' trong lĩnh vực Dữ liệu lớn thường dùng để chỉ điều gì?

Câu 21: Trong kiến trúc Lambda (Lambda Architecture), lớp nào (layer) chịu trách nhiệm cung cấp các kết quả truy vấn có độ trễ thấp nhất bằng cách xử lý dữ liệu mới nhất?

Câu 22: Thành phần 'Zookeeper' trong hệ sinh thái Hadoop đóng vai trò gì?

Câu 23: Ví dụ nào sau đây đại diện cho 'Dữ liệu phi cấu trúc' (Unstructured Data)?

Câu 24: Trong Hadoop 2.x, làm thế nào để khắc phục điểm yếu 'Single Point of Failure' (Lỗi tại một điểm duy nhất) của NameNode?

Câu 25: Thuật ngữ 'Data Sharding' trong các hệ thống Big Data có ý nghĩa gì?