Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Veracity' tập trung vào khía cạnh nào?

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) lưu trữ các tệp lớn bằng cách chia nhỏ chúng thành các phần có kích thước cố định được gọi là gì?

Câu 3: Ưu điểm vượt trội nhất của Apache Spark so với mô hình MapReduce truyền thống trong xử lý dữ liệu là gì?

Câu 4: Đặc điểm chính của mô hình 'Schema-on-read' thường thấy trong các hồ dữ liệu (Data Lake) là gì?

Câu 5: Trong lý thuyết CAP áp dụng cho các hệ thống phân tán, ba yếu tố nào không thể đồng thời đạt được ở mức tối ưu?

Câu 6: Apache Kafka thường được sử dụng trong hệ sinh thái Big Data để giải quyết vấn đề nào?

Câu 7: Sự khác biệt cốt lõi giữa quy trình ETL và ELT trong xử lý dữ liệu lớn là gì?

Câu 8: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ dữ liệu có mối quan hệ phức tạp và kết nối chằng chịt như mạng xã hội?

Câu 9: Thành phần nào trong Hadoop chịu trách nhiệm quản lý Metadata (siêu dữ liệu) của toàn bộ hệ thống tệp HDFS?

Câu 10: Trong mô hình MapReduce, giai đoạn nào nằm giữa giai đoạn Map và Reduce để nhóm các cặp 'key-value' có cùng khóa?

Câu 11: Tại sao định dạng lưu trữ dạng cột (Columnar Storage) như Apache Parquet lại hiệu quả hơn dạng dòng đối với các truy vấn phân tích (OLAP)?

Câu 12: Yếu tố 'Velocity' trong Big Data thường được minh chứng rõ nét nhất qua ứng dụng nào sau đây?

Câu 13: Vai trò chủ chốt của Dữ liệu lớn (Big Data) đối với sự phát triển của Học máy (Machine Learning) hiện nay là gì?

Câu 14: Mục đích chính của Quản trị dữ liệu (Data Governance) trong một dự án Big Data là gì?

Câu 15: Khái niệm 'Edge Computing' giúp ích gì cho việc xử lý Big Data trong các hệ thống IoT?

Câu 16: Dữ liệu nào sau đây được phân loại là dữ liệu phi cấu trúc (Unstructured Data)?

Câu 17: Thành phần YARN trong hệ sinh thái Hadoop đóng vai trò gì?

Câu 18: Apache Hive được tạo ra nhằm mục đích chính là gì?

Câu 19: Trong HDFS, việc mặc định sao lưu mỗi khối dữ liệu (Block) thành 3 bản (Replication Factor = 3) nhằm mục đích gì?

Câu 20: Apache ZooKeeper đóng vai trò gì trong một hệ thống phân tán Big Data?

Câu 21: Ứng dụng phân tích cảm xúc (Sentiment Analysis) trên dữ liệu Big Data thường sử dụng kỹ thuật nào?

Câu 22: Kiến trúc Lambda (Lambda Architecture) trong xử lý dữ liệu lớn được thiết kế để cân bằng giữa hai yếu tố nào?

Câu 23: Hiện tượng 'Data Silo' gây ra trở ngại gì lớn nhất cho các tổ chức khi triển khai Big Data?

Câu 24: Tại sao đối tượng RDD (Resilient Distributed Dataset) trong Spark lại có tính chất 'Fault-tolerant' (chịu lỗi)?

Câu 25: Khi nào một tổ chức nên ưu tiên sử dụng Graph Database thay vì Relational Database?