Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Câu 1: Đặc trưng 'Variety' (Sự đa dạng) trong mô hình 5V của Dữ liệu lớn chủ yếu đề cập đến yếu tố nào?

Câu 2: Trong hệ sinh thái Hadoop, thành phần nào đóng vai trò quản lý việc lưu trữ dữ liệu phân tán trên các nút?

Câu 3: Đặc điểm cốt lõi giúp Apache Spark xử lý dữ liệu nhanh hơn MapReduce trong nhiều trường hợp là gì?

Câu 4: Thuật ngữ 'Veracity' trong Dữ liệu lớn dùng để chỉ khía cạnh nào?

Câu 5: Theo định lý CAP trong hệ thống phân tán, ba yếu tố mà một hệ thống không thể đồng thời đảm bảo hoàn hảo cùng lúc là gì?

Câu 6: Kiến trúc 'Data Lake' (Hồ dữ liệu) khác biệt cơ bản với 'Data Warehouse' (Kho dữ liệu) ở điểm nào?

Câu 7: Trong mô hình MapReduce, giai đoạn 'Reduce' thực hiện nhiệm vụ chính là gì?

Câu 8: Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây thuộc loại 'Document-oriented' (Hướng tài liệu)?

Câu 9: Đặc trưng 'Velocity' trong Big Data nhấn mạnh điều gì?

Câu 10: Hệ số nhân bản (Replication Factor) mặc định của một khối dữ liệu trong HDFS là bao nhiêu?

Câu 11: Trong lĩnh vực Dữ liệu lớn, khái niệm 'Structured Data' (Dữ liệu có cấu trúc) thường được tìm thấy ở đâu?

Câu 12: Công cụ nào trong hệ sinh thái Hadoop chuyên dùng để chuyển dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ?

Câu 13: Loại phân tích nào trong Big Data giúp đưa ra các dự báo về những gì có thể xảy ra trong tương lai?

Câu 14: Apache Kafka thường được sử dụng trong kiến trúc Big Data với mục đích chính là gì?

Câu 15: Đâu là ví dụ điển hình nhất của dữ liệu 'Semi-structured' (Bán cấu trúc)?

Câu 16: Trong kiến trúc Hadoop, NameNode có nhiệm vụ chính là gì?

Câu 17: Yếu tố 'Value' (Giá trị) trong Big Data có ý nghĩa gì quan trọng nhất?

Câu 18: Cơ sở dữ liệu NoSQL loại 'Graph Database' phù hợp nhất cho bài toán nào?

Câu 19: Kỹ thuật 'Data Anonymization' (Ẩn danh dữ liệu) được sử dụng trong Big Data nhằm mục đích gì?

Câu 20: Thành phần 'YARN' trong Hadoop 2.x trở đi có vai trò là gì?

Câu 21: Ưu điểm lớn nhất của lưu trữ dạng 'Columnar Storage' (Lưu trữ theo cột) trong phân tích Dữ liệu lớn là gì?

Câu 22: Trong Apache Spark, khái niệm 'RDD' (Resilient Distributed Dataset) đại diện cho điều gì?

Câu 23: Quy trình ETL trong xử lý dữ liệu truyền thống thường gặp khó khăn gì khi áp dụng vào Big Data?

Câu 24: Kiến trúc 'Lambda Architecture' giải quyết vấn đề gì trong hệ thống Big Data?

Câu 25: Apache Hive được sử dụng trong hệ sinh thái Hadoop chủ yếu để làm gì?