Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong đặc trưng 5V của Dữ liệu lớn, yếu tố 'Veracity' đề cập đến khía cạnh nào sau đây?

Câu 2: Thành phần nào trong kiến trúc HDFS của Hadoop chịu trách nhiệm quản lý Metadata và điều phối truy cập của khách hàng?

Câu 3: Trong mô hình lập trình MapReduce, giai đoạn nào thực hiện việc sắp xếp và phân phối các cặp 'key-value' trung gian đến các nút xử lý phù hợp?

Câu 4: Tại sao Apache Spark thường được đánh giá là nhanh hơn Apache Hadoop MapReduce trong các bài toán phân tích dữ liệu lặp lại?

Câu 5: Theo định lý CAP trong hệ thống phân tán, ba yếu tố nào không thể đạt được đồng thời 100% tại một thời điểm?

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

Câu 7: Đặc điểm cốt lõi phân biệt Data Lake (Hồ dữ liệu) với Data Warehouse (Kho dữ liệu) là gì?

Câu 8: Apache Kafka được sử dụng chủ yếu cho mục đích nào trong hệ sinh thái Dữ liệu lớn?

Câu 9: Trong ngữ cảnh Dữ liệu lớn, loại dữ liệu nào chiếm tỷ trọng lớn nhất và đang tăng trưởng nhanh nhất hiện nay?

Câu 10: Công cụ Apache Hive cung cấp khả năng nào cho người dùng trên nền tảng Hadoop?

Câu 11: Điểm mạnh nổi bật nhất của Apache Flink so với các công cụ xử lý dòng dữ liệu khác là gì?

Câu 12: Khái niệm 'Sharding' trong các cơ sở dữ liệu Dữ liệu lớn có nghĩa là gì?

Câu 13: Ưu điểm lớn nhất của quy trình ELT (Extract-Load-Transform) so với ETL truyền thống khi làm việc với Cloud Data Warehouse là gì?

Câu 14: Mục tiêu chính của việc thiết lập 'Data Governance' (Quản trị dữ liệu) trong doanh nghiệp là gì?

Câu 15: Trong cụm Hadoop, Apache Zookeeper đóng vai trò gì?

Câu 16: Kiến trúc Lambda (Lambda Architecture) trong xử lý Dữ liệu lớn bao gồm những tầng (layers) chính nào?

Câu 17: Vấn đề 'Thiên kiến dữ liệu' (Data Bias) trong Dữ liệu lớn có thể gây ra hậu quả nghiêm trọng nhất ở lĩnh vực nào?

Câu 18: Kỹ thuật 'Differential Privacy' (Quyền riêng tư vi sai) được sử dụng trong Dữ liệu lớn nhằm mục đích gì?

Câu 19: Apache HBase là một loại cơ sở dữ liệu có đặc điểm lưu trữ như thế nào?

Câu 20: Thành phần nào trong Hadoop YARN chịu trách nhiệm theo dõi và quản lý tài nguyên (CPU, RAM) trên từng nút riêng lẻ trong cụm?

Câu 21: Đặc trưng 'Velocity' trong Dữ liệu lớn nhấn mạnh điều gì?

Câu 22: Mô hình nhất quán nào thường được áp dụng trong Apache Cassandra để đảm bảo khả năng sẵn sàng cao?

Câu 23: Bước 'Data Wrangling' (hay Data Cleaning) trong quy trình phân tích Dữ liệu lớn chiếm khoảng bao nhiêu thời gian của các nhà khoa học dữ liệu?

Câu 24: Lợi ích chính của công cụ phân tích SQL phân tán như Presto hoặc Trino là gì?

Câu 25: Định dạng tệp Apache Parquet thường được ưu tiên trong lưu trữ Dữ liệu lớn vì lý do nào?