Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong hệ thống lưu trữ phân tán HDFS của Hadoop, thành phần nào đóng vai trò quản lý siêu dữ liệu (metadata) và điều phối việc truy cập tệp tin của người dùng?

Câu 2: Đặc trưng nào của Dữ liệu lớn (Big Data) mô tả về sự không chắc chắn, không đồng nhất hoặc độ tin cậy thấp của dữ liệu đầu vào?

Câu 3: Tại sao Apache Spark thường có hiệu suất xử lý dữ liệu nhanh hơn MapReduce trong các thuật toán lặp đi lặp lại?

Câu 4: Trong định lý CAP dành cho các hệ thống phân tán, ba yếu tố cốt lõi được đề cập bao gồm những gì?

Câu 5: Loại cơ sở dữ liệu NoSQL nào là lựa chọn tối ưu nhất để lưu trữ và truy vấn dữ liệu có mối quan hệ phức tạp như mạng xã hội hoặc bản đồ giao thông?

Câu 6: Nhiệm vụ chính của thành phần YARN (Yet Another Resource Negotiator) trong kiến trúc Hadoop 2.x là gì?

Câu 7: Trong mô hình lập trình MapReduce, giai đoạn nào chịu trách nhiệm tập hợp, sắp xếp và chuyển các cặp 'key-value' từ các tác vụ Map sang các tác vụ Reduce?

Câu 8: Công cụ nào trong hệ sinh thái Hadoop được thiết kế đặc biệt để di chuyển dữ liệu hàng loạt giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?

Câu 9: Sự khác biệt cơ bản nhất giữa Data Lake và Data Warehouse là gì?

Câu 10: Thành phần nào của Apache Spark cung cấp khả năng xử lý các dòng dữ liệu trực tuyến (real-time stream processing)?

Câu 11: Trong MapReduce, thành phần 'Combiner' được sử dụng nhằm mục đích chính là gì?

Câu 12: Cơ sở dữ liệu Apache Cassandra thuộc loại NoSQL nào dưới đây?

Câu 13: Khái niệm 'Speculative Execution' (Thực thi dự đoán) trong Hadoop được hiểu như thế nào?

Câu 14: Định dạng tệp tin Parquet thường được ưu tiên sử dụng trong các hệ thống Big Data vì lý do chính nào?

Câu 15: Trong hệ thống Apache Kafka, một 'Partition' (Phân vùng) đóng vai trò gì trong một Topic?

Câu 16: Thư viện nào của Apache Spark cung cấp các thuật toán học máy (Machine Learning) phổ biến như phân loại, hồi quy và phân cụm?

Câu 17: Vấn đề 'Small Files Problem' trong HDFS gây ra ảnh hưởng tiêu cực nhất đến thành phần nào?

Câu 18: Trong lý thuyết CAP, tính 'nhất quán' (Consistency) được hiểu cụ thể là gì?

Câu 19: Apache Hive được sử dụng trong hệ sinh thái Hadoop chủ yếu để làm gì?

Câu 20: Chương trình 'Driver' trong một ứng dụng Apache Spark có vai trò gì?

Câu 21: Hệ thống Apache Zookeeper thường được tích hợp vào các nền tảng Big Data nhằm mục đích gì?

Câu 22: Phương thức xử lý nào thực hiện tính toán trên dữ liệu ngay khi nó vừa được tạo ra hoặc vừa nạp vào hệ thống?

Câu 23: Khi một NodeManager trong Hadoop YARN bị lỗi trong lúc đang thực hiện tác vụ, hệ thống sẽ xử lý như thế nào?

Câu 24: Sự khác biệt chính giữa HDFS và Amazon S3 khi được dùng làm kho lưu trữ cho dữ liệu lớn là gì?

Câu 25: Trừu tượng dữ liệu cơ bản nhất trong Apache Spark, cho phép xử lý dữ liệu song song và có khả năng phục hồi lỗi, được gọi là gì?