Bộ 11 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong mô hình 5Vs của Dữ liệu lớn (Big Data), đặc trưng 'Variety' đề cập đến yếu tố nào sau đây?

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) thường lưu trữ các bản sao của một khối dữ liệu (block) mặc định là bao nhiêu?

Câu 3: Trong mô hình lập trình MapReduce, giai đoạn nào chịu trách nhiệm sắp xếp và chuyển dữ liệu trung gian từ các nút Map đến các nút Reduce?

Câu 4: Định lý CAP trong hệ thống phân tán khẳng định rằng một hệ thống không thể đồng thời đảm bảo cả ba yếu tố nào?

Câu 5: Thành phần nào trong Apache Spark đóng vai trò là cấu trúc dữ liệu cơ bản, cho phép xử lý song song và có khả năng phục hồi lỗi?

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

Câu 7: Trong hệ thống Apache Kafka, đơn vị cơ bản dùng để phân chia và song song hóa việc lưu trữ dữ liệu trong một 'Topic' là gì?

Câu 8: Sự khác biệt chính giữa 'Data Lake' và 'Data Warehouse' là gì?

Câu 9: Công cụ nào trong hệ sinh thái Hadoop cung cấp ngôn ngữ truy vấn giống SQL (HQL) để phân tích dữ liệu trên HDFS?

Câu 10: Vai trò chính của Apache Zookeeper trong một cụm Big Data là gì?

Câu 11: Quy trình ELT (Extract, Load, Transform) khác với ETL truyền thống ở điểm nào?

Câu 12: Ứng dụng nào sau đây của Big Data mang lại giá trị cao nhất trong lĩnh vực Y tế?

Câu 13: Thành phần 'NameNode' trong kiến trúc HDFS của Hadoop có chức năng chính là gì?

Câu 14: Loại dữ liệu nào chiếm tỷ lệ lớn nhất (thường được ước tính khoảng 80%) trong tổng lượng dữ liệu toàn cầu hiện nay?

Câu 15: Trong xử lý dữ liệu dòng (Stream Processing), điểm khác biệt cốt lõi của Apache Flink so với Spark Streaming (phiên bản cũ) là gì?

Câu 16: Định dạng lưu trữ cột (Columnar Storage) như Apache Parquet mang lại lợi ích gì cho các hệ thống Big Data?

Câu 17: Hàm 'Combiner' trong MapReduce được sử dụng với mục đích chính là gì?

Câu 18: Cơ sở dữ liệu NoSQL nào sau đây là lựa chọn tốt nhất để biểu diễn các mối quan hệ phức tạp giữa các thực thể, như mạng lưới bạn bè trên mạng xã hội?

Câu 19: Trong kiến trúc YARN của Hadoop, thành phần nào chịu trách nhiệm phân bổ tài nguyên cho toàn bộ các ứng dụng trong cụm?

Câu 20: Lý do quan trọng nhất khiến Apache Spark xử lý dữ liệu nhanh hơn MapReduce trong nhiều trường hợp là gì?

Câu 21: Đặc trưng 'Veracity' trong Big Data đề cập đến khía cạnh nào?

Câu 22: Công cụ Apache Sqoop được sử dụng chủ yếu để thực hiện tác vụ nào?

Câu 23: Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề gì?

Câu 24: Vai trò của 'Edge Computing' (Tính toán biên) trong bối cảnh dữ liệu lớn phát sinh từ IoT là gì?

Câu 25: Quản trị dữ liệu (Data Governance) trong dự án Big Data tập trung vào mục tiêu nào?