Bộ 6 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 6 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Lưu ý: Nội dung trong bài Bộ 6 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Câu 1: Trong mô hình 5 chữ 'V' của Dữ liệu lớn (Big Data), đặc tính 'Velocity' tập trung vào khía cạnh nào?

Câu 2: Thành phần nào trong kiến trúc Hadoop Distributed File System (HDFS) chịu trách nhiệm quản lý 'metadata' của toàn hệ thống?

Câu 3: Tại sao Apache Spark thường được đánh giá là nhanh hơn MapReduce trong các tác vụ xử lý dữ liệu lặp đi lặp lại?

Câu 4: Định lý CAP (Brewer's theorem) cho rằng một hệ thống dữ liệu phân tán không thể đồng thời đảm bảo cả ba yếu tố nào?

Câu 5: Trong hệ sinh thái Big Data, Apache Kafka thường được sử dụng với mục đích chính là gì?

Câu 6: Định dạng tệp tin nào sau đây được thiết kế theo dạng cột (columnar storage) để tối ưu hóa hiệu suất truy vấn trong Big Data?

Câu 7: Sự khác biệt cốt lõi giữa 'Data Lake' và 'Data Warehouse' là gì?

Câu 8: Trong kiến trúc Hadoop, thành phần YARN (Yet Another Resource Negotiator) đóng vai trò gì?

Câu 9: Đặc tính 'Veracity' trong dữ liệu lớn liên quan đến vấn đề nào dưới đây?

Câu 10: Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây thuộc loại 'Document-oriented'?

Câu 11: Trong quy trình ETL truyền thống, bước 'Transform' (Chuyển đổi) có mục đích chính là gì?

Câu 12: Tại sao 'Phân tích dự báo' (Predictive Analytics) lại quan trọng trong ứng dụng Big Data?

Câu 13: Apache Hive được sử dụng trong hệ sinh thái Hadoop nhằm mục đích gì?

Câu 14: Khái niệm 'Data Anonymization' (Ẩn danh dữ liệu) trong quản trị Big Data nhằm giải quyết vấn đề nào?

Câu 15: Trong Spark, 'RDD' (Resilient Distributed Dataset) là gì?

Câu 16: Thuật ngữ 'Horizontal Scaling' (Mở rộng quy mô theo chiều ngang) trong Big Data có nghĩa là gì?

Câu 17: Hệ thống cơ sở dữ liệu đồ thị (Graph Database) như Neo4j phù hợp nhất cho loại dữ liệu nào?

Câu 18: Trong mô hình MapReduce, giai đoạn 'Shuffle and Sort' nằm giữa hai pha nào?

Câu 19: Mục tiêu cuối cùng của đặc tính 'Value' trong Big Data là gì?

Câu 20: Cơ chế 'Replication' trong HDFS có tác dụng chính là gì?

Câu 21: Khái niệm 'Schema-on-read' thường được liên kết với công nghệ nào sau đây?

Câu 22: Trong phân tích Big Data, 'Phân tích chẩn đoán' (Diagnostic Analytics) tập trung trả lời câu hỏi nào?

Câu 23: Hệ thống 'In-memory database' mang lại ưu điểm vượt trội nào cho xử lý dữ liệu lớn?

Câu 24: Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để kết hợp hai phương thức xử lý nào?

Câu 25: Trong bối cảnh điện toán đám mây, 'Serverless Big Data' (ví dụ như Google BigQuery) có ưu điểm gì?