Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Lưu ý: Nội dung trong bài Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Câu 1: Trong đặc trưng 5V của Dữ liệu lớn, yếu tố 'Veracity' đề cập đến khía cạnh nào sau đây?

Câu 2: Thành phần nào trong kiến trúc HDFS của Hadoop chịu trách nhiệm quản lý Metadata và điều phối truy cập của khách hàng?

Câu 3: Trong mô hình lập trình MapReduce, giai đoạn nào thực hiện việc sắp xếp và phân phối các cặp 'key-value' trung gian đến các nút xử lý phù hợp?

Câu 4: Tại sao Apache Spark thường được đánh giá là nhanh hơn Apache Hadoop MapReduce trong các bài toán phân tích dữ liệu lặp lại?

Câu 5: Theo định lý CAP trong hệ thống phân tán, ba yếu tố nào không thể đạt được đồng thời 100% tại một thời điểm?

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

Câu 7: Đặc điểm cốt lõi phân biệt Data Lake (Hồ dữ liệu) với Data Warehouse (Kho dữ liệu) là gì?

Câu 8: Apache Kafka được sử dụng chủ yếu cho mục đích nào trong hệ sinh thái Dữ liệu lớn?

Câu 9: Trong ngữ cảnh Dữ liệu lớn, loại dữ liệu nào chiếm tỷ trọng lớn nhất và đang tăng trưởng nhanh nhất hiện nay?

Câu 10: Công cụ Apache Hive cung cấp khả năng nào cho người dùng trên nền tảng Hadoop?

Câu 11: Điểm mạnh nổi bật nhất của Apache Flink so với các công cụ xử lý dòng dữ liệu khác là gì?

Câu 12: Khái niệm 'Sharding' trong các cơ sở dữ liệu Dữ liệu lớn có nghĩa là gì?

Câu 13: Ưu điểm lớn nhất của quy trình ELT (Extract-Load-Transform) so với ETL truyền thống khi làm việc với Cloud Data Warehouse là gì?

Câu 14: Mục tiêu chính của việc thiết lập 'Data Governance' (Quản trị dữ liệu) trong doanh nghiệp là gì?

Câu 15: Trong cụm Hadoop, Apache Zookeeper đóng vai trò gì?

Câu 16: Kiến trúc Lambda (Lambda Architecture) trong xử lý Dữ liệu lớn bao gồm những tầng (layers) chính nào?

Câu 17: Vấn đề 'Thiên kiến dữ liệu' (Data Bias) trong Dữ liệu lớn có thể gây ra hậu quả nghiêm trọng nhất ở lĩnh vực nào?

Câu 18: Kỹ thuật 'Differential Privacy' (Quyền riêng tư vi sai) được sử dụng trong Dữ liệu lớn nhằm mục đích gì?

Câu 19: Apache HBase là một loại cơ sở dữ liệu có đặc điểm lưu trữ như thế nào?

Câu 20: Thành phần nào trong Hadoop YARN chịu trách nhiệm theo dõi và quản lý tài nguyên (CPU, RAM) trên từng nút riêng lẻ trong cụm?

Câu 21: Đặc trưng 'Velocity' trong Dữ liệu lớn nhấn mạnh điều gì?

Câu 22: Mô hình nhất quán nào thường được áp dụng trong Apache Cassandra để đảm bảo khả năng sẵn sàng cao?

Câu 23: Bước 'Data Wrangling' (hay Data Cleaning) trong quy trình phân tích Dữ liệu lớn chiếm khoảng bao nhiêu thời gian của các nhà khoa học dữ liệu?

Câu 24: Lợi ích chính của công cụ phân tích SQL phân tán như Presto hoặc Trino là gì?

Câu 25: Định dạng tệp Apache Parquet thường được ưu tiên trong lưu trữ Dữ liệu lớn vì lý do nào?