Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Đặc trưng 'Variety' (Sự đa dạng) trong mô hình 5V của Dữ liệu lớn chủ yếu đề cập đến yếu tố nào?
💡 Lời giải chi tiết:
Theo phân tích phổ biến, đặc trưng Variety nhấn mạnh việc dữ liệu lớn bao gồm nhiều định dạng khác nhau từ có cấu trúc, bán cấu trúc đến phi cấu trúc, Kết luận Lý giải Sự đa dạng về các loại và định dạng dữ liệu.
Câu 2:Trong hệ sinh thái Hadoop, thành phần nào đóng vai trò quản lý việc lưu trữ dữ liệu phân tán trên các nút?
💡 Lời giải chi tiết:
HDFS là hệ thống tệp phân tán được thiết kế để lưu trữ các tệp dữ liệu rất lớn trên các cụm máy tính thông thường, Kết luận Lý giải HDFS (Hadoop Distributed File System).
Câu 3:Đặc điểm cốt lõi giúp Apache Spark xử lý dữ liệu nhanh hơn MapReduce trong nhiều trường hợp là gì?
💡 Lời giải chi tiết:
Spark tối ưu hóa tốc độ bằng cách giữ lại dữ liệu trung gian trong RAM thay vì ghi xuống đĩa liên tục như MapReduce, Kết luận Lý giải Khả năng tính toán trực tiếp trên bộ nhớ (In-memory computing).
Câu 4:Thuật ngữ 'Veracity' trong Dữ liệu lớn dùng để chỉ khía cạnh nào?
💡 Lời giải chi tiết:
Veracity đề cập đến sự không chắc chắn hoặc mức độ tin cậy của dữ liệu do tính nhiễu hoặc sự sai lệch trong quá trình thu thập, Kết luận Lý giải Độ chính xác và tính xác thực của dữ liệu.
Câu 5:Theo định lý CAP trong hệ thống phân tán, ba yếu tố mà một hệ thống không thể đồng thời đảm bảo hoàn hảo cùng lúc là gì?
💡 Lời giải chi tiết:
Định lý CAP khẳng định một hệ thống dữ liệu phân tán chỉ có thể chọn tối đa hai trong ba yếu tố: Consistency, Availability, và Partition Tolerance, Kết luận Lý giải Tính nhất quán, Tính sẵn sàng, Khả năng chịu lỗi phân vùng.
Câu 6:Kiến trúc 'Data Lake' (Hồ dữ liệu) khác biệt cơ bản với 'Data Warehouse' (Kho dữ liệu) ở điểm nào?
💡 Lời giải chi tiết:
Data Lake cho phép lưu trữ mọi loại dữ liệu ở dạng thô cho đến khi cần phân tích, giúp linh hoạt hơn so với kho dữ liệu truyền thống, Kết luận Lý giải Data Lake lưu trữ dữ liệu thô ở định dạng nguyên bản.
Câu 7:Trong mô hình MapReduce, giai đoạn 'Reduce' thực hiện nhiệm vụ chính là gì?
💡 Lời giải chi tiết:
Giai đoạn Reduce nhận đầu vào từ Map và tiến hành gom nhóm, xử lý các giá trị dựa trên cùng một khóa để thu gọn dữ liệu, Kết luận Lý giải Tổng hợp các kết quả trung gian có cùng khóa để đưa ra kết quả cuối cùng.
Câu 8:Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây thuộc loại 'Document-oriented' (Hướng tài liệu)?
💡 Lời giải chi tiết:
MongoDB là cơ sở dữ liệu NoSQL phổ biến nhất lưu trữ dữ liệu dưới dạng các tài liệu tương tự JSON (BSON), Kết luận Lý giải MongoDB.
Câu 9:Đặc trưng 'Velocity' trong Big Data nhấn mạnh điều gì?
💡 Lời giải chi tiết:
Velocity không chỉ là tốc độ thu thập mà còn là tốc độ xử lý dữ liệu để kịp thời đưa ra quyết định kinh doanh, Kết luận Lý giải Tốc độ dữ liệu được tạo ra và luân chuyển liên tục.
Câu 10:Hệ số nhân bản (Replication Factor) mặc định của một khối dữ liệu trong HDFS là bao nhiêu?
💡 Lời giải chi tiết:
Theo cấu hình chuẩn của Apache Hadoop, mỗi khối dữ liệu sẽ được sao chép thành 3 bản trên các nút khác nhau để đảm bảo an toàn dữ liệu, Kết luận Lý giải 3.
Câu 11:Trong lĩnh vực Dữ liệu lớn, khái niệm 'Structured Data' (Dữ liệu có cấu trúc) thường được tìm thấy ở đâu?
💡 Lời giải chi tiết:
Dữ liệu có cấu trúc là loại dữ liệu được tổ chức chặt chẽ trong các bảng với các hàng và cột xác định rõ ràng, Kết luận Lý giải Cơ sở dữ liệu quan hệ (RDBMS) như MySQL hay Oracle.
Câu 12:Công cụ nào trong hệ sinh thái Hadoop chuyên dùng để chuyển dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ?
💡 Lời giải chi tiết:
Sqoop (SQL-to-Hadoop) được thiết kế đặc biệt để nhập và xuất dữ liệu hiệu quả giữa Hadoop và các kho dữ liệu có cấu trúc, Kết luận Lý giải Apache Sqoop.
Câu 13:Loại phân tích nào trong Big Data giúp đưa ra các dự báo về những gì có thể xảy ra trong tương lai?
💡 Lời giải chi tiết:
Phân tích dự đoán sử dụng các mô hình thống kê và thuật toán học máy dựa trên dữ liệu lịch sử để dự báo xu hướng, Kết luận Lý giải Predictive Analytics (Phân tích dự đoán).
Câu 14:Apache Kafka thường được sử dụng trong kiến trúc Big Data với mục đích chính là gì?
💡 Lời giải chi tiết:
Kafka đóng vai trò là một nền tảng phân phối thông điệp có độ trễ thấp và khả năng mở rộng cao cho các luồng dữ liệu liên tục, Kết luận Lý giải Hệ thống truyền thông điệp và xử lý luồng dữ liệu thời gian thực.
Câu 15:Đâu là ví dụ điển hình nhất của dữ liệu 'Semi-structured' (Bán cấu trúc)?
💡 Lời giải chi tiết:
Dữ liệu bán cấu trúc không nằm trong bảng nhưng chứa các thẻ hoặc dấu vết định danh để phân tách các thành phần dữ liệu, Kết luận Lý giải Tệp tin định dạng XML hoặc JSON.
Câu 16:Trong kiến trúc Hadoop, NameNode có nhiệm vụ chính là gì?
💡 Lời giải chi tiết:
NameNode đóng vai trò là nút chính quản lý hệ thống tệp và điều phối việc truy cập tệp của khách hàng, Kết luận Lý giải Quản lý siêu dữ liệu (metadata) và cấu trúc cây thư mục của HDFS.
Câu 17:Yếu tố 'Value' (Giá trị) trong Big Data có ý nghĩa gì quan trọng nhất?
💡 Lời giải chi tiết:
Giá trị là mục tiêu cuối cùng của Big Data, biến các tập dữ liệu thô khổng lồ thành lợi thế cạnh tranh hoặc hiểu biết sâu sắc, Kết luận Lý giải Khả năng chuyển đổi dữ liệu thành thông tin hữu ích cho doanh nghiệp.
Câu 18:Cơ sở dữ liệu NoSQL loại 'Graph Database' phù hợp nhất cho bài toán nào?
💡 Lời giải chi tiết:
Cơ sở dữ liệu đồ thị như Neo4j được thiết kế tối ưu để lưu trữ và truy vấn các mối quan hệ phức tạp giữa các thực thể, Kết luận Lý giải Phân tích mối quan hệ và kết nối trong mạng xã hội.
Câu 19:Kỹ thuật 'Data Anonymization' (Ẩn danh dữ liệu) được sử dụng trong Big Data nhằm mục đích gì?
💡 Lời giải chi tiết:
Ẩn danh dữ liệu là bước quan trọng để tuân thủ các quy định bảo mật như GDPR khi phân tích dữ liệu người dùng, Kết luận Lý giải Bảo vệ quyền riêng tư bằng cách loại bỏ thông tin định danh cá nhân.
Câu 20:Thành phần 'YARN' trong Hadoop 2.x trở đi có vai trò là gì?
💡 Lời giải chi tiết:
YARN (Yet Another Resource Negotiator) tách biệt việc quản lý tài nguyên khỏi việc giám sát tác vụ, giúp Hadoop chạy được nhiều loại ứng dụng khác nhau, Kết luận Lý giải Hệ thống quản lý tài nguyên và lập lịch tác vụ.
Câu 21:Ưu điểm lớn nhất của lưu trữ dạng 'Columnar Storage' (Lưu trữ theo cột) trong phân tích Dữ liệu lớn là gì?
💡 Lời giải chi tiết:
Lưu trữ theo cột giúp giảm lượng dữ liệu cần đọc từ đĩa khi chỉ cần phân tích một vài thuộc tính nhất định trong tập dữ liệu lớn, Kết luận Lý giải Tối ưu cho các truy vấn tính toán trên các cột cụ thể.
Câu 22:Trong Apache Spark, khái niệm 'RDD' (Resilient Distributed Dataset) đại diện cho điều gì?
💡 Lời giải chi tiết:
RDD là thành phần cốt lõi của Spark, giúp dữ liệu được phân tán trên cụm máy tính và tự động phục hồi nếu có nút bị lỗi, Kết luận Lý giải Cấu trúc dữ liệu cơ bản cho phép xử lý song song và có khả năng phục hồi.
Câu 23:Quy trình ETL trong xử lý dữ liệu truyền thống thường gặp khó khăn gì khi áp dụng vào Big Data?
💡 Lời giải chi tiết:
Các công cụ ETL truyền thống thường không được thiết kế để mở rộng theo quy mô lớn và xử lý tốc độ cao như yêu cầu của Big Data, Kết luận Lý giải Tốc độ và khối lượng dữ liệu vượt quá khả năng xử lý của các công cụ ETL cũ.
Câu 24:Kiến trúc 'Lambda Architecture' giải quyết vấn đề gì trong hệ thống Big Data?
💡 Lời giải chi tiết:
Kiến trúc Lambda cung cấp một cách tiếp cận cân bằng giữa tính chính xác cao của xử lý lô và độ trễ thấp của xử lý luồng, Kết luận Lý giải Kết hợp xử lý theo lô (Batch) và xử lý thời gian thực (Speed layer).
Câu 25:Apache Hive được sử dụng trong hệ sinh thái Hadoop chủ yếu để làm gì?
💡 Lời giải chi tiết:
Hive cho phép những người thành thạo SQL có thể làm việc với dữ liệu trên Hadoop mà không cần viết mã MapReduce phức tạp, Kết luận Lý giải Cung cấp giao diện giống SQL để truy vấn dữ liệu trên HDFS.