Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong mô hình 5V của Big Data, đặc điểm nào mô tả về sự không đồng nhất và đa dạng của các loại dữ liệu?
💡 Lời giải chi tiết:
Theo mô hình 5V phổ biến, Variety đề cập đến việc dữ liệu đến từ nhiều nguồn và định dạng khác nhau như cấu trúc, bán cấu trúc và phi cấu trúc. Kết luận Lý giải: Sự đa dạng (Variety)
Câu 2:Thành phần nào trong kiến trúc Hadoop chịu trách nhiệm quản lý việc lưu trữ dữ liệu phân tán trên các nút?
💡 Lời giải chi tiết:
HDFS là hệ thống tệp phân tán được thiết kế để chạy trên phần cứng thông thường, cung cấp khả năng lưu trữ dữ liệu quy mô lớn một cách tin cậy. Kết luận Lý giải: HDFS (Hadoop Distributed File System)
Câu 3:Trong hệ sinh thái Hadoop, NameNode đóng vai trò gì trong cụm HDFS?
💡 Lời giải chi tiết:
Trong kiến trúc Master-Slave của HDFS, NameNode là máy chủ trung tâm quản lý không gian tên hệ thống tệp và điều chỉnh quyền truy cập của khách hàng. Kết luận Lý giải: Quản lý siêu dữ liệu (metadata) và điều phối các DataNode
Câu 4:Đặc trưng 'Velocity' trong Big Data nhấn mạnh vào khía cạnh nào sau đây?
💡 Lời giải chi tiết:
Velocity đề cập đến tốc độ mà dữ liệu được tạo ra từ các nguồn như cảm biến hoặc mạng xã hội và yêu cầu được xử lý gần như thời gian thực. Kết luận Lý giải: Tốc độ phát sinh, thu thập và xử lý dữ liệu
Câu 5:Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây được phân loại vào nhóm 'Document Store'?
💡 Lời giải chi tiết:
MongoDB là một cơ sở dữ liệu NoSQL hướng tài liệu phổ biến, lưu trữ dữ liệu dưới dạng các bản ghi JSON linh hoạt. Kết luận Lý giải: MongoDB
Câu 6:Lợi thế chính của Apache Spark so với MapReduce truyền thống trong xử lý dữ liệu lớn là gì?
💡 Lời giải chi tiết:
Apache Spark vượt trội hơn MapReduce nhờ khả năng giữ dữ liệu trong RAM để thực hiện các phép toán lặp lại nhanh hơn gấp nhiều lần. Kết luận Lý giải: Khả năng xử lý dữ liệu trên bộ nhớ trong (In-memory processing)
Câu 7:Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào?
💡 Lời giải chi tiết:
Theo Eric Brewer, định lý CAP chỉ ra sự đánh đổi giữa tính nhất quán, tính sẵn sàng và khả năng chịu lỗi chia cắt trong hệ thống lưu trữ dữ liệu phân tán. Kết luận Lý giải: Consistency, Availability, Partition Tolerance
Câu 8:Công cụ nào trong hệ sinh thái Hadoop được thiết kế để chuyển giao dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?
💡 Lời giải chi tiết:
Apache Sqoop là công cụ dòng lệnh chuyên dụng để nhập dữ liệu từ RDBMS vào HDFS và ngược lại một cách hiệu quả. Kết luận Lý giải: Apache Sqoop
Câu 9:Khái niệm 'Data Lake' khác với 'Data Warehouse' ở điểm cốt lõi nào?
💡 Lời giải chi tiết:
Trong khi Data Warehouse yêu cầu dữ liệu phải được cấu trúc hóa trước khi lưu trữ (Schema-on-write), Data Lake chấp nhận mọi loại dữ liệu thô (Schema-on-read). Kết luận Lý giải: Data Lake lưu trữ dữ liệu ở định dạng thô và chưa có cấu trúc xác định
Câu 10:Trong mô hình 5V, 'Veracity' đề cập đến vấn đề nào của dữ liệu?
💡 Lời giải chi tiết:
Veracity liên quan đến sự không chắc chắn của dữ liệu do nhiễu, sai lệch hoặc sự thiếu hụt thông tin, đòi hỏi quy trình làm sạch dữ liệu. Kết luận Lý giải: Tính chính xác, độ tin cậy và chất lượng của dữ liệu
Câu 11:Thành phần YARN trong Hadoop 2.x đóng vai trò chủ chốt là gì?
💡 Lời giải chi tiết:
YARN (Yet Another Resource Negotiator) tách biệt khả năng quản lý tài nguyên và lập lịch/giám sát công việc để cải thiện hiệu suất cụm Hadoop. Kết luận Lý giải: Hệ hệ thống quản lý tài nguyên và lập lịch tác vụ
Câu 12:Loại dữ liệu nào sau đây được coi là dữ liệu 'phi cấu trúc' (Unstructured Data)?
💡 Lời giải chi tiết:
Dữ liệu phi cấu trúc là dữ liệu không có mô hình dữ liệu xác định trước hoặc không được tổ chức theo một cách thức cụ thể, điển hình là đa phương tiện. Kết luận Lý giải: Video, hình ảnh và tập tin âm thanh
Câu 13:Apache Hive cung cấp cơ chế nào để người dùng tương tác với dữ liệu trong Hadoop?
💡 Lời giải chi tiết:
Hive cho phép những người đã quen thuộc với SQL có thể truy vấn dữ liệu lớn trên Hadoop mà không cần biết lập trình MapReduce phức tạp. Kết luận Lý giải: Sử dụng ngôn ngữ truy vấn giống SQL (HiveQL)
Câu 14:Thư viện nào của Apache Spark chuyên dùng cho các thuật toán học máy (Machine Learning)?
💡 Lời giải chi tiết:
MLlib là thư viện học máy của Spark cung cấp các thuật toán phổ biến như phân loại, hồi quy, cụm và lọc cộng tác. Kết luận Lý giải: MLlib
Câu 15:Giai đoạn 'Shuffle' trong mô hình MapReduce có chức năng chính là gì?
💡 Lời giải chi tiết:
Shuffle là quá trình quan trọng giữa Map và Reduce nhằm đảm bảo tất cả các giá trị có cùng một khóa sẽ được gửi tới cùng một Reducer. Kết luận Lý giải: Nhóm và chuyển các cặp key-value từ các nút Mapper đến các nút Reducer tương ứng
Câu 16:Định dạng lưu trữ cột (Columnar Storage) như Apache Parquet mang lại lợi ích gì cho các truy vấn phân tích Big Data?
💡 Lời giải chi tiết:
Lưu trữ theo cột cho phép hệ thống bỏ qua dữ liệu không liên quan trong các truy vấn phân tích, giúp tăng tốc độ xử lý và giảm băng thông I/O. Kết luận Lý giải: Tối ưu hóa việc đọc chỉ những cột cần thiết và nén dữ liệu tốt hơn
Câu 17:Apache Kafka thường được sử dụng trong kiến trúc Big Data với vai trò gì?
💡 Lời giải chi tiết:
Kafka là nền tảng streaming phân tán cho phép xây dựng các pipeline dữ liệu thời gian thực có khả năng chịu lỗi và mở rộng cao. Kết luận Lý giải: Hệ thống phân phối thông điệp (Message Broker) và xử lý luồng dữ liệu thời gian thực
Câu 18:Khái niệm 'Sharding' trong các cơ sở dữ liệu Big Data có nghĩa là gì?
💡 Lời giải chi tiết:
Sharding là phương pháp phân mảnh ngang dữ liệu để cho phép cơ sở dữ liệu mở rộng quy mô trên nhiều nút phần cứng khác nhau. Kết luận Lý giải: Chia nhỏ một tập dữ liệu lớn thành các phần nhỏ hơn để phân phối trên nhiều máy chủ
Câu 19:Kiến trúc Lambda trong Big Data được thiết kế để giải quyết vấn đề gì?
💡 Lời giải chi tiết:
Kiến trúc Lambda kết hợp Batch Layer và Speed Layer để cung cấp cái nhìn toàn diện, vừa nhanh chóng vừa chính xác về dữ liệu lớn. Kết luận Lý giải: Cân bằng giữa xử lý lô để đảm bảo độ chính xác và xử lý luồng để đảm bảo tốc độ
Câu 20:Trong hệ sinh thái Big Data, công cụ Apache Zookeeper thường được dùng để làm gì?
💡 Lời giải chi tiết:
Zookeeper cung cấp dịch vụ tập trung để duy trì thông tin cấu cấu hình, đặt tên và cung cấp sự đồng bộ hóa phân tán. Kết luận Lý giải: Điều phối và quản lý cấu hình cho các dịch vụ phân tán
Câu 21:Loại cơ sở dữ liệu NoSQL nào là phù hợp nhất để lưu trữ và phân tích các mối quan hệ phức tạp như mạng xã hội?
💡 Lời giải chi tiết:
Cơ sở dữ liệu đồ thị (như Neo4j) sử dụng các nút và cạnh để biểu diễn dữ liệu, giúp truy vấn các mối quan hệ đa tầng nhanh hơn các loại khác. Kết luận Lý giải: Graph databases (Cơ sở dữ liệu đồ thị)
Câu 22:Hệ thống quản trị cơ sở dữ liệu Apache Cassandra nổi tiếng với đặc điểm nào?
💡 Lời giải chi tiết:
Cassandra được thiết kế để xử lý lượng dữ liệu khổng lồ trên nhiều máy chủ với kiến trúc phi tập trung, đảm bảo hệ thống luôn hoạt động ngay cả khi một nút bị lỗi. Kết luận Lý giải: Khả năng mở rộng tuyến tính và tính sẵn sàng cao không có điểm lỗi đơn nhất (no single point of failure)
Câu 23:Trong quá trình ETL cho Big Data, chữ 'T' (Transform) đại diện cho công việc nào?
💡 Lời giải chi tiết:
Giai đoạn Transform bao gồm các quy tắc nghiệp vụ để biến đổi dữ liệu thô từ nguồn thành dữ liệu có cấu trúc và ý nghĩa cho phân tích. Kết luận Lý giải: Chuyển đổi, làm sạch và định dạng lại dữ liệu để phù hợp với mục tiêu lưu trữ
Câu 24:Một 'Data Scientist' làm việc với Big Data thường sử dụng kỹ thuật nào để dự báo xu hướng tương lai?
💡 Lời giải chi tiết:
Phân tích dự báo sử dụng các dữ liệu lịch sử và thuật toán thống kê để xác định khả năng xảy ra của các kết quả trong tương lai. Kết luận Lý giải: Phân tích dự báo (Predictive Analytics) dựa trên mô hình học máy
Câu 25:Tại sao 'In-memory computing' lại trở nên quan trọng trong kỷ nguyên Big Data?
💡 Lời giải chi tiết:
Tính toán trên bộ nhớ trong giúp loại bỏ độ trễ của I/O đĩa, cho phép xử lý các tập dữ liệu lớn gần như tức thì cho các ứng dụng thời gian thực. Kết luận Lý giải: Vì tốc độ truy cập dữ liệu trên RAM nhanh hơn hàng nghìn lần so với ổ đĩa cứng truyền thống