Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong mô hình 5V của Dữ liệu lớn, đặc trưng nào đề cập đến sự tin cậy và độ chính xác của dữ liệu?
💡 Lời giải chi tiết:
Theo định nghĩa phổ biến về Big Data, Veracity tập trung vào việc xử lý các dữ liệu không chắc chắn và đảm bảo tính tin cậy của nguồn tin. Kết luận Lý giải: Veracity (Xác thực)
Câu 2:Thành phần nào trong kiến trúc Hadoop chịu trách nhiệm quản lý siêu dữ liệu (metadata) và sơ đồ cây thư mục của HDFS?
💡 Lời giải chi tiết:
Trong HDFS, NameNode đóng vai trò là nút chủ quản lý cấu trúc tệp tin và lưu trữ thông tin về vị trí các khối dữ liệu trên DataNode. Kết luận Lý giải: NameNode
Câu 3:Ưu điểm nổi bật nhất của Apache Spark so với MapReduce truyền thống trong việc xử lý dữ liệu là gì?
💡 Lời giải chi tiết:
Apache Spark vượt trội nhờ khả năng giữ lại dữ liệu trong RAM giữa các bước tính toán, giúp tốc độ xử lý nhanh hơn hàng chục lần so với MapReduce đọc/ghi liên tục vào đĩa. Kết luận Lý giải: Xử lý dữ liệu trong bộ nhớ (In-memory computing)
Câu 4:Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào sau đây?
💡 Lời giải chi tiết:
Định lý CAP (Consistency, Availability, Partition Tolerance) là nguyên tắc cơ bản trong thiết kế các hệ thống lưu trữ phân tán hiện đại. Kết luận Lý giải: Tính nhất quán, Tính sẵn sàng, Khả năng chịu lỗi phân vùng
Câu 5:Trong hệ sinh thái Hadoop, công cụ nào được thiết kế để chuyển đổi dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS)?
💡 Lời giải chi tiết:
Apache Sqoop (viết tắt của SQL-to-Hadoop) là công cụ dòng lệnh dùng để nhập và xuất dữ liệu hiệu quả giữa RDBMS như MySQL, Oracle với HDFS hoặc Hive. Kết luận Lý giải: Apache Sqoop
Câu 6:Đặc điểm chính của cơ sở dữ liệu NoSQL dạng 'Document-oriented' là gì?
💡 Lời giải chi tiết:
Cơ sở dữ liệu hướng tài liệu như MongoDB lưu trữ dữ liệu trong các cấu trúc linh hoạt, cho phép các bản ghi có các trường thông tin khác nhau. Kết luận Lý giải: Lưu trữ dữ liệu dưới định dạng linh hoạt như JSON hoặc BSON
Câu 7:Khái niệm 'Data Lake' (Hồ dữ liệu) khác biệt với 'Data Warehouse' (Kho dữ liệu) ở điểm cốt lõi nào?
💡 Lời giải chi tiết:
Theo kiến trúc dữ liệu hiện đại, Data Lake giữ nguyên định dạng ban đầu của dữ liệu, trong khi Data Warehouse yêu cầu dữ liệu phải được cấu trúc hóa trước khi lưu trữ. Kết luận Lý giải: Data Lake lưu trữ dữ liệu thô ở mọi định dạng cho đến khi cần sử dụng
Câu 8:Apache Kafka thường được sử dụng trong hệ thống Big Data với vai trò chủ yếu là gì?
💡 Lời giải chi tiết:
Apache Kafka là một nền tảng phân tán cho phép xuất bản và đăng ký các luồng bản ghi, đóng vai trò kết nối giữa nguồn dữ liệu và các ứng dụng xử lý. Kết luận Lý giải: Hệ thống trung chuyển dòng dữ liệu (Message Broker) thời gian thực
Câu 9:Kỹ thuật 'Sharding' trong các hệ thống Big Data dùng để giải quyết vấn đề gì?
💡 Lời giải chi tiết:
Sharding là phương pháp chia nhỏ tập dữ liệu lớn thành các phần nhỏ hơn để phân tán tải trọng lưu trữ và truy vấn trên cụm máy chủ. Kết luận Lý giải: Phân chia dữ liệu theo chiều ngang để lưu trữ trên nhiều máy chủ
Câu 10:Trong mô hình MapReduce, giai đoạn 'Shuffle and Sort' có mục tiêu chính là gì?
💡 Lời giải chi tiết:
Giai đoạn này đảm bảo rằng tất cả các giá trị liên quan đến cùng một khóa được tập hợp lại tại một nút xử lý Reduce duy nhất để tính toán chính xác. Kết luận Lý giải: Gom các giá trị có cùng một khóa (key) lại với nhau trước khi đưa vào hàm Reduce
Câu 11:Cấu trúc dữ liệu cốt lõi của Apache Spark, cho phép xử lý song song và có khả năng phục hồi lỗi, được gọi là gì?
💡 Lời giải chi tiết:
RDD là thành phần cơ bản nhất của Spark, đại diện cho một tập hợp các đối tượng chỉ đọc được phân tán trên các nút trong cụm máy tính. Kết luận Lý giải: Resilient Distributed Dataset (RDD)
Câu 12:Đặc trưng 'Variety' của Big Data phản ánh thách thức nào sau đây?
💡 Lời giải chi tiết:
Variety nhấn mạnh vào sự đa dạng của các loại dữ liệu từ văn bản, hình ảnh, video đến các tệp log và dữ liệu cảm biến. Kết luận Lý giải: Sự kết hợp giữa dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc
Câu 13:Tại sao HDFS lại mặc định sao chép mỗi khối dữ liệu (block) thành 3 bản trên các nút khác nhau?
💡 Lời giải chi tiết:
Cơ chế Replication của HDFS giúp hệ thống vẫn hoạt động và không mất dữ liệu ngay cả khi một hoặc nhiều nút phần cứng gặp sự cố. Kết luận Lý giải: Để đảm bảo tính sẵn sàng và khả năng chịu lỗi khi một nút bị hỏng
Câu 14:Công cụ nào trong hệ sinh thái Hadoop cung cấp giao diện truy vấn giống SQL để phân tích dữ liệu trên HDFS?
💡 Lời giải chi tiết:
Apache Hive cho phép người dùng viết các câu lệnh HiveQL (tương tự SQL) để truy vấn dữ liệu lớn mà không cần viết mã MapReduce phức tạp. Kết luận Lý giải: Apache Hive
Câu 15:Trong phân tích Big Data, 'Edge Computing' mang lại lợi ích gì so với việc gửi toàn bộ dữ liệu về Cloud?
💡 Lời giải chi tiết:
Bằng cách xử lý dữ liệu gần nguồn phát sinh (như cảm biến IoT), Edge Computing giúp phản hồi nhanh hơn và giảm tải cho đường truyền mạng. Kết luận Lý giải: Giảm độ trễ và tiết kiệm băng thông mạng
Câu 16:Thuật ngữ 'Batch Processing' (Xử lý theo lô) thường được dùng để chỉ loại hình xử lý dữ liệu nào?
💡 Lời giải chi tiết:
Xử lý theo lô phù hợp với các tác vụ không đòi hỏi thời gian thực, nơi dữ liệu được gom lại và chạy định kỳ (ví dụ: cuối ngày). Kết luận Lý giải: Xử lý một lượng lớn dữ liệu tích lũy trong một khoảng thời gian nhất định
Câu 17:Hệ thống NoSQL nào sau đây thuộc loại 'Graph Database', chuyên dùng để xử lý các mối quan hệ phức tạp?
💡 Lời giải chi tiết:
Neo4j sử dụng các nút và cạnh để mô hình hóa và truy vấn các mối quan hệ mạng lưới phức tạp hiệu quả hơn các cơ sở dữ liệu truyền thống. Kết luận Lý giải: Neo4j
Câu 18:Vai trò của Apache Zookeeper trong một cụm Big Data là gì?
💡 Lời giải chi tiết:
Zookeeper là dịch vụ điều phối tập trung giúp quản lý thông tin cấu hình, đặt tên và cung cấp tính năng đồng bộ hóa cho các hệ thống phân tán. Kết luận Lý giải: Điều phối và quản lý cấu hình cho các dịch vụ phân tán
Câu 19:Trong ngữ cảnh Big Data, 'Data Governance' (Quản trị dữ liệu) tập trung vào vấn đề gì?
💡 Lời giải chi tiết:
Quản trị dữ liệu là tập hợp các quy trình và tiêu chuẩn để kiểm soát cách thức dữ liệu được thu thập, lưu trữ và sử dụng một cách hợp lệ. Kết luận Lý giải: Đảm bảo tính khả dụng, tính toàn vẹn và bảo mật của dữ liệu
Câu 20:Hệ thống Apache Flink nổi tiếng với khả năng xử lý loại dữ liệu nào với độ trễ cực thấp?
💡 Lời giải chi tiết:
Apache Flink là một khung xử lý dòng dữ liệu mạnh mẽ, hỗ trợ các tính toán trên dữ liệu liên tục với độ chính xác cao và thời gian thực. Kết luận Lý giải: Dòng dữ liệu (Stream Data) thời gian thực
Câu 21:Mục tiêu chính của việc sử dụng YARN (Yet Another Resource Negotiator) trong Hadoop 2.x là gì?
💡 Lời giải chi tiết:
YARN cho phép nhiều công cụ xử lý khác nhau (như Spark, Giraph) cùng chạy trên một cụm Hadoop bằng cách quản lý tài nguyên tập trung. Kết luận Lý giải: Tách biệt việc quản lý tài nguyên và lập lịch công việc khỏi khung MapReduce
Câu 22:Trong kiến trúc Lambda, tầng 'Speed Layer' (Tầng tốc độ) có nhiệm vụ gì?
💡 Lời giải chi tiết:
Kiến trúc Lambda sử dụng Speed Layer để bổ sung các kết quả tức thời mà Batch Layer (với thời gian xử lý lâu hơn) chưa kịp cập nhật. Kết luận Lý giải: Cung cấp kết quả xử lý dữ liệu mới nhất với độ trễ thấp
Câu 23:Sự khác biệt chính giữa Structured Data và Unstructured Data là gì?
💡 Lời giải chi tiết:
Dữ liệu có cấu trúc được tổ chức chặt chẽ (như trong bảng SQL), trong khi dữ liệu không cấu trúc (như email, video) không có định dạng cố định. Kết luận Lý giải: Dữ liệu có cấu trúc tuân theo một mô hình dữ liệu (Schema) xác định
Câu 24:Ứng dụng phổ biến nhất của phân tích cảm xúc (Sentiment Analysis) trên Big Data là gì?
💡 Lời giải chi tiết:
Phân tích cảm xúc sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên để hiểu cảm xúc (tích cực, tiêu cực, trung lập) từ các tập dữ liệu văn bản khổng lồ. Kết luận Lý giải: Xác định thái độ của khách hàng qua các bài đăng trên mạng xã hội
Câu 25:Trong hệ thống Big Data, 'Veracity' thường đối mặt với thách thức nào nhất?
💡 Lời giải chi tiết:
Veracity đề cập đến chất lượng dữ liệu; do đó, các yếu tố gây sai lệch như dữ liệu ảo hoặc dữ liệu nhiễu là thách thức chính. Kết luận Lý giải: Dữ liệu bị thiếu, nhiễu hoặc không nhất quán