Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:
Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Variety' đề cập đến yếu tố nào sau đây?
💡 Lời giải chi tiết:
Theo phân tích phổ biến, 'Variety' mô tả sự phong phú của các định dạng dữ liệu khác nhau từ nhiều nguồn khác nhau trong hệ sinh thái Big Data. Kết luận Lý giải Sự đa dạng về các loại dữ liệu bao gồm dữ liệu cấu trúc, bán cấu trúc và phi cấu trúc.
Câu 2:
Thành phần nào trong kiến trúc Hadoop Distributed File System (HDFS) chịu trách nhiệm lưu trữ dữ liệu thực tế?
💡 Lời giải chi tiết:
Trong kiến trúc HDFS, trong khi NameNode quản lý metadata thì DataNode là nơi trực tiếp lưu trữ các khối dữ liệu (blocks) trên các ổ đĩa cục bộ. Kết luận Lý giải DataNode.
Câu 3:
Tại sao Apache Spark thường được đánh giá là nhanh hơn MapReduce trong việc xử lý dữ liệu lặp đi lặp lại?
💡 Lời giải chi tiết:
Apache Spark giảm thiểu việc ghi dữ liệu trung gian xuống đĩa cứng bằng cách giữ dữ liệu trên RAM, giúp tăng tốc độ xử lý vượt trội so với MapReduce. Kết luận Lý giải Spark sử dụng cơ chế xử lý dữ liệu trên bộ nhớ trong (In-memory computing).
Câu 4:
Đặc tính 'Velocity' trong Big Data nhấn mạnh vào khía cạnh nào?
💡 Lời giải chi tiết:
Velocity phản ánh tốc độ luân chuyển và xử lý dòng dữ liệu để đáp ứng nhu cầu phản hồi tức thời trong các ứng dụng hiện đại. Kết luận Lý giải Tốc độ dữ liệu được tạo ra và cần được xử lý nhanh chóng.
Câu 5:
Trong lập trình MapReduce, giai đoạn nào thực hiện việc thu thập và nhóm các cặp key-value trung gian có cùng key?
💡 Lời giải chi tiết:
Giai đoạn Shuffle and Sort đóng vai trò cầu nối để đảm bảo tất cả các giá trị đi kèm với cùng một khóa được gửi đến cùng một bộ giảm (reducer). Kết luận Lý giải Shuffle and Sort phase.
Câu 6:
Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây thuộc loại 'Graph Database'?
💡 Lời giải chi tiết:
Neo4j là một hệ quản trị cơ sở dữ liệu đồ thị hàng đầu, chuyên dùng để xử lý các mối quan hệ phức tạp giữa các thực thể dữ liệu. Kết luận Lý giải Neo4j.
Câu 7:
Khái niệm 'Data Lake' được hiểu chính xác nhất là gì?
💡 Lời giải chi tiết:
Khác với Data Warehouse yêu cầu dữ liệu phải được định nghĩa cấu trúc trước, Data Lake giữ lại dữ liệu ở trạng thái nguyên bản cho đến khi cần phân tích. Kết luận Lý giải Một kho lưu trữ tập trung cho phép lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc ở định dạng thô.
Câu 8:
Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào?
💡 Lời giải chi tiết:
Theo định lý CAP, trong một hệ thống dữ liệu phân tán, việc đánh đổi giữa tính nhất quán, tính sẵn sàng và khả năng chịu lỗi phân đoạn là điều bắt buộc. Kết luận Lý giải Consistency, Availability, Partition Tolerance.
Câu 9:
Công cụ nào trong hệ sinh thái Hadoop được thiết kế để cung cấp giao diện truy vấn dữ liệu bằng ngôn ngữ tương tự SQL?
💡 Lời giải chi tiết:
Apache Hive cho phép người dùng phân tích dữ liệu lớn trên HDFS bằng ngôn ngữ HiveQL, giúp những người quen thuộc với SQL dễ dàng tiếp cận. Kết luận Lý giải Apache Hive.
Câu 10:
Đặc tính 'Veracity' của Big Data liên quan trực tiếp đến vấn đề nào?
💡 Lời giải chi tiết:
Veracity tập trung vào chất lượng dữ liệu, đảm bảo rằng thông tin đầu vào đủ tin cậy để đưa ra các quyết định phân tích chính xác. Kết luận Lý giải Sự sai lệch, độ nhiễu và độ tin cậy của dữ liệu.
Câu 11:
Apache Kafka thường được sử dụng trong các hệ thống Big Data với vai trò chủ yếu là gì?
💡 Lời giải chi tiết:
Kafka là một nền tảng truyền thông điệp phân tán cho phép xử lý các luồng dữ liệu với thông lượng cao và độ trễ thấp. Kết luận Lý giải Hệ thống quản lý hàng đợi thông điệp và truyền dòng dữ liệu thời gian thực.
Câu 12:
Trong hệ sinh thái Hadoop 2.x trở lên, thành phần nào chịu trách nhiệm quản lý tài nguyên và lập lịch cho các ứng dụng?
💡 Lời giải chi tiết:
YARN (Yet Another Resource Negotiator) tách biệt việc quản lý tài nguyên khỏi việc xử lý dữ liệu, cho phép nhiều framework chạy đồng thời trên cùng một cluster. Kết luận Lý giải YARN.
Câu 13:
Kiểu lưu trữ dữ liệu theo cột (Columnar Storage) như Apache Parquet mang lại lợi ích lớn nhất trong trường hợp nào?
💡 Lời giải chi tiết:
Lưu trữ theo cột cho phép hệ thống chỉ đọc các cột cần thiết từ đĩa cứng, giúp tối ưu hóa hiệu suất I/O và tỷ lệ nén cho các tác vụ phân tích. Kết luận Lý giải Khi thực hiện các truy vấn phân tích chỉ tập trung vào một số cột nhất định trên tập dữ liệu lớn.
Câu 14:
Trong Apache Spark, RDD (Resilient Distributed Dataset) có đặc điểm quan trọng nào?
💡 Lời giải chi tiết:
RDD là trừu tượng hóa dữ liệu cốt lõi của Spark, cho phép tính toán song song trên cluster với cơ chế tự phục hồi thông qua lineage. Kết luận Lý giải Là tập dữ liệu phân tán có khả năng phục hồi lỗi và không thể thay đổi (immutable).
Câu 15:
Thuật ngữ 'Data Sharding' trong các cơ sở dữ liệu Big Data có nghĩa là gì?
💡 Lời giải chi tiết:
Sharding là một kỹ thuật phân mảnh ngang giúp hệ thống có thể mở rộng quy mô bằng cách phân phối tải trọng dữ liệu ra nhiều nút trong mạng. Kết luận Lý giải Phân chia một tập dữ liệu lớn thành các phần nhỏ hơn (shards) để lưu trữ trên nhiều máy chủ.
Câu 16:
Yếu tố nào được coi là quan trọng nhất trong 5V để biến Big Data thành kết quả thực tế cho doanh nghiệp?
💡 Lời giải chi tiết:
Mục tiêu cuối cùng của mọi dự án Big Data là trích xuất được giá trị (Value) có ích từ dữ liệu để hỗ trợ kinh doanh và ra quyết định. Kết luận Lý giải Value.
Câu 17:
Cơ sở dữ liệu NoSQL nào được thiết kế dựa trên mô hình BigTable của Google và chạy trên nền HDFS?
💡 Lời giải chi tiết:
Apache HBase là một cơ sở dữ liệu phân tán, hướng cột, cung cấp khả năng truy cập ngẫu nhiên thời gian thực vào dữ liệu khổng lồ trên Hadoop. Kết luận Lý giải Apache HBase.
Câu 18:
Sự khác biệt chính giữa ETL (Extract, Transform, Load) truyền thống và ELT trong Big Data là gì?
💡 Lời giải chi tiết:
Trong mô hình ELT, việc tận dụng sức mạnh xử lý của hệ thống đích để biến đổi dữ liệu giúp tối ưu hóa thời gian nạp dữ liệu thô. Kết luận Lý giải ELT thực hiện biến đổi dữ liệu ngay sau khi tải vào hệ thống đích (như Data Lake).
Câu 19:
Apache Zookeeper đóng vai trò gì trong một cluster Big Data?
💡 Lời giải chi tiết:
Zookeeper cung cấp các dịch vụ như đồng bộ hóa dữ liệu, quản lý cấu hình và định danh cho các ứng dụng phân tán để đảm bảo tính nhất quán. Kết luận Lý giải Điều phối và quản lý cấu hình tập trung cho các dịch vụ phân tán.
Câu 20:
Ước tính phổ biến hiện nay cho thấy dữ liệu phi cấu trúc chiếm khoảng bao nhiêu phần trăm trong tổng lượng dữ liệu của doanh nghiệp?
💡 Lời giải chi tiết:
Theo nhiều nghiên cứu từ các tổ chức uy tín như IDC, dữ liệu phi cấu trúc (video, email, cảm biến) đang bùng nổ và chiếm đại đa số dữ liệu hiện nay. Kết luận Lý giải Khoảng 80% trở lên.
Câu 21:
Ứng dụng nào sau đây của Big Data sử dụng kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) để hiểu cảm xúc khách hàng?
💡 Lời giải chi tiết:
Sentiment Analysis phân tích các văn bản từ mạng xã hội hoặc đánh giá của khách hàng để xác định thái độ tích cực hay tiêu cực đối với thương hiệu. Kết luận Lý giải Phân tích tình cảm (Sentiment Analysis).
Câu 22:
Mục tiêu chính của việc sử dụng 'Replication' trong HDFS là gì?
💡 Lời giải chi tiết:
HDFS mặc định sao chép mỗi khối dữ liệu sang 3 node khác nhau để đảm bảo dữ liệu không bị mất khi có sự cố phần cứng. Kết luận Lý giải Đảm bảo tính sẵn sàng và khả năng chịu lỗi khi một node bị hỏng.
Câu 23:
Đặc điểm nào dưới đây là ưu điểm nổi bật của cơ sở dữ liệu Cassandra?
💡 Lời giải chi tiết:
Apache Cassandra được thiết kế để xử lý lượng lớn dữ liệu trên nhiều máy chủ với kiến trúc phân tán ngang hàng (peer-to-peer). Kết luận Lý giải Khả năng ghi dữ liệu cực nhanh và không có điểm lỗi duy nhất (no single point of failure).
Câu 24:
Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề gì?
💡 Lời giải chi tiết:
Kiến trúc Lambda cung cấp một mô hình cân bằng giữa việc xử lý dữ liệu lịch sử chính xác và cung cấp kết quả thời gian thực với độ trễ thấp. Kết luận Lý giải Kết hợp cả xử lý hàng loạt (Batch Processing) và xử lý dòng (Stream Processing).
Câu 25:
Trong ngữ cảnh Big Data, 'Edge Computing' đóng vai trò như thế nào so với điện toán đám mây trung tâm?
💡 Lời giải chi tiết:
Điện toán biên giúp xử lý sơ bộ các luồng dữ liệu khổng lồ từ IoT trước khi gửi những thông tin quan trọng về hệ thống trung tâm. Kết luận Lý giải Xử lý dữ liệu tại nguồn (gần thiết bị đầu cuối) để giảm độ trễ và băng thông mạng.