Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Mô hình 5Vs của Dữ liệu lớn (Big Data) bao gồm những yếu tố nào sau đây?
💡 Lời giải chi tiết:
Theo định nghĩa phổ biến của IBM và các tổ chức công nghệ, năm đặc trưng cốt lõi của Big Data là Khối lượng, Tốc độ, Đa dạng, Độ tin cậy và Giá trị. Kết luận Lý giải Volume, Velocity, Variety, Veracity, Value.
Câu 2:Thành phần nào trong hệ sinh thái Hadoop chịu trách nhiệm lưu trữ dữ liệu phân tán?
💡 Lời giải chi tiết:
HDFS là hệ thống tệp tin phân tán được thiết kế để lưu trữ các tập dữ liệu cực lớn trên các cụm máy tính thông thường với khả năng chịu lỗi cao. Kết luận Lý giải Hadoop Distributed File System (HDFS).
Câu 3:Tại sao Apache Spark thường được đánh giá là nhanh hơn Hadoop MapReduce trong xử lý dữ liệu?
💡 Lời giải chi tiết:
Apache Spark tăng tốc độ xử lý bằng cách giữ dữ liệu trên RAM thay vì phải ghi và đọc từ đĩa cứng sau mỗi giai đoạn như MapReduce. Kết luận Lý giải Xử lý dữ liệu trực tiếp trên bộ nhớ (In-memory processing).
Câu 4:Trong hệ thống HDFS, nút nào đóng vai trò quản lý metadata và điều phối truy cập tệp tin?
💡 Lời giải chi tiết:
NameNode hoạt động như một máy chủ quản lý trung tâm để lưu trữ cấu trúc thư mục và ánh xạ các khối dữ liệu trong HDFS. Kết luận Lý giải NameNode.
Câu 5:Định lý CAP trong hệ thống cơ sở dữ liệu phân tán khẳng định không thể đồng thời đạt được cả ba yếu tố nào?
💡 Lời giải chi tiết:
Theo định lý Brewer, một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba thuộc tính là Tính nhất quán, Tính sẵn sàng và Khả năng chịu lỗi phân đoạn. Kết luận Lý giải Consistency, Availability, Partition Tolerance.
Câu 6:Hai giai đoạn chính trong mô hình lập trình MapReduce là gì?
💡 Lời giải chi tiết:
Quy trình MapReduce bao gồm bước Map để xử lý và phân tách dữ liệu, sau đó là bước Reduce để tổng hợp kết quả dựa trên các khóa. Kết luận Lý giải Map và Reduce.
Câu 7:Công cụ nào sau đây được sử dụng để thu thập và vận chuyển các dòng dữ liệu nhật ký (log) lớn vào Hadoop?
💡 Lời giải chi tiết:
Apache Flume là một dịch vụ phân tán, tin cậy để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu nhật ký từ nhiều nguồn khác nhau. Kết luận Lý giải Apache Flume.
Câu 8:Sự khác biệt cốt lõi giữa Data Lake và Data Warehouse là gì?
💡 Lời giải chi tiết:
Data Lake cho phép lưu trữ mọi loại dữ liệu ở định dạng gốc, trong khi Data Warehouse yêu cầu dữ liệu phải được làm sạch và cấu trúc hóa trước khi lưu. Kết luận Lý giải Data Lake lưu trữ dữ liệu ở dạng thô (Raw format) cho đến khi cần sử dụng.
Câu 9:Trong Hadoop 2.x, YARN đóng vai trò gì?
💡 Lời giải chi tiết:
YARN (Yet Another Resource Negotiator) tách biệt việc quản lý tài nguyên khỏi việc xử lý dữ liệu, cho phép nhiều ứng dụng chạy đồng thời trên cùng một cụm. Kết luận Lý giải Quản lý tài nguyên và lập lịch công việc cho cụm (Cluster).
Câu 10:Đặc tính 'Veracity' trong Big Data đề cập đến khía cạnh nào?
💡 Lời giải chi tiết:
Veracity tập trung vào việc xác định mức độ tin cậy và chất lượng của dữ liệu đầu vào để đảm bảo kết quả phân tích chính xác. Kết luận Lý giải Độ chính xác và tính tin cậy của dữ liệu.
Câu 11:Cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?
💡 Lời giải chi tiết:
MongoDB lưu trữ dữ liệu dưới dạng các tài liệu có cấu trúc linh hoạt tương tự JSON (BSON), nên nó được phân loại là cơ sở dữ liệu hướng tài liệu. Kết luận Lý giải Document-oriented database.
Câu 12:Cấu trúc dữ liệu cơ bản của Apache Spark là gì?
💡 Lời giải chi tiết:
RDD là một tập hợp các đối tượng phân tán, có khả năng phục hồi lỗi và cho phép thực hiện các tính toán song song trên toàn cụm máy tính. Kết luận Lý giải Resilient Distributed Datasets (RDD).
Câu 13:Apache Hive cung cấp khả năng nào cho người dùng Hadoop?
💡 Lời giải chi tiết:
Hive giúp những người dùng quen thuộc với SQL có thể truy vấn dữ liệu lớn trên Hadoop mà không cần viết mã Java MapReduce phức tạp. Kết luận Lý giải Phân tích dữ liệu bằng ngôn ngữ giống SQL (HiveQL).
Câu 14:Dữ liệu từ các bài đăng trên mạng xã hội như Facebook hoặc Twitter thường được phân loại là loại dữ liệu nào?
💡 Lời giải chi tiết:
Các nội dung mạng xã hội bao gồm văn bản tự do, hình ảnh và video không tuân theo một mô hình dữ liệu bảng cố định nên được coi là phi cấu trúc. Kết luận Lý giải Dữ liệu phi cấu trúc (Unstructured data).
Câu 15:Edge Computing giúp ích gì cho các hệ thống Big Data và IoT?
💡 Lời giải chi tiết:
Bằng cách xử lý dữ liệu tại biên mạng, Edge Computing giúp phản hồi nhanh hơn và giảm bớt lưu lượng truyền tải về máy chủ trung tâm. Kết luận Lý giải Giảm độ trễ bằng cách xử lý dữ liệu gần nguồn phát sinh.
Câu 16:Trong quy trình xử lý dữ liệu, ETL là viết tắt của cụm từ nào?
💡 Lời giải chi tiết:
ETL là quy trình chuẩn để trích xuất dữ liệu từ nguồn, chuyển đổi định dạng cho phù hợp và tải vào hệ thống lưu trữ đích. Kết luận Lý giải Extract, Transform, Load.
Câu 17:Cơ sở dữ liệu Apache Cassandra được thiết kế theo mô hình nào để tối ưu hóa khả năng mở rộng?
💡 Lời giải chi tiết:
Kiến trúc Peer-to-Peer của Cassandra giúp hệ thống không có điểm yếu tập trung và dễ dàng mở rộng theo chiều ngang bằng cách thêm nút mới. Kết luận Lý giải Peer-to-Peer (không có nút chủ).
Câu 18:Mục tiêu chính của Khoa học dữ liệu (Data Science) trong bối cảnh Big Data là gì?
💡 Lời giải chi tiết:
Khoa học dữ liệu kết hợp toán học, thống kê và lập trình để biến dữ liệu thô thành các dự báo và thông tin có giá trị thực tiễn. Kết luận Lý giải Khai thác thông tin và tri thức từ dữ liệu để đưa ra quyết định.
Câu 19:Apache Kafka thường được sử dụng cho mục đích nào trong kiến trúc Big Data?
💡 Lời giải chi tiết:
Kafka là một nền tảng phân phối luồng cho phép truyền tải và xử lý hàng triệu sự kiện mỗi giây giữa các hệ thống khác nhau. Kết luận Lý giải Xây dựng các đường ống dữ liệu (data pipeline) thời gian thực.
Câu 20:Lỗi 'Single Point of Failure' trong cụm Hadoop 1.x liên quan đến thành phần nào?
💡 Lời giải chi tiết:
Trong Hadoop 1.x, chỉ có duy nhất một NameNode hoạt động, nếu nút này gặp sự cố thì toàn bộ cụm sẽ ngừng hoạt động. Kết luận Lý giải NameNode.
Câu 21:Quy định GDPR của Liên minh Châu Âu ảnh hưởng như thế nào đến việc xử lý Big Data?
💡 Lời giải chi tiết:
GDPR thiết lập các tiêu chuẩn nghiêm ngặt về cách thu thập, lưu trữ và xử lý dữ liệu của công dân EU nhằm bảo vệ quyền riêng tư cá nhân. Kết luận Lý giải Yêu cầu các tổ chức phải bảo vệ quyền riêng tư và dữ liệu cá nhân chặt chẽ.
Câu 22:Cơ chế 'Micro-batching' là đặc điểm xử lý dòng của công cụ nào?
💡 Lời giải chi tiết:
Spark Streaming xử lý các dòng dữ liệu bằng cách chia nhỏ chúng thành các lô (batch) ngắn và xử lý như các tác vụ tính toán thông thường. Kết luận Lý giải Spark Streaming.
Câu 23:Đặc tính 'Variety' của Big Data nhấn mạnh vào yếu tố nào?
💡 Lời giải chi tiết:
Variety phản ánh việc dữ liệu hiện nay đến từ nhiều nguồn và có nhiều định dạng khác nhau như văn bản, video, âm thanh, và cảm biến. Kết luận Lý giải Sự đa dạng về định dạng dữ liệu (cấu trúc, bán cấu trúc, phi cấu trúc).
Câu 24:Hệ thống nào giúp quản lý cấu hình và đồng bộ hóa các dịch vụ trong môi trường phân tán?
💡 Lời giải chi tiết:
ZooKeeper cung cấp một dịch vụ tập trung để duy trì thông tin cấu cấu hình, đặt tên và cung cấp khả năng đồng bộ hóa cho các ứng dụng phân tán. Kết luận Lý giải Apache ZooKeeper.
Câu 25:Tại sao 'Value' được coi là chữ V quan trọng nhất trong mô hình Big Data?
💡 Lời giải chi tiết:
Dữ liệu chỉ thực sự có ý nghĩa khi tổ chức có thể phân tích và trích xuất ra những thông tin mang lại lợi ích thực tế hoặc kinh tế. Kết luận Lý giải Vì mục tiêu cuối cùng của phân tích là tạo ra giá trị hữu ích cho tổ chức.