Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 7 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 7 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Veracity' tập trung vào khía cạnh nào sau đây?

A. Tốc độ tạo ra và xử lý dữ liệu theo thời gian thực.
B. Sự đa dạng về định dạng dữ liệu từ nhiều nguồn khác nhau.
C. Độ tin cậy và tính chính xác của dữ liệu thu thập được.
D. Khối lượng dữ liệu khổng lồ vượt quá khả năng lưu trữ truyền thống.

💡 Lời giải chi tiết:

Theo định nghĩa phổ biến của IBM, đặc tính Veracity mô tả mức độ tin cậy, độ nhiễu và tính chính xác của dữ liệu trong quá trình xử lý. Kết luận Lý giải: Độ tin cậy và tính chính xác của dữ liệu thu thập được.

Câu 2: Thành phần nào trong kiến trúc Hadoop HDFS chịu trách nhiệm quản lý metadata và điều phối truy cập của máy khách?

A. DataNode
B. NameNode
C. TaskTracker
D. JobTracker

💡 Lời giải chi tiết:

Trong hệ thống tệp phân tán HDFS, NameNode đóng vai trò là máy chủ quản lý cây hệ thống tệp và lưu trữ metadata của tất cả các tệp và thư mục. Kết luận Lý giải: NameNode

Câu 3: Kỹ thuật 'MapReduce' thường thực hiện quá trình nào để sắp xếp và chuyển dữ liệu từ các tác vụ Map sang các tác vụ Reduce?

A. Indexing
B. Shuffling
C. Partitioning
D. Caching

💡 Lời giải chi tiết:

Giai đoạn Shuffling trong MapReduce có nhiệm vụ thu thập, sắp xếp và chuyển các cặp key-value trung gian từ các nút Map đến các nút Reduce phù hợp. Kết luận Lý giải: Shuffling

Câu 4: Tại sao Apache Spark thường được đánh giá là có tốc độ xử lý nhanh hơn đáng kể so với Hadoop MapReduce truyền thống?

A. Do Spark sử dụng ngôn ngữ lập trình Scala tối ưu hơn Java.
B. Do Spark không yêu cầu khả năng chịu lỗi (fault tolerance).
C. Do Spark thực hiện tính toán trên bộ nhớ trong (in-memory) thay vì ghi dữ liệu tạm xuống đĩa.
D. Do Spark chỉ hỗ trợ các tập dữ liệu có kích thước nhỏ.

💡 Lời giải chi tiết:

Khả năng xử lý dữ liệu trực tiếp trên RAM giúp Spark giảm thiểu các thao tác I/O đĩa chậm chạp, từ đó tăng tốc độ tính toán gấp nhiều lần so với MapReduce. Kết luận Lý giải: Do Spark thực hiện tính toán trên bộ nhớ trong (in-memory) thay vì ghi dữ liệu tạm xuống đĩa.

Câu 5: Trong định lý CAP dành cho các hệ thống phân tán, ba yếu tố cốt lõi được đề cập là gì?

A. Consistency, Availability, Partition Tolerance
B. Capacity, Accuracy, Performance
C. Complexity, Availability, Privacy
D. Consistency, Agility, Portability

💡 Lời giải chi tiết:

Định lý CAP do Eric Brewer đưa ra khẳng định một hệ thống dữ liệu phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố: Tính nhất quán, Tính sẵn sàng và Khả năng chịu lỗi phân vùng. Kết luận Lý giải: Consistency, Availability, Partition Tolerance

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

A. Key-Value store
B. Graph database
C. Wide-column store
D. Document store

💡 Lời giải chi tiết:

MongoDB lưu trữ dữ liệu dưới dạng các tài liệu linh hoạt giống JSON (BSON), nên nó được phân loại vào nhóm cơ sở dữ liệu hướng tài liệu. Kết luận Lý giải: Document store

Câu 7: Khái niệm 'Schema-on-read' thường gắn liền với kiến trúc lưu trữ dữ liệu nào?

A. Relational Database Management System (RDBMS)
B. Data Warehouse
C. Data Lake
D. Transactional Database

💡 Lời giải chi tiết:

Data Lake cho phép lưu trữ dữ liệu thô ở định dạng nguyên bản và cấu trúc chỉ được xác định khi dữ liệu được truy vấn, khác với quy trình Schema-on-write của Data Warehouse. Kết luận Lý giải: Data Lake

Câu 8: Công cụ nào trong hệ sinh thái Hadoop cung cấp giao diện truy vấn SQL để phân tích dữ liệu lưu trữ trên HDFS?

A. Apache Flume
B. Apache Hive
C. Apache Zookeeper
D. Apache Sqoop

💡 Lời giải chi tiết:

Apache Hive là một phần mềm kho dữ liệu được xây dựng trên Hadoop giúp người dùng thực hiện truy vấn dữ liệu bằng ngôn ngữ HiveQL tương tự như SQL. Kết luận Lý giải: Apache Hive

Câu 9: Mục đích chính của việc sử dụng Apache Sqoop trong dự án Big Data là gì?

A. Truyền dẫn dữ liệu log theo thời gian thực từ máy chủ web.
B. Điều phối các luồng công việc phức tạp trong Hadoop.
C. Chuyển đổi dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS).
D. Thực hiện các thuật toán học máy chuyên sâu.

💡 Lời giải chi tiết:

Apache Sqoop được thiết kế chuyên biệt để truyền tải dữ liệu hiệu quả giữa cấu trúc lưu trữ của Hadoop và các hệ quản trị cơ sở dữ liệu có cấu trúc như MySQL hay Oracle. Kết luận Lý giải: Chuyển đổi dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS).

Câu 10: Apache Kafka đóng vai trò gì phổ biến nhất trong các hệ thống xử lý dữ liệu lớn hiện nay?

A. Lưu trữ dữ liệu vĩnh viễn thay thế cho HDFS.
B. Nền tảng truyền tin (messaging) và thu thập luồng dữ liệu phân tán.
C. Công cụ trực quan hóa dữ liệu biểu đồ.
D. Hệ điều hành cho các cụm máy chủ Big Data.

💡 Lời giải chi tiết:

Apache Kafka là một nền tảng stream-processing mã nguồn mở cho phép thu thập, lưu trữ và xử lý các luồng sự kiện theo thời gian thực với độ trễ thấp. Kết luận Lý giải: Nền tảng truyền tin (messaging) và thu thập luồng dữ liệu phân tán.

Câu 11: Đặc tính nào sau đây là cốt lõi của RDD (Resilient Distributed Dataset) trong Apache Spark?

A. Dữ liệu có thể thay đổi trực tiếp (Mutable).
B. Chỉ hoạt động trên một máy chủ duy nhất.
C. Tính bất biến (Immutable) và khả năng tự phục hồi lỗi.
D. Luôn yêu cầu cấu trúc bảng nghiêm ngặt.

💡 Lời giải chi tiết:

RDD là tập dữ liệu phân tán có khả năng chịu lỗi, trong đó các phần tử dữ liệu là bất biến và có thể được tái tạo lại nếu một phân vùng bị mất. Kết luận Lý giải: Tính bất biến (Immutable) và khả năng tự phục hồi lỗi.

Câu 12: Trong hệ sinh thái Hadoop 2.x trở lên, thành phần YARN (Yet Another Resource Negotiator) đảm nhận nhiệm vụ gì?

A. Chỉ dùng để lưu trữ dữ liệu dưới dạng tệp tin.
B. Quản lý tài nguyên cụm và lập lịch cho các ứng dụng.
C. Kiểm tra tính toàn vẹn của dữ liệu trên đĩa cứng.
D. Cung cấp giao diện người dùng để vẽ biểu đồ.

💡 Lời giải chi tiết:

YARN tách biệt chức năng quản lý tài nguyên và lập lịch/theo dõi công việc, cho phép nhiều công cụ xử lý khác nhau cùng chạy trên một cụm Hadoop. Kết luận Lý giải: Quản lý tài nguyên cụm và lập lịch cho các ứng dụng.

Câu 13: Apache HBase được phát triển dựa trên cảm hứng từ thiết kế của hệ thống nào của Google?

A. Google File System
B. Google MapReduce
C. Google BigTable
D. Google Spanner

💡 Lời giải chi tiết:

HBase là một cơ sở dữ liệu phân tán, hướng cột mã nguồn mở được mô hình hóa theo tài liệu thiết kế BigTable của Google. Kết luận Lý giải: Google BigTable

Câu 14: Ngôn ngữ 'Pig Latin' được sử dụng trong công cụ Apache Pig nhằm mục đích gì?

A. Viết các kịch bản phân tích dữ liệu mức cao để tự động chuyển thành MapReduce.
B. Lập trình các ứng dụng di động truy cập Big Data.
C. Quản lý bảo mật cho hệ thống tệp HDFS.
D. Thiết kế giao diện web cho kho dữ liệu.

💡 Lời giải chi tiết:

Pig Latin cung cấp một cách tiếp cận trừu tượng hóa giúp người dùng xử lý dữ liệu lớn mà không cần viết mã Java MapReduce phức tạp. Kết luận Lý giải: Viết các kịch bản phân tích dữ liệu mức cao để tự động chuyển thành MapReduce.

Câu 15: Định dạng lưu trữ 'Parquet' mang lại lợi ích chính nào cho việc phân tích dữ liệu lớn?

A. Dễ đọc bằng các trình soạn thảo văn bản thông thường.
B. Tối ưu hóa việc đọc dữ liệu theo cột, giúp tăng hiệu suất truy vấn phân tích.
C. Hỗ trợ ghi dữ liệu nhanh hơn định dạng hàng (Row-based).
D. Không yêu cầu bất kỳ nén dữ liệu nào.

💡 Lời giải chi tiết:

Parquet là định dạng lưu trữ dạng cột (columnar) giúp giảm lượng dữ liệu cần đọc từ đĩa khi thực hiện các truy vấn chỉ liên quan đến một vài cột cụ thể. Kết luận Lý giải: Tối ưu hóa việc đọc dữ liệu theo cột, giúp tăng hiệu suất truy vấn phân tích.

Câu 16: Apache Zookeeper thường được sử dụng trong các cụm Big Data để giải quyết vấn đề gì?

A. Lưu trữ dữ liệu video dung lượng lớn.
B. Phân tích cú pháp các câu lệnh SQL.
C. Điều phối, cấu hình và đồng bộ hóa giữa các dịch vụ phân tán.
D. Nén dữ liệu để tiết kiệm không gian đĩa.

💡 Lời giải chi tiết:

Zookeeper cung cấp một dịch vụ tập trung để duy trì thông tin cấu hình, đặt tên và cung cấp sự đồng bộ hóa trong môi trường phân tán phức tạp. Kết luận Lý giải: Điều phối, cấu hình và đồng bộ hóa giữa các dịch vụ phân tán.

Câu 17: Kiến trúc 'Lambda' trong xử lý dữ liệu lớn kết hợp những yếu tố nào để đảm bảo tính toàn diện?

A. Kết hợp xử lý theo lô (Batch layer) và xử lý luồng (Speed layer).
B. Kết hợp giữa lưu trữ trên mây và lưu trữ tại chỗ.
C. Kết hợp giữa dữ liệu có cấu trúc và dữ liệu hình ảnh.
D. Kết hợp giữa bảo mật vật lý và bảo mật phần mềm.

💡 Lời giải chi tiết:

Kiến trúc Lambda được thiết kế để xử lý lượng lớn dữ liệu bằng cách tận dụng cả phương pháp xử lý lô để có độ chính xác cao và xử lý luồng để có thời gian thực. Kết luận Lý giải: Kết hợp xử lý theo lô (Batch layer) và xử lý luồng (Speed layer).

Câu 18: Đặc điểm nổi bật của Apache Flink so với các công cụ stream processing khác là gì?

A. Chỉ hỗ trợ xử lý dữ liệu tĩnh (Batch).
B. Khả năng xử lý luồng dữ liệu thực sự (Native streaming) với quản lý trạng thái mạnh mẽ.
C. Không hỗ trợ khả năng chịu lỗi.
D. Yêu cầu tất cả dữ liệu phải được lưu vào cơ sở dữ liệu trước khi xử lý.

💡 Lời giải chi tiết:

Khác với mô hình micro-batching, Flink xử lý từng sự kiện một ngay khi chúng đến, đồng thời cung cấp các cơ chế quản lý trạng thái (state) và thời gian sự kiện (event time) chính xác. Kết luận Lý giải: Khả năng xử lý luồng dữ liệu thực sự (Native streaming) với quản lý trạng thái mạnh mẽ.

Câu 19: Kỹ thuật 'Data Sharding' trong các cơ sở dữ liệu Big Data nhằm mục đích chính là gì?

A. Mã hóa dữ liệu để tăng tính bảo mật.
B. Tạo ra các bản sao lưu để dự phòng thảm họa.
C. Phân chia dữ liệu theo chiều ngang để mở rộng khả năng lưu trữ và xử lý trên nhiều nút.
D. Xóa bỏ các bản ghi bị trùng lặp trong hệ thống.

💡 Lời giải chi tiết:

Sharding giúp hệ thống vượt qua giới hạn của một máy chủ duy nhất bằng cách phân tán các phần của tập dữ liệu sang nhiều máy chủ khác nhau trong cụm. Kết luận Lý giải: Phân chia dữ liệu theo chiều ngang để mở rộng khả năng lưu trữ và xử lý trên nhiều nút.

Câu 20: Sự khác biệt cơ bản nhất giữa quy trình ETL và ELT trong xử lý dữ liệu lớn là gì?

A. ETL chỉ dùng cho dữ liệu nhỏ, ELT dùng cho dữ liệu lớn.
B. Thứ tự thực hiện bước chuyển đổi (Transform) dữ liệu so với bước nạp (Load).
C. ETL không yêu cầu máy chủ trung gian.
D. ELT luôn chậm hơn ETL trong mọi tình huống.

💡 Lời giải chi tiết:

Trong ELT, dữ liệu được nạp vào hệ thống đích trước khi thực hiện các thao tác chuyển đổi, tận dụng sức mạnh tính toán của chính kho dữ liệu đó. Kết luận Lý giải: Thứ tự thực hiện bước chuyển đổi (Transform) dữ liệu so với bước nạp (Load).

Câu 21: Theo mặc định, hệ thống HDFS thường lưu trữ bao nhiêu bản sao (replication factor) cho mỗi khối dữ liệu?

A. bản sao
B. bản sao
C. bản sao
D. bản sao

💡 Lời giải chi tiết:

Để đảm bảo khả năng chịu lỗi và tính sẵn sàng của dữ liệu, cấu hình mặc định của HDFS là tạo ra 3 bản sao cho mỗi block dữ liệu trên các nút khác nhau. Kết luận Lý giải: 3 bản sao

Câu 22: Công cụ Apache Flume được thiết kế tối ưu nhất cho kịch bản nào?

A. Thực hiện các truy vấn SQL phức tạp.
B. Thu thập và di chuyển lượng lớn dữ liệu nhật ký (log) vào HDFS.
C. Đào tạo các mô hình mạng nơ-ron sâu.
D. Quản lý quyền truy cập người dùng vào hệ thống.

💡 Lời giải chi tiết:

Flume là một dịch vụ phân tán, đáng tin cậy để thu thập, tổng hợp và di chuyển hiệu quả các luồng dữ liệu log khổng lồ từ nhiều nguồn khác nhau vào kho lưu trữ tập trung. Kết luận Lý giải: Thu thập và di chuyển lượng lớn dữ liệu nhật ký (log) vào HDFS.

Câu 23: Trong Spark SQL, đối tượng nào cung cấp giao diện lập trình hướng bảng với khả năng tối ưu hóa truy vấn mạnh mẽ?

A. RDD
B. DataFrame
C. Accumulator
D. Broadcast Variable

💡 Lời giải chi tiết:

DataFrame trong Spark được tổ chức thành các cột có tên và đi kèm với bộ tối ưu hóa Catalyst để cải thiện hiệu suất thực thi lệnh. Kết luận Lý giải: DataFrame

Câu 24: Loại cơ sở dữ liệu NoSQL nào là lựa chọn tốt nhất để biểu diễn các mối quan hệ phức tạp như mạng xã hội hay mạng lưới giao thông?

A. Document database
B. Key-value database
C. Graph database
D. Column-family database

💡 Lời giải chi tiết:

Cơ sở dữ liệu đồ thị sử dụng các nút và cạnh để lưu trữ dữ liệu, cực kỳ hiệu quả trong việc truy vấn và duyệt các mối quan hệ đa tầng. Kết luận Lý giải: Graph database

Câu 25: Apache Oozie đóng vai trò gì trong một hệ thống Hadoop?

A. Hệ thống bảo mật mạng.
B. Công cụ lập lịch và quản lý quy trình công việc (workflow).
C. Trình duyệt web cho dữ liệu HDFS.
D. Phần mềm diệt virus cho các nút dữ liệu.

💡 Lời giải chi tiết:

Oozie là một hệ thống điều phối cho phép người dùng định nghĩa và quản lý các chuỗi tác vụ Hadoop (như MapReduce, Pig, Hive) chạy theo một thứ tự nhất định. Kết luận Lý giải: Công cụ lập lịch và quản lý quy trình công việc (workflow).

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 259 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 276 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 293 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 110 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 127 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 144 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Veracity' tập trung vào khía cạnh nào sau đây?

Câu 2: Thành phần nào trong kiến trúc Hadoop HDFS chịu trách nhiệm quản lý metadata và điều phối truy cập của máy khách?

Câu 3: Kỹ thuật 'MapReduce' thường thực hiện quá trình nào để sắp xếp và chuyển dữ liệu từ các tác vụ Map sang các tác vụ Reduce?

Câu 4: Tại sao Apache Spark thường được đánh giá là có tốc độ xử lý nhanh hơn đáng kể so với Hadoop MapReduce truyền thống?

Câu 5: Trong định lý CAP dành cho các hệ thống phân tán, ba yếu tố cốt lõi được đề cập là gì?

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

Câu 7: Khái niệm 'Schema-on-read' thường gắn liền với kiến trúc lưu trữ dữ liệu nào?

Câu 8: Công cụ nào trong hệ sinh thái Hadoop cung cấp giao diện truy vấn SQL để phân tích dữ liệu lưu trữ trên HDFS?

Câu 9: Mục đích chính của việc sử dụng Apache Sqoop trong dự án Big Data là gì?

Câu 10: Apache Kafka đóng vai trò gì phổ biến nhất trong các hệ thống xử lý dữ liệu lớn hiện nay?

Câu 11: Đặc tính nào sau đây là cốt lõi của RDD (Resilient Distributed Dataset) trong Apache Spark?

Câu 12: Trong hệ sinh thái Hadoop 2.x trở lên, thành phần YARN (Yet Another Resource Negotiator) đảm nhận nhiệm vụ gì?

Câu 13: Apache HBase được phát triển dựa trên cảm hứng từ thiết kế của hệ thống nào của Google?

Câu 14: Ngôn ngữ 'Pig Latin' được sử dụng trong công cụ Apache Pig nhằm mục đích gì?

Câu 15: Định dạng lưu trữ 'Parquet' mang lại lợi ích chính nào cho việc phân tích dữ liệu lớn?

Câu 16: Apache Zookeeper thường được sử dụng trong các cụm Big Data để giải quyết vấn đề gì?

Câu 17: Kiến trúc 'Lambda' trong xử lý dữ liệu lớn kết hợp những yếu tố nào để đảm bảo tính toàn diện?

Câu 18: Đặc điểm nổi bật của Apache Flink so với các công cụ stream processing khác là gì?

Câu 19: Kỹ thuật 'Data Sharding' trong các cơ sở dữ liệu Big Data nhằm mục đích chính là gì?

Câu 20: Sự khác biệt cơ bản nhất giữa quy trình ETL và ELT trong xử lý dữ liệu lớn là gì?

Câu 21: Theo mặc định, hệ thống HDFS thường lưu trữ bao nhiêu bản sao (replication factor) cho mỗi khối dữ liệu?

Câu 22: Công cụ Apache Flume được thiết kế tối ưu nhất cho kịch bản nào?

Câu 23: Trong Spark SQL, đối tượng nào cung cấp giao diện lập trình hướng bảng với khả năng tối ưu hóa truy vấn mạnh mẽ?

Câu 24: Loại cơ sở dữ liệu NoSQL nào là lựa chọn tốt nhất để biểu diễn các mối quan hệ phức tạp như mạng xã hội hay mạng lưới giao thông?

Câu 25: Apache Oozie đóng vai trò gì trong một hệ thống Hadoop?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top