Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc trưng nào đại diện cho độ tin cậy và tính chính xác của dữ liệu?

A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Veracity (Tính xác thực)
D. Variety (Sự đa dạng)

💡 Lời giải chi tiết:

Theo mô hình 5V phổ biến, Veracity đề cập đến chất lượng, độ tin cậy và tính chính xác của dữ liệu thu thập được để đảm bảo kết quả phân tích có giá trị. Kết luận Lý giải Veracity (Tính xác thực)

Câu 2: Thành phần nào trong kiến trúc Hadoop HDFS đóng vai trò quản lý metadata và điều phối truy cập tệp của người dùng?

A. DataNode
B. NameNode
C. JobTracker
D. TaskTracker

💡 Lời giải chi tiết:

Trong hệ thống tệp phân tán HDFS, NameNode là máy chủ trung tâm quản lý sơ đồ cây tệp và lưu trữ metadata của tất cả các khối dữ liệu. Kết luận Lý giải NameNode

Câu 3: Tại sao Apache Spark thường được đánh giá là có tốc độ xử lý nhanh hơn MapReduce truyền thống trong các thuật toán lặp?

A. Spark sử dụng ngôn ngữ lập trình Python thay vì Java
B. Spark không yêu cầu kết nối mạng giữa các nút
C. Spark thực hiện tính toán trên bộ nhớ (In-memory computing)
D. Spark chỉ hỗ trợ dữ liệu có cấu trúc

💡 Lời giải chi tiết:

Spark đạt hiệu suất cao hơn MapReduce nhờ khả năng lưu trữ dữ liệu trung gian trên RAM thay vì ghi xuống đĩa cứng liên tục giữa các giai đoạn xử lý. Kết luận Lý giải Spark thực hiện tính toán trên bộ nhớ (In-memory computing)

Câu 4: Trong định lý CAP áp dụng cho các hệ thống phân tán, ba yếu tố nào không thể được tối ưu hóa đồng thời 100%?

A. Consistency, Availability, Partition Tolerance
B. Capacity, Accuracy, Performance
C. Cost, Agility, Privacy
D. Collection, Analysis, Processing

💡 Lời giải chi tiết:

Định lý CAP khẳng định rằng một hệ thống dữ liệu phân tán chỉ có thể đáp ứng tối đa hai trong ba yếu tố: Tính nhất quán, Tính sẵn sàng và Khả năng chịu lỗi phân vùng. Kết luận Lý giải Consistency, Availability, Partition Tolerance

Câu 5: Đặc điểm cốt lõi phân biệt cơ sở dữ liệu NoSQL với cơ sở dữ liệu quan hệ (RDBMS) truyền thống là gì?

A. NoSQL chỉ chạy được trên hệ điều hành Linux
B. NoSQL bắt buộc phải sử dụng ngôn ngữ SQL để truy vấn
C. NoSQL hỗ trợ lược đồ linh hoạt (Schema-less) và khả năng mở rộng ngang
D. NoSQL không hỗ trợ lưu trữ dữ liệu văn bản

💡 Lời giải chi tiết:

Cơ sở dữ liệu NoSQL được thiết kế để xử lý dữ liệu phi cấu trúc với cấu trúc dữ liệu linh hoạt và dễ dàng mở rộng quy mô bằng cách thêm nhiều máy chủ. Kết luận Lý giải NoSQL hỗ trợ lược đồ linh hoạt (Schema-less) và khả năng mở rộng ngang

Câu 6: Trong hệ sinh thái Hadoop, công cụ nào được sử dụng để chuyển đổi dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?

A. Apache Flume
B. Apache Sqoop
C. Apache Pig
D. Apache Oozie

💡 Lời giải chi tiết:

Apache Sqoop là công cụ chuyên dụng được thiết kế để truyền dữ liệu hiệu quả giữa cấu trúc Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ như MySQL hay Oracle. Kết luận Lý giải Apache Sqoop

Câu 7: Loại cơ sở dữ liệu NoSQL nào như Neo4j tập trung vào việc lưu trữ các mối quan hệ phức tạp giữa các thực thể?

A. Key-value Store
B. Document Store
C. Graph Database
D. Wide-column Store

💡 Lời giải chi tiết:

Cơ sở dữ liệu đồ thị (Graph Database) sử dụng các nút và cạnh để biểu diễn dữ liệu, giúp truy vấn các mối quan hệ phức tạp nhanh chóng hơn các mô hình khác. Kết luận Lý giải Graph Database

Câu 8: Khái niệm 'Data Lake' trong kiến trúc Big Data khác với 'Data Warehouse' ở điểm chính nào?

A. Data Lake chỉ chứa dữ liệu đã qua xử lý hoàn toàn
B. Data Lake lưu trữ dữ liệu thô ở định dạng tự nhiên, bao gồm cả phi cấu trúc
C. Data Lake không hỗ trợ lưu trữ dữ liệu lớn
D. Data Lake yêu cầu phải định nghĩa Schema trước khi nạp dữ liệu

💡 Lời giải chi tiết:

Khác với kho dữ liệu truyền thống yêu cầu dữ liệu có cấu trúc, hồ dữ liệu (Data Lake) cho phép lưu trữ khối lượng lớn dữ liệu thô mà không cần xử lý ngay lập tức. Kết luận Lý giải Data Lake lưu trữ dữ liệu thô ở định dạng tự nhiên, bao gồm cả phi cấu trúc

Câu 9: Trong Apache Spark, RDD (Resilient Distributed Dataset) có đặc tính quan trọng nào giúp hệ thống tự phục hồi khi có lỗi nút xảy ra?

A. Khả năng ghi đè trực tiếp lên dữ liệu gốc
B. Tính bất biến (Immutable) và khả năng tái tạo dựa trên Lineage
C. Chỉ hoạt động trên một máy chủ duy nhất
D. Tự động xóa dữ liệu sau khi tính toán xong

💡 Lời giải chi tiết:

RDD là các tập dữ liệu bất biến và Spark lưu giữ lịch sử các thao tác (lineage) để có thể tính toán lại dữ liệu bị mất nếu một nút trong cụm gặp sự cố. Kết luận Lý giải Tính bất biến (Immutable) và khả năng tái tạo dựa trên Lineage

Câu 10: Công nghệ nào đóng vai trò là một hệ thống nhắn tin phân tán (Distributed Messaging System) phổ biến để xử lý luồng dữ liệu thời gian thực?

A. Apache Hive
B. Apache Kafka
C. Apache Mahout
D. Apache Drill

💡 Lời giải chi tiết:

Apache Kafka được sử dụng rộng rãi như một nền tảng truyền trực tuyến để thu thập, lưu trữ và xử lý các dòng dữ liệu với độ trễ thấp và khả năng chịu lỗi cao. Kết luận Lý giải Apache Kafka

Câu 11: Mục đích chính của thành phần YARN (Yet Another Resource Negotiator) trong Hadoop 2.x là gì?

A. Thay thế hoàn toàn hệ thống tệp HDFS
B. Quản lý tài nguyên cụm và lập lịch cho các ứng dụng khác nhau
C. Chỉ dùng để thực hiện các truy vấn SQL
D. Mã hóa dữ liệu khi truyền qua mạng

💡 Lời giải chi tiết:

YARN tách biệt chức năng quản lý tài nguyên và lập lịch/giám sát tác vụ, cho phép Hadoop chạy đồng thời nhiều framework xử lý dữ liệu khác nhau. Kết luận Lý giải Quản lý tài nguyên cụm và lập lịch cho các ứng dụng khác nhau

Câu 12: Đặc điểm 'Variety' trong Dữ liệu lớn đề cập đến điều gì?

A. Tốc độ luân chuyển của dữ liệu trong hệ thống
B. Sự đa dạng về định dạng dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc)
C. Tổng dung lượng lưu trữ của trung tâm dữ liệu
D. Tính kinh tế khi khai thác dữ liệu

💡 Lời giải chi tiết:

Variety mô tả sự phong phú của các nguồn và loại dữ liệu như văn bản, video, tệp âm thanh, log web và dữ liệu cảm biến mà doanh nghiệp thu thập. Kết luận Lý giải Sự đa dạng về định dạng dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc)

Câu 13: Apache Hive cung cấp giao diện nào giúp người dùng dễ dàng thao tác với dữ liệu trên Hadoop?

A. Giao diện kéo thả (Drag and Drop)
B. Ngôn ngữ truy vấn giống SQL (HQL)
C. Lập trình hợp ngữ (Assembly)
D. Chỉ dùng dòng lệnh của hệ điều hành Linux

💡 Lời giải chi tiết:

Hive cho phép những người đã quen thuộc với SQL có thể truy vấn dữ liệu lớn trong HDFS bằng ngôn ngữ HiveQL mà không cần viết mã MapReduce phức tạp. Kết luận Lý giải Ngôn ngữ truy vấn giống SQL (HQL)

Câu 14: Trong giai đoạn 'Reduce' của mô hình MapReduce, nhiệm vụ chính của nó là gì?

A. Chia dữ liệu đầu vào thành các khối nhỏ
B. Phân tích cú pháp của tệp cấu hình
C. Tổng hợp các kết quả trung gian có cùng khóa (key) từ giai đoạn Map
D. Ghi dữ liệu thô vào các DataNode

💡 Lời giải chi tiết:

Giai đoạn Reduce nhận đầu vào là các cặp khóa-giá trị đã được sắp xếp từ giai đoạn Map để thực hiện các phép tính tổng hợp như cộng dồn hoặc đếm. Kết luận Lý giải Tổng hợp các kết quả trung gian có cùng khóa (key) từ giai đoạn Map

Câu 15: HBase là loại cơ sở dữ liệu gì trong hệ sinh thái Big Data?

A. Cơ sở dữ liệu quan hệ truyền thống
B. Cơ sở dữ liệu NoSQL hướng cột (Column-family store) chạy trên HDFS
C. Một công cụ chỉ dùng để vẽ biểu đồ
D. Phần mềm diệt virus cho máy chủ Hadoop

💡 Lời giải chi tiết:

HBase là một cơ sở dữ liệu NoSQL phân tán, hướng cột, cung cấp khả năng truy cập đọc/ghi ngẫu nhiên thời gian thực cho dữ liệu cực lớn trên nền tảng HDFS. Kết luận Lý giải Cơ sở dữ liệu NoSQL hướng cột (Column-family store) chạy trên HDFS

Câu 16: Yếu tố 'Velocity' (Tốc độ) trong Big Data thường được biểu hiện rõ nhất qua ứng dụng nào sau đây?

A. Sao lưu dữ liệu hàng tháng vào băng từ
B. Phân tích lịch sử giao dịch của 10 năm trước
C. Xử lý dòng dữ liệu từ cảm biến IoT và phát hiện gian lận thẻ tín dụng tức thì
D. In báo cáo doanh thu cuối năm

💡 Lời giải chi tiết:

Velocity nhấn mạnh tốc độ dữ liệu được tạo ra và yêu cầu phải được xử lý gần như ngay lập tức để phục vụ việc ra quyết định thời gian thực. Kết luận Lý giải Xử lý dòng dữ liệu từ cảm biến IoT và phát hiện gian lận thẻ tín dụng tức thì

Câu 17: Ưu điểm chính của việc lưu trữ dữ liệu theo định dạng cột (Columnar Storage) như Parquet so với định dạng dòng (Row-based) là gì?

A. Tốc độ ghi dữ liệu nhanh hơn rất nhiều
B. Tối ưu hóa hiệu suất truy vấn phân tích và tiết kiệm không gian lưu trữ nhờ nén tốt
C. Dễ dàng đọc bằng các trình soạn thảo văn bản thông thường
D. Không yêu cầu bất kỳ phần mềm nào để mở

💡 Lời giải chi tiết:

Định dạng cột chỉ đọc các cột cần thiết cho truy vấn và có tỷ lệ nén cao hơn vì dữ liệu trong cùng một cột thường có kiểu dữ liệu giống nhau. Kết luận Lý giải Tối ưu hóa hiệu suất truy vấn phân tích và tiết kiệm không gian lưu trữ nhờ nén tốt

Câu 18: Công cụ Apache Flume thường được sử dụng hiệu quả nhất cho mục đích nào?

A. Thiết kế giao diện người dùng
B. Thu thập và di chuyển các luồng dữ liệu log khổng lồ vào HDFS
C. Tính toán bảng lương nhân viên
D. Quản lý mật khẩu người dùng

💡 Lời giải chi tiết:

Apache Flume là một dịch vụ tin cậy và phân tán được thiết kế chuyên biệt để thu thập, tổng hợp và di chuyển một lượng lớn dữ liệu nhật ký (log) vào Hadoop. Kết luận Lý giải Thu thập và di chuyển các luồng dữ liệu log khổng lồ vào HDFS

Câu 19: Trong Apache Spark, thành phần nào chịu trách nhiệm điều phối việc thực thi các tác vụ (tasks) trên các nút công nhân (worker nodes)?

A. Executor
B. Driver Program
C. Cluster Manager
D. Worker Node

💡 Lời giải chi tiết:

Driver Program là tiến trình chạy phương thức 'main' của ứng dụng Spark, tạo SparkContext và phân phối các đơn vị công việc đến các executor. Kết luận Lý giải Driver Program

Câu 20: Thuật ngữ 'Dark Data' trong lĩnh vực Dữ liệu lớn thường dùng để chỉ điều gì?

A. Dữ liệu liên quan đến tội phạm mạng
B. Dữ liệu được thu thập nhưng chưa được phân tích hoặc sử dụng để thu thập thông tin
C. Dữ liệu đã bị xóa vĩnh viễn khỏi hệ thống
D. Dữ liệu được lưu trữ trong các ổ đĩa bị hỏng

💡 Lời giải chi tiết:

Dark Data là khối lượng dữ liệu khổng lồ mà các tổ chức thu thập và lưu trữ trong các hoạt động kinh doanh thông thường nhưng không khai thác được giá trị từ chúng. Kết luận Lý giải Dữ liệu được thu thập nhưng chưa được phân tích hoặc sử dụng để thu thập thông tin

Câu 21: Trong kiến trúc Lambda (Lambda Architecture), lớp nào (layer) chịu trách nhiệm cung cấp các kết quả truy vấn có độ trễ thấp nhất bằng cách xử lý dữ liệu mới nhất?

A. Batch Layer
B. Speed Layer
C. Serving Layer
D. Storage Layer

💡 Lời giải chi tiết:

Kiến trúc Lambda sử dụng Speed Layer để bù đắp cho độ trễ của Batch Layer bằng cách xử lý các dòng dữ liệu thời gian thực và cung cấp cái nhìn tức thời. Kết luận Lý giải Speed Layer

Câu 22: Thành phần 'Zookeeper' trong hệ sinh thái Hadoop đóng vai trò gì?

A. Lưu trữ dữ liệu video
B. Dịch vụ điều phối và quản lý cấu hình tập trung cho các hệ thống phân tán
C. Tăng tốc độ truy cập internet cho cụm Hadoop
D. Thay thế cho hệ điều hành của máy chủ

💡 Lời giải chi tiết:

Apache Zookeeper giúp duy trì thông tin cấu cấu hình, cung cấp dịch vụ đặt tên và đồng bộ hóa phân tán để đảm bảo tính ổn định của cụm. Kết luận Lý giải Dịch vụ điều phối và quản lý cấu hình tập trung cho các hệ thống phân tán

Câu 23: Ví dụ nào sau đây đại diện cho 'Dữ liệu phi cấu trúc' (Unstructured Data)?

A. Bảng lương nhân viên trong file Excel
B. Các bản ghi trong cơ sở dữ liệu SQL
C. Video trên YouTube và các bài đăng trên mạng xã hội
D. Tệp CSV chứa danh sách sản phẩm

💡 Lời giải chi tiết:

Dữ liệu phi cấu trúc là loại dữ liệu không có định dạng xác định trước hoặc không được tổ chức theo mô hình dữ liệu cứng nhắc, tiêu biểu là nội dung đa phương tiện. Kết luận Lý giải Video trên YouTube và các bài đăng trên mạng xã hội

Câu 24: Trong Hadoop 2.x, làm thế nào để khắc phục điểm yếu 'Single Point of Failure' (Lỗi tại một điểm duy nhất) của NameNode?

A. Sử dụng nhiều DataNode hơn
B. Sử dụng tính năng HDFS High Availability với NameNode dự phòng (Standby)
C. Tăng dung lượng RAM cho NameNode
D. Cài đặt phần mềm chống virus

💡 Lời giải chi tiết:

Tính năng High Availability cho phép duy trì một NameNode hoạt động và một NameNode dự phòng để sẵn sàng tiếp quản nếu máy chủ chính gặp sự cố. Kết luận Lý giải Sử dụng tính năng HDFS High Availability với NameNode dự phòng (Standby)

Câu 25: Thuật ngữ 'Data Sharding' trong các hệ thống Big Data có ý nghĩa gì?

A. Mã hóa dữ liệu để bảo mật
B. Kỹ thuật phân chia một tập dữ liệu lớn thành các phần nhỏ hơn để lưu trữ trên nhiều máy chủ
C. Quy trình xóa bỏ các dữ liệu trùng lặp
D. Chuyển đổi dữ liệu từ dạng số sang dạng văn bản

💡 Lời giải chi tiết:

Sharding là phương pháp phân vùng dữ liệu theo chiều ngang, giúp phân tán tải trọng và cải thiện khả năng mở rộng của cơ sở dữ liệu. Kết luận Lý giải Kỹ thuật phân chia một tập dữ liệu lớn thành các phần nhỏ hơn để lưu trữ trên nhiều máy chủ

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 178 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 140 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 157 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 174 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 191 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 208 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc trưng nào đại diện cho độ tin cậy và tính chính xác của dữ liệu?

Câu 2: Thành phần nào trong kiến trúc Hadoop HDFS đóng vai trò quản lý metadata và điều phối truy cập tệp của người dùng?

Câu 3: Tại sao Apache Spark thường được đánh giá là có tốc độ xử lý nhanh hơn MapReduce truyền thống trong các thuật toán lặp?

Câu 4: Trong định lý CAP áp dụng cho các hệ thống phân tán, ba yếu tố nào không thể được tối ưu hóa đồng thời 100%?

Câu 5: Đặc điểm cốt lõi phân biệt cơ sở dữ liệu NoSQL với cơ sở dữ liệu quan hệ (RDBMS) truyền thống là gì?

Câu 6: Trong hệ sinh thái Hadoop, công cụ nào được sử dụng để chuyển đổi dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?

Câu 7: Loại cơ sở dữ liệu NoSQL nào như Neo4j tập trung vào việc lưu trữ các mối quan hệ phức tạp giữa các thực thể?

Câu 8: Khái niệm 'Data Lake' trong kiến trúc Big Data khác với 'Data Warehouse' ở điểm chính nào?

Câu 9: Trong Apache Spark, RDD (Resilient Distributed Dataset) có đặc tính quan trọng nào giúp hệ thống tự phục hồi khi có lỗi nút xảy ra?

Câu 10: Công nghệ nào đóng vai trò là một hệ thống nhắn tin phân tán (Distributed Messaging System) phổ biến để xử lý luồng dữ liệu thời gian thực?

Câu 11: Mục đích chính của thành phần YARN (Yet Another Resource Negotiator) trong Hadoop 2.x là gì?

Câu 12: Đặc điểm 'Variety' trong Dữ liệu lớn đề cập đến điều gì?

Câu 13: Apache Hive cung cấp giao diện nào giúp người dùng dễ dàng thao tác với dữ liệu trên Hadoop?

Câu 14: Trong giai đoạn 'Reduce' của mô hình MapReduce, nhiệm vụ chính của nó là gì?

Câu 15: HBase là loại cơ sở dữ liệu gì trong hệ sinh thái Big Data?

Câu 16: Yếu tố 'Velocity' (Tốc độ) trong Big Data thường được biểu hiện rõ nhất qua ứng dụng nào sau đây?

Câu 17: Ưu điểm chính của việc lưu trữ dữ liệu theo định dạng cột (Columnar Storage) như Parquet so với định dạng dòng (Row-based) là gì?

Câu 18: Công cụ Apache Flume thường được sử dụng hiệu quả nhất cho mục đích nào?

Câu 19: Trong Apache Spark, thành phần nào chịu trách nhiệm điều phối việc thực thi các tác vụ (tasks) trên các nút công nhân (worker nodes)?

Câu 20: Thuật ngữ 'Dark Data' trong lĩnh vực Dữ liệu lớn thường dùng để chỉ điều gì?

Câu 21: Trong kiến trúc Lambda (Lambda Architecture), lớp nào (layer) chịu trách nhiệm cung cấp các kết quả truy vấn có độ trễ thấp nhất bằng cách xử lý dữ liệu mới nhất?

Câu 22: Thành phần 'Zookeeper' trong hệ sinh thái Hadoop đóng vai trò gì?

Câu 23: Ví dụ nào sau đây đại diện cho 'Dữ liệu phi cấu trúc' (Unstructured Data)?

Câu 24: Trong Hadoop 2.x, làm thế nào để khắc phục điểm yếu 'Single Point of Failure' (Lỗi tại một điểm duy nhất) của NameNode?

Câu 25: Thuật ngữ 'Data Sharding' trong các hệ thống Big Data có ý nghĩa gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top