Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong mô hình 5V của Big Data, đặc điểm nào mô tả về sự không đồng nhất và đa dạng của các loại dữ liệu?

A. Sự đa dạng (Variety)
B. Tốc độ (Velocity)
C. Giá trị (Value)
D. Khối lượng (Volume)

💡 Lời giải chi tiết:

Theo mô hình 5V phổ biến, Variety đề cập đến việc dữ liệu đến từ nhiều nguồn và định dạng khác nhau như cấu trúc, bán cấu trúc và phi cấu trúc. Kết luận Lý giải: Sự đa dạng (Variety)

Câu 2: Thành phần nào trong kiến trúc Hadoop chịu trách nhiệm quản lý việc lưu trữ dữ liệu phân tán trên các nút?

A. Apache Hive
B. MapReduce
C. HDFS (Hadoop Distributed File System)
D. YARN

💡 Lời giải chi tiết:

HDFS là hệ thống tệp phân tán được thiết kế để chạy trên phần cứng thông thường, cung cấp khả năng lưu trữ dữ liệu quy mô lớn một cách tin cậy. Kết luận Lý giải: HDFS (Hadoop Distributed File System)

Câu 3: Trong hệ sinh thái Hadoop, NameNode đóng vai trò gì trong cụm HDFS?

A. Lưu trữ dữ liệu thực tế của người dùng
B. Thực hiện các tác vụ tính toán Map và Reduce
C. Quản lý siêu dữ liệu (metadata) và điều phối các DataNode
D. Chạy các truy vấn SQL trực tiếp trên tệp

💡 Lời giải chi tiết:

Trong kiến trúc Master-Slave của HDFS, NameNode là máy chủ trung tâm quản lý không gian tên hệ thống tệp và điều chỉnh quyền truy cập của khách hàng. Kết luận Lý giải: Quản lý siêu dữ liệu (metadata) và điều phối các DataNode

Câu 4: Đặc trưng 'Velocity' trong Big Data nhấn mạnh vào khía cạnh nào sau đây?

A. Kích thước lưu trữ của tập dữ liệu
B. Độ tin cậy và chính xác của dữ liệu
C. Tốc độ phát sinh, thu thập và xử lý dữ liệu
D. Khả năng sinh lời từ dữ liệu

💡 Lời giải chi tiết:

Velocity đề cập đến tốc độ mà dữ liệu được tạo ra từ các nguồn như cảm biến hoặc mạng xã hội và yêu cầu được xử lý gần như thời gian thực. Kết luận Lý giải: Tốc độ phát sinh, thu thập và xử lý dữ liệu

Câu 5: Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây được phân loại vào nhóm 'Document Store'?

A. Neo4j
B. MongoDB
C. Redis
D. HBase

💡 Lời giải chi tiết:

MongoDB là một cơ sở dữ liệu NoSQL hướng tài liệu phổ biến, lưu trữ dữ liệu dưới dạng các bản ghi JSON linh hoạt. Kết luận Lý giải: MongoDB

Câu 6: Lợi thế chính của Apache Spark so với MapReduce truyền thống trong xử lý dữ liệu lớn là gì?

A. Chỉ có thể chạy trên một máy đơn lẻ
B. Khả năng xử lý dữ liệu trên bộ nhớ trong (In-memory processing)
C. Sử dụng ngôn ngữ lập trình COBOL
D. Không yêu cầu bất kỳ tài nguyên phần cứng nào

💡 Lời giải chi tiết:

Apache Spark vượt trội hơn MapReduce nhờ khả năng giữ dữ liệu trong RAM để thực hiện các phép toán lặp lại nhanh hơn gấp nhiều lần. Kết luận Lý giải: Khả năng xử lý dữ liệu trên bộ nhớ trong (In-memory processing)

Câu 7: Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào?

A. Cost, Accuracy, Privacy
B. Consistency, Availability, Partition Tolerance
C. Complexity, Agility, Performance
D. Capacity, Adaptability, Portability

💡 Lời giải chi tiết:

Theo Eric Brewer, định lý CAP chỉ ra sự đánh đổi giữa tính nhất quán, tính sẵn sàng và khả năng chịu lỗi chia cắt trong hệ thống lưu trữ dữ liệu phân tán. Kết luận Lý giải: Consistency, Availability, Partition Tolerance

Câu 8: Công cụ nào trong hệ sinh thái Hadoop được thiết kế để chuyển giao dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?

A. Apache Sqoop
B. Apache Flume
C. Apache Oozie
D. Apache Pig

💡 Lời giải chi tiết:

Apache Sqoop là công cụ dòng lệnh chuyên dụng để nhập dữ liệu từ RDBMS vào HDFS và ngược lại một cách hiệu quả. Kết luận Lý giải: Apache Sqoop

Câu 9: Khái niệm 'Data Lake' khác với 'Data Warehouse' ở điểm cốt lõi nào?

A. Data Lake chỉ lưu trữ dữ liệu đã qua xử lý hoàn toàn
B. Data Lake lưu trữ dữ liệu ở định dạng thô và chưa có cấu trúc xác định
C. Data Lake không có khả năng mở rộng
D. Data Lake chỉ dành cho dữ liệu bảng tính

💡 Lời giải chi tiết:

Trong khi Data Warehouse yêu cầu dữ liệu phải được cấu trúc hóa trước khi lưu trữ (Schema-on-write), Data Lake chấp nhận mọi loại dữ liệu thô (Schema-on-read). Kết luận Lý giải: Data Lake lưu trữ dữ liệu ở định dạng thô và chưa có cấu trúc xác định

Câu 10: Trong mô hình 5V, 'Veracity' đề cập đến vấn đề nào của dữ liệu?

A. Độ lớn của dữ liệu tính bằng Terabyte
B. Tính chính xác, độ tin cậy và chất lượng của dữ liệu
C. Khả năng chuyển đổi dữ liệu thành tiền mặt
D. Thời gian để truyền tải dữ liệu qua mạng

💡 Lời giải chi tiết:

Veracity liên quan đến sự không chắc chắn của dữ liệu do nhiễu, sai lệch hoặc sự thiếu hụt thông tin, đòi hỏi quy trình làm sạch dữ liệu. Kết luận Lý giải: Tính chính xác, độ tin cậy và chất lượng của dữ liệu

Câu 11: Thành phần YARN trong Hadoop 2.x đóng vai trò chủ chốt là gì?

A. Chỉ dùng để nén dữ liệu
B. Hệ thống quản lý tài nguyên và lập lịch tác vụ
C. Công cụ trực quan hóa dữ liệu
D. Trình duyệt web cho HDFS

💡 Lời giải chi tiết:

YARN (Yet Another Resource Negotiator) tách biệt khả năng quản lý tài nguyên và lập lịch/giám sát công việc để cải thiện hiệu suất cụm Hadoop. Kết luận Lý giải: Hệ hệ thống quản lý tài nguyên và lập lịch tác vụ

Câu 12: Loại dữ liệu nào sau đây được coi là dữ liệu 'phi cấu trúc' (Unstructured Data)?

A. Các bảng trong cơ sở dữ liệu SQL
B. Video, hình ảnh và tập tin âm thanh
C. Các tệp CSV có tiêu đề cột rõ ràng
D. Bản ghi giao dịch ngân hàng theo định dạng cố định

💡 Lời giải chi tiết:

Dữ liệu phi cấu trúc là dữ liệu không có mô hình dữ liệu xác định trước hoặc không được tổ chức theo một cách thức cụ thể, điển hình là đa phương tiện. Kết luận Lý giải: Video, hình ảnh và tập tin âm thanh

Câu 13: Apache Hive cung cấp cơ chế nào để người dùng tương tác với dữ liệu trong Hadoop?

A. Viết mã Java MapReduce thuần túy
B. Sử dụng ngôn ngữ truy vấn giống SQL (HiveQL)
C. Sử dụng kéo và thả các icon đồ họa
D. Chỉ có thể tương tác qua dòng lệnh Assembly

💡 Lời giải chi tiết:

Hive cho phép những người đã quen thuộc với SQL có thể truy vấn dữ liệu lớn trên Hadoop mà không cần biết lập trình MapReduce phức tạp. Kết luận Lý giải: Sử dụng ngôn ngữ truy vấn giống SQL (HiveQL)

Câu 14: Thư viện nào của Apache Spark chuyên dùng cho các thuật toán học máy (Machine Learning)?

A. Spark Streaming
B. Spark SQL
C. MLlib
D. GraphX

💡 Lời giải chi tiết:

MLlib là thư viện học máy của Spark cung cấp các thuật toán phổ biến như phân loại, hồi quy, cụm và lọc cộng tác. Kết luận Lý giải: MLlib

Câu 15: Giai đoạn 'Shuffle' trong mô hình MapReduce có chức năng chính là gì?

A. Xóa bỏ tất cả dữ liệu trung gian để tiết kiệm bộ nhớ
B. Nhóm và chuyển các cặp key-value từ các nút Mapper đến các nút Reducer tương ứng
C. Nén dữ liệu đầu vào trước khi bắt đầu Map
D. Hiển thị kết quả cuối cùng lên màn hình người dùng

💡 Lời giải chi tiết:

Shuffle là quá trình quan trọng giữa Map và Reduce nhằm đảm bảo tất cả các giá trị có cùng một khóa sẽ được gửi tới cùng một Reducer. Kết luận Lý giải: Nhóm và chuyển các cặp key-value từ các nút Mapper đến các nút Reducer tương ứng

Câu 16: Định dạng lưu trữ cột (Columnar Storage) như Apache Parquet mang lại lợi ích gì cho các truy vấn phân tích Big Data?

A. Làm chậm quá trình đọc dữ liệu
B. Tối ưu hóa việc đọc chỉ những cột cần thiết và nén dữ liệu tốt hơn
C. Tăng kích thước tệp lưu trữ lên gấp đôi
D. Không tương thích với Apache Spark

💡 Lời giải chi tiết:

Lưu trữ theo cột cho phép hệ thống bỏ qua dữ liệu không liên quan trong các truy vấn phân tích, giúp tăng tốc độ xử lý và giảm băng thông I/O. Kết luận Lý giải: Tối ưu hóa việc đọc chỉ những cột cần thiết và nén dữ liệu tốt hơn

Câu 17: Apache Kafka thường được sử dụng trong kiến trúc Big Data với vai trò gì?

A. Lưu trữ dữ liệu lịch sử lâu dài hàng chục năm
B. Hệ thống phân phối thông điệp (Message Broker) và xử lý luồng dữ liệu thời gian thực
C. Trình biên dịch mã nguồn Java
D. Thay thế hoàn toàn cho HDFS trong mọi trường hợp

💡 Lời giải chi tiết:

Kafka là nền tảng streaming phân tán cho phép xây dựng các pipeline dữ liệu thời gian thực có khả năng chịu lỗi và mở rộng cao. Kết luận Lý giải: Hệ thống phân phối thông điệp (Message Broker) và xử lý luồng dữ liệu thời gian thực

Câu 18: Khái niệm 'Sharding' trong các cơ sở dữ liệu Big Data có nghĩa là gì?

A. Sao lưu dữ liệu sang một đĩa cứng khác cùng máy
B. Chia nhỏ một tập dữ liệu lớn thành các phần nhỏ hơn để phân phối trên nhiều máy chủ
C. Xóa bỏ các dữ liệu trùng lặp trong hệ thống
D. Mã hóa dữ liệu để tăng tính bảo mật

💡 Lời giải chi tiết:

Sharding là phương pháp phân mảnh ngang dữ liệu để cho phép cơ sở dữ liệu mở rộng quy mô trên nhiều nút phần cứng khác nhau. Kết luận Lý giải: Chia nhỏ một tập dữ liệu lớn thành các phần nhỏ hơn để phân phối trên nhiều máy chủ

Câu 19: Kiến trúc Lambda trong Big Data được thiết kế để giải quyết vấn đề gì?

A. Chỉ xử lý dữ liệu lô (batch processing)
B. Cân bằng giữa xử lý lô để đảm bảo độ chính xác và xử lý luồng để đảm bảo tốc độ
C. Giảm chi phí tiền điện của trung tâm dữ liệu
D. Thay thế toàn bộ các kỹ sư dữ liệu bằng AI

💡 Lời giải chi tiết:

Kiến trúc Lambda kết hợp Batch Layer và Speed Layer để cung cấp cái nhìn toàn diện, vừa nhanh chóng vừa chính xác về dữ liệu lớn. Kết luận Lý giải: Cân bằng giữa xử lý lô để đảm bảo độ chính xác và xử lý luồng để đảm bảo tốc độ

Câu 20: Trong hệ sinh thái Big Data, công cụ Apache Zookeeper thường được dùng để làm gì?

A. Lưu trữ dữ liệu video dung lượng lớn
B. Điều phối và quản lý cấu hình cho các dịch vụ phân tán
C. Thiết kế giao diện người dùng cho ứng dụng web
D. Tính toán các hàm toán học phức tạp

💡 Lời giải chi tiết:

Zookeeper cung cấp dịch vụ tập trung để duy trì thông tin cấu cấu hình, đặt tên và cung cấp sự đồng bộ hóa phân tán. Kết luận Lý giải: Điều phối và quản lý cấu hình cho các dịch vụ phân tán

Câu 21: Loại cơ sở dữ liệu NoSQL nào là phù hợp nhất để lưu trữ và phân tích các mối quan hệ phức tạp như mạng xã hội?

A. Key-value stores
B. Graph databases (Cơ sở dữ liệu đồ thị)
C. Column-family stores
D. Relational databases

💡 Lời giải chi tiết:

Cơ sở dữ liệu đồ thị (như Neo4j) sử dụng các nút và cạnh để biểu diễn dữ liệu, giúp truy vấn các mối quan hệ đa tầng nhanh hơn các loại khác. Kết luận Lý giải: Graph databases (Cơ sở dữ liệu đồ thị)

Câu 22: Hệ thống quản trị cơ sở dữ liệu Apache Cassandra nổi tiếng với đặc điểm nào?

A. Không có khả năng mở rộng
B. Khả năng mở rộng tuyến tính và tính sẵn sàng cao không có điểm lỗi đơn nhất (no single point of failure)
C. Chỉ chạy được trên hệ điều hành Windows XP
D. Yêu cầu cấu hình phần cứng cực kỳ đắt đỏ

💡 Lời giải chi tiết:

Cassandra được thiết kế để xử lý lượng dữ liệu khổng lồ trên nhiều máy chủ với kiến trúc phi tập trung, đảm bảo hệ thống luôn hoạt động ngay cả khi một nút bị lỗi. Kết luận Lý giải: Khả năng mở rộng tuyến tính và tính sẵn sàng cao không có điểm lỗi đơn nhất (no single point of failure)

Câu 23: Trong quá trình ETL cho Big Data, chữ 'T' (Transform) đại diện cho công việc nào?

A. Truyền tải dữ liệu qua cáp quang
B. Chuyển đổi, làm sạch và định dạng lại dữ liệu để phù hợp với mục tiêu lưu trữ
C. Tạm dừng quá trình xử lý để kiểm tra lỗi
D. Tính toán chi phí lưu trữ hàng tháng

💡 Lời giải chi tiết:

Giai đoạn Transform bao gồm các quy tắc nghiệp vụ để biến đổi dữ liệu thô từ nguồn thành dữ liệu có cấu trúc và ý nghĩa cho phân tích. Kết luận Lý giải: Chuyển đổi, làm sạch và định dạng lại dữ liệu để phù hợp với mục tiêu lưu trữ

Câu 24: Một 'Data Scientist' làm việc với Big Data thường sử dụng kỹ thuật nào để dự báo xu hướng tương lai?

A. Nhập liệu thủ công vào Excel
B. Phân tích dự báo (Predictive Analytics) dựa trên mô hình học máy
C. Chỉ đọc các báo cáo tin tức trên báo chí
D. Vẽ biểu đồ bằng tay trên bảng trắng

💡 Lời giải chi tiết:

Phân tích dự báo sử dụng các dữ liệu lịch sử và thuật toán thống kê để xác định khả năng xảy ra của các kết quả trong tương lai. Kết luận Lý giải: Phân tích dự báo (Predictive Analytics) dựa trên mô hình học máy

Câu 25: Tại sao 'In-memory computing' lại trở nên quan trọng trong kỷ nguyên Big Data?

A. Vì nó làm cho máy tính tiêu thụ ít điện năng hơn
B. Vì tốc độ truy cập dữ liệu trên RAM nhanh hơn hàng nghìn lần so với ổ đĩa cứng truyền thống
C. Vì nó giúp lưu trữ dữ liệu vĩnh viễn không cần nguồn điện
D. Vì nó rẻ hơn nhiều so với việc mua ổ đĩa cứng

💡 Lời giải chi tiết:

Tính toán trên bộ nhớ trong giúp loại bỏ độ trễ của I/O đĩa, cho phép xử lý các tập dữ liệu lớn gần như tức thì cho các ứng dụng thời gian thực. Kết luận Lý giải: Vì tốc độ truy cập dữ liệu trên RAM nhanh hơn hàng nghìn lần so với ổ đĩa cứng truyền thống

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 1 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 140 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 157 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 174 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 191 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 208 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 225 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong mô hình 5V của Big Data, đặc điểm nào mô tả về sự không đồng nhất và đa dạng của các loại dữ liệu?

Câu 2: Thành phần nào trong kiến trúc Hadoop chịu trách nhiệm quản lý việc lưu trữ dữ liệu phân tán trên các nút?

Câu 3: Trong hệ sinh thái Hadoop, NameNode đóng vai trò gì trong cụm HDFS?

Câu 4: Đặc trưng 'Velocity' trong Big Data nhấn mạnh vào khía cạnh nào sau đây?

Câu 5: Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây được phân loại vào nhóm 'Document Store'?

Câu 6: Lợi thế chính của Apache Spark so với MapReduce truyền thống trong xử lý dữ liệu lớn là gì?

Câu 7: Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào?

Câu 8: Công cụ nào trong hệ sinh thái Hadoop được thiết kế để chuyển giao dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS)?

Câu 9: Khái niệm 'Data Lake' khác với 'Data Warehouse' ở điểm cốt lõi nào?

Câu 10: Trong mô hình 5V, 'Veracity' đề cập đến vấn đề nào của dữ liệu?

Câu 11: Thành phần YARN trong Hadoop 2.x đóng vai trò chủ chốt là gì?

Câu 12: Loại dữ liệu nào sau đây được coi là dữ liệu 'phi cấu trúc' (Unstructured Data)?

Câu 13: Apache Hive cung cấp cơ chế nào để người dùng tương tác với dữ liệu trong Hadoop?

Câu 14: Thư viện nào của Apache Spark chuyên dùng cho các thuật toán học máy (Machine Learning)?

Câu 15: Giai đoạn 'Shuffle' trong mô hình MapReduce có chức năng chính là gì?

Câu 16: Định dạng lưu trữ cột (Columnar Storage) như Apache Parquet mang lại lợi ích gì cho các truy vấn phân tích Big Data?

Câu 17: Apache Kafka thường được sử dụng trong kiến trúc Big Data với vai trò gì?

Câu 18: Khái niệm 'Sharding' trong các cơ sở dữ liệu Big Data có nghĩa là gì?

Câu 19: Kiến trúc Lambda trong Big Data được thiết kế để giải quyết vấn đề gì?

Câu 20: Trong hệ sinh thái Big Data, công cụ Apache Zookeeper thường được dùng để làm gì?

Câu 21: Loại cơ sở dữ liệu NoSQL nào là phù hợp nhất để lưu trữ và phân tích các mối quan hệ phức tạp như mạng xã hội?

Câu 22: Hệ thống quản trị cơ sở dữ liệu Apache Cassandra nổi tiếng với đặc điểm nào?

Câu 23: Trong quá trình ETL cho Big Data, chữ 'T' (Transform) đại diện cho công việc nào?

Câu 24: Một 'Data Scientist' làm việc với Big Data thường sử dụng kỹ thuật nào để dự báo xu hướng tương lai?

Câu 25: Tại sao 'In-memory computing' lại trở nên quan trọng trong kỷ nguyên Big Data?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top