Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Lưu ý: Nội dung trong bài Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Variety' đề cập đến yếu tố nào sau đây?

A. Tốc độ xử lý dữ liệu theo thời gian thực.
B. Sự đa dạng về các loại dữ liệu bao gồm dữ liệu cấu trúc, bán cấu trúc và phi cấu trúc.
C. Độ tin cậy và tính chính xác của dữ liệu.
D. Khối lượng dữ liệu khổng lồ được tạo ra.

💡 Lời giải chi tiết:

Theo phân tích phổ biến, 'Variety' mô tả sự phong phú của các định dạng dữ liệu khác nhau từ nhiều nguồn khác nhau trong hệ sinh thái Big Data. Kết luận Lý giải Sự đa dạng về các loại dữ liệu bao gồm dữ liệu cấu trúc, bán cấu trúc và phi cấu trúc.

Câu 2: Thành phần nào trong kiến trúc Hadoop Distributed File System (HDFS) chịu trách nhiệm lưu trữ dữ liệu thực tế?

A. NameNode
B. JobTracker
C. DataNode
D. ResourceManager

💡 Lời giải chi tiết:

Trong kiến trúc HDFS, trong khi NameNode quản lý metadata thì DataNode là nơi trực tiếp lưu trữ các khối dữ liệu (blocks) trên các ổ đĩa cục bộ. Kết luận Lý giải DataNode.

Câu 3: Tại sao Apache Spark thường được đánh giá là nhanh hơn MapReduce trong việc xử lý dữ liệu lặp đi lặp lại?

A. Spark sử dụng cơ chế xử lý dữ liệu trên bộ nhớ trong (In-memory computing).
B. Spark chỉ hỗ trợ xử lý dữ liệu có cấu trúc.
C. Spark không yêu cầu kết nối mạng giữa các node.
D. Spark sử dụng ngôn ngữ lập trình đơn giản hơn MapReduce.

💡 Lời giải chi tiết:

Apache Spark giảm thiểu việc ghi dữ liệu trung gian xuống đĩa cứng bằng cách giữ dữ liệu trên RAM, giúp tăng tốc độ xử lý vượt trội so với MapReduce. Kết luận Lý giải Spark sử dụng cơ chế xử lý dữ liệu trên bộ nhớ trong (In-memory computing).

Câu 4: Đặc tính 'Velocity' trong Big Data nhấn mạnh vào khía cạnh nào?

A. Dung lượng lưu trữ của hệ thống.
B. Khả năng mở rộng của phần cứng.
C. Tốc độ dữ liệu được tạo ra và cần được xử lý nhanh chóng.
D. Tính kinh tế khi khai thác dữ liệu.

💡 Lời giải chi tiết:

Velocity phản ánh tốc độ luân chuyển và xử lý dòng dữ liệu để đáp ứng nhu cầu phản hồi tức thời trong các ứng dụng hiện đại. Kết luận Lý giải Tốc độ dữ liệu được tạo ra và cần được xử lý nhanh chóng.

Câu 5: Trong lập trình MapReduce, giai đoạn nào thực hiện việc thu thập và nhóm các cặp key-value trung gian có cùng key?

A. Map phase
B. Shuffle and Sort phase
C. Reduce phase
D. Input phase

💡 Lời giải chi tiết:

Giai đoạn Shuffle and Sort đóng vai trò cầu nối để đảm bảo tất cả các giá trị đi kèm với cùng một khóa được gửi đến cùng một bộ giảm (reducer). Kết luận Lý giải Shuffle and Sort phase.

Câu 6: Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây thuộc loại 'Graph Database'?

A. MongoDB
B. Cassandra
C. Neo4j
D. Redis

💡 Lời giải chi tiết:

Neo4j là một hệ quản trị cơ sở dữ liệu đồ thị hàng đầu, chuyên dùng để xử lý các mối quan hệ phức tạp giữa các thực thể dữ liệu. Kết luận Lý giải Neo4j.

Câu 7: Khái niệm 'Data Lake' được hiểu chính xác nhất là gì?

A. Một kho lưu trữ tập trung cho phép lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc ở định dạng thô.
B. Một hệ thống cơ sở dữ liệu quan hệ có hiệu năng cao.
C. Công cụ dùng để làm sạch dữ liệu trước khi lưu trữ.
D. Một mạng lưới các máy chủ dự phòng cho dữ liệu quan trọng.

💡 Lời giải chi tiết:

Khác với Data Warehouse yêu cầu dữ liệu phải được định nghĩa cấu trúc trước, Data Lake giữ lại dữ liệu ở trạng thái nguyên bản cho đến khi cần phân tích. Kết luận Lý giải Một kho lưu trữ tập trung cho phép lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc ở định dạng thô.

Câu 8: Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào?

A. Consistency, Availability, Partition Tolerance
B. Complexity, Accuracy, Performance
C. Capacity, Agility, Privacy
D. Consistency, Agility, Partition Tolerance

💡 Lời giải chi tiết:

Theo định lý CAP, trong một hệ thống dữ liệu phân tán, việc đánh đổi giữa tính nhất quán, tính sẵn sàng và khả năng chịu lỗi phân đoạn là điều bắt buộc. Kết luận Lý giải Consistency, Availability, Partition Tolerance.

Câu 9: Công cụ nào trong hệ sinh thái Hadoop được thiết kế để cung cấp giao diện truy vấn dữ liệu bằng ngôn ngữ tương tự SQL?

A. Apache Flume
B. Apache Hive
C. Apache Pig
D. Apache Zookeeper

💡 Lời giải chi tiết:

Apache Hive cho phép người dùng phân tích dữ liệu lớn trên HDFS bằng ngôn ngữ HiveQL, giúp những người quen thuộc với SQL dễ dàng tiếp cận. Kết luận Lý giải Apache Hive.

Câu 10: Đặc tính 'Veracity' của Big Data liên quan trực tiếp đến vấn đề nào?

A. Độ lớn về không gian lưu trữ.
B. Giá trị kinh tế mang lại cho doanh nghiệp.
C. Sự sai lệch, độ nhiễu và độ tin cậy của dữ liệu.
D. Khả năng tích hợp với các hệ thống cũ.

💡 Lời giải chi tiết:

Veracity tập trung vào chất lượng dữ liệu, đảm bảo rằng thông tin đầu vào đủ tin cậy để đưa ra các quyết định phân tích chính xác. Kết luận Lý giải Sự sai lệch, độ nhiễu và độ tin cậy của dữ liệu.

Câu 11: Apache Kafka thường được sử dụng trong các hệ thống Big Data với vai trò chủ yếu là gì?

A. Lưu trữ dữ liệu dài hạn.
B. Hệ thống quản lý hàng đợi thông điệp và truyền dòng dữ liệu thời gian thực.
C. Thực hiện các thuật toán học máy phức tạp.
D. Quản lý metadata cho HDFS.

💡 Lời giải chi tiết:

Kafka là một nền tảng truyền thông điệp phân tán cho phép xử lý các luồng dữ liệu với thông lượng cao và độ trễ thấp. Kết luận Lý giải Hệ thống quản lý hàng đợi thông điệp và truyền dòng dữ liệu thời gian thực.

Câu 12: Trong hệ sinh thái Hadoop 2.x trở lên, thành phần nào chịu trách nhiệm quản lý tài nguyên và lập lịch cho các ứng dụng?

A. HDFS
B. YARN
C. MapReduce v1
D. HBase

💡 Lời giải chi tiết:

YARN (Yet Another Resource Negotiator) tách biệt việc quản lý tài nguyên khỏi việc xử lý dữ liệu, cho phép nhiều framework chạy đồng thời trên cùng một cluster. Kết luận Lý giải YARN.

Câu 13: Kiểu lưu trữ dữ liệu theo cột (Columnar Storage) như Apache Parquet mang lại lợi ích lớn nhất trong trường hợp nào?

A. Khi cần đọc/ghi toàn bộ một dòng dữ liệu cùng lúc.
B. Khi thực hiện các truy vấn phân tích chỉ tập trung vào một số cột nhất định trên tập dữ liệu lớn.
C. Khi dữ liệu có kích thước rất nhỏ và đơn giản.
D. Khi không cần nén dữ liệu để tiết kiệm dung lượng.

💡 Lời giải chi tiết:

Lưu trữ theo cột cho phép hệ thống chỉ đọc các cột cần thiết từ đĩa cứng, giúp tối ưu hóa hiệu suất I/O và tỷ lệ nén cho các tác vụ phân tích. Kết luận Lý giải Khi thực hiện các truy vấn phân tích chỉ tập trung vào một số cột nhất định trên tập dữ liệu lớn.

Câu 14: Trong Apache Spark, RDD (Resilient Distributed Dataset) có đặc điểm quan trọng nào?

A. Dữ liệu có thể được thay đổi trực tiếp sau khi tạo.
B. Dữ liệu được lưu trữ tập trung tại một node duy nhất.
C. Là tập dữ liệu phân tán có khả năng phục hồi lỗi và không thể thay đổi (immutable).
D. Chỉ hỗ trợ dữ liệu kiểu văn bản thuần túy.

💡 Lời giải chi tiết:

RDD là trừu tượng hóa dữ liệu cốt lõi của Spark, cho phép tính toán song song trên cluster với cơ chế tự phục hồi thông qua lineage. Kết luận Lý giải Là tập dữ liệu phân tán có khả năng phục hồi lỗi và không thể thay đổi (immutable).

Câu 15: Thuật ngữ 'Data Sharding' trong các cơ sở dữ liệu Big Data có nghĩa là gì?

A. Sao lưu dữ liệu sang một trung tâm dữ liệu khác.
B. Phân chia một tập dữ liệu lớn thành các phần nhỏ hơn (shards) để lưu trữ trên nhiều máy chủ.
C. Mã hóa dữ liệu để tăng cường tính bảo mật.
D. Gộp nhiều bảng dữ liệu nhỏ thành một bảng lớn.

💡 Lời giải chi tiết:

Sharding là một kỹ thuật phân mảnh ngang giúp hệ thống có thể mở rộng quy mô bằng cách phân phối tải trọng dữ liệu ra nhiều nút trong mạng. Kết luận Lý giải Phân chia một tập dữ liệu lớn thành các phần nhỏ hơn (shards) để lưu trữ trên nhiều máy chủ.

Câu 16: Yếu tố nào được coi là quan trọng nhất trong 5V để biến Big Data thành kết quả thực tế cho doanh nghiệp?

A. Volume
B. Velocity
C. Value
D. Variety

💡 Lời giải chi tiết:

Mục tiêu cuối cùng của mọi dự án Big Data là trích xuất được giá trị (Value) có ích từ dữ liệu để hỗ trợ kinh doanh và ra quyết định. Kết luận Lý giải Value.

Câu 17: Cơ sở dữ liệu NoSQL nào được thiết kế dựa trên mô hình BigTable của Google và chạy trên nền HDFS?

A. Apache HBase
B. CouchDB
C. Oracle DB
D. Redis

💡 Lời giải chi tiết:

Apache HBase là một cơ sở dữ liệu phân tán, hướng cột, cung cấp khả năng truy cập ngẫu nhiên thời gian thực vào dữ liệu khổng lồ trên Hadoop. Kết luận Lý giải Apache HBase.

Câu 18: Sự khác biệt chính giữa ETL (Extract, Transform, Load) truyền thống và ELT trong Big Data là gì?

A. ELT thực hiện biến đổi dữ liệu ngay sau khi tải vào hệ thống đích (như Data Lake).
B. ETL không hỗ trợ dữ liệu từ các tệp log.
C. ELT yêu cầu nhiều bộ nhớ RAM hơn ETL.
D. ETL chỉ dành cho dữ liệu phi cấu trúc.

💡 Lời giải chi tiết:

Trong mô hình ELT, việc tận dụng sức mạnh xử lý của hệ thống đích để biến đổi dữ liệu giúp tối ưu hóa thời gian nạp dữ liệu thô. Kết luận Lý giải ELT thực hiện biến đổi dữ liệu ngay sau khi tải vào hệ thống đích (như Data Lake).

Câu 19: Apache Zookeeper đóng vai trò gì trong một cluster Big Data?

A. Lưu trữ các tệp tin hình ảnh lớn.
B. Điều phối và quản lý cấu hình tập trung cho các dịch vụ phân tán.
C. Chạy các truy vấn SQL trên HDFS.
D. Nén dữ liệu để giảm dung lượng lưu trữ.

💡 Lời giải chi tiết:

Zookeeper cung cấp các dịch vụ như đồng bộ hóa dữ liệu, quản lý cấu hình và định danh cho các ứng dụng phân tán để đảm bảo tính nhất quán. Kết luận Lý giải Điều phối và quản lý cấu hình tập trung cho các dịch vụ phân tán.

Câu 20: Ước tính phổ biến hiện nay cho thấy dữ liệu phi cấu trúc chiếm khoảng bao nhiêu phần trăm trong tổng lượng dữ liệu của doanh nghiệp?

A. Dưới 10%
B. Khoảng 20%
C. Khoảng 80% trở lên
D. Đúng 50%

💡 Lời giải chi tiết:

Theo nhiều nghiên cứu từ các tổ chức uy tín như IDC, dữ liệu phi cấu trúc (video, email, cảm biến) đang bùng nổ và chiếm đại đa số dữ liệu hiện nay. Kết luận Lý giải Khoảng 80% trở lên.

Câu 21: Ứng dụng nào sau đây của Big Data sử dụng kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) để hiểu cảm xúc khách hàng?

A. Dự báo thời tiết.
B. Phân tích tình cảm (Sentiment Analysis).
C. Phát hiện gian lận thẻ tín dụng.
D. Tối ưu hóa chuỗi cung ứng.

💡 Lời giải chi tiết:

Sentiment Analysis phân tích các văn bản từ mạng xã hội hoặc đánh giá của khách hàng để xác định thái độ tích cực hay tiêu cực đối với thương hiệu. Kết luận Lý giải Phân tích tình cảm (Sentiment Analysis).

Câu 22: Mục tiêu chính của việc sử dụng 'Replication' trong HDFS là gì?

A. Để tăng tốc độ nén dữ liệu.
B. Đảm bảo tính sẵn sàng và khả năng chịu lỗi khi một node bị hỏng.
C. Để xóa các dữ liệu bị trùng lặp.
D. Giảm dung lượng lưu trữ trên DataNode.

💡 Lời giải chi tiết:

HDFS mặc định sao chép mỗi khối dữ liệu sang 3 node khác nhau để đảm bảo dữ liệu không bị mất khi có sự cố phần cứng. Kết luận Lý giải Đảm bảo tính sẵn sàng và khả năng chịu lỗi khi một node bị hỏng.

Câu 23: Đặc điểm nào dưới đây là ưu điểm nổi bật của cơ sở dữ liệu Cassandra?

A. Khả năng ghi dữ liệu cực nhanh và không có điểm lỗi duy nhất (no single point of failure).
B. Hỗ trợ các phép Join phức tạp như SQL.
C. Chỉ chạy tốt nhất trên một máy chủ đơn lẻ.
D. Cấu trúc dữ liệu cố định và nghiêm ngặt.

💡 Lời giải chi tiết:

Apache Cassandra được thiết kế để xử lý lượng lớn dữ liệu trên nhiều máy chủ với kiến trúc phân tán ngang hàng (peer-to-peer). Kết luận Lý giải Khả năng ghi dữ liệu cực nhanh và không có điểm lỗi duy nhất (no single point of failure).

Câu 24: Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề gì?

A. Thay thế hoàn toàn Hadoop bằng Spark.
B. Kết hợp cả xử lý hàng loạt (Batch Processing) và xử lý dòng (Stream Processing).
C. Chỉ tập trung vào việc bảo mật dữ liệu.
D. Giảm chi phí mua sắm thiết bị phần cứng.

💡 Lời giải chi tiết:

Kiến trúc Lambda cung cấp một mô hình cân bằng giữa việc xử lý dữ liệu lịch sử chính xác và cung cấp kết quả thời gian thực với độ trễ thấp. Kết luận Lý giải Kết hợp cả xử lý hàng loạt (Batch Processing) và xử lý dòng (Stream Processing).

Câu 25: Trong ngữ cảnh Big Data, 'Edge Computing' đóng vai trò như thế nào so với điện toán đám mây trung tâm?

A. Thay thế hoàn toàn điện toán đám mây.
B. Xử lý dữ liệu tại nguồn (gần thiết bị đầu cuối) để giảm độ trễ và băng thông mạng.
C. Chỉ dùng để lưu trữ dữ liệu rác.
D. Tăng cường bảo mật bằng cách không cho dữ liệu rời khỏi máy chủ trung tâm.

💡 Lời giải chi tiết:

Điện toán biên giúp xử lý sơ bộ các luồng dữ liệu khổng lồ từ IoT trước khi gửi những thông tin quan trọng về hệ thống trung tâm. Kết luận Lý giải Xử lý dữ liệu tại nguồn (gần thiết bị đầu cuối) để giảm độ trễ và băng thông mạng.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 11 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 110 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 127 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 144 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 161 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 178 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 140 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Variety' đề cập đến yếu tố nào sau đây?

Câu 2: Thành phần nào trong kiến trúc Hadoop Distributed File System (HDFS) chịu trách nhiệm lưu trữ dữ liệu thực tế?

Câu 3: Tại sao Apache Spark thường được đánh giá là nhanh hơn MapReduce trong việc xử lý dữ liệu lặp đi lặp lại?

Câu 4: Đặc tính 'Velocity' trong Big Data nhấn mạnh vào khía cạnh nào?

Câu 5: Trong lập trình MapReduce, giai đoạn nào thực hiện việc thu thập và nhóm các cặp key-value trung gian có cùng key?

Câu 6: Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây thuộc loại 'Graph Database'?

Câu 7: Khái niệm 'Data Lake' được hiểu chính xác nhất là gì?

Câu 8: Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào?

Câu 9: Công cụ nào trong hệ sinh thái Hadoop được thiết kế để cung cấp giao diện truy vấn dữ liệu bằng ngôn ngữ tương tự SQL?

Câu 10: Đặc tính 'Veracity' của Big Data liên quan trực tiếp đến vấn đề nào?

Câu 11: Apache Kafka thường được sử dụng trong các hệ thống Big Data với vai trò chủ yếu là gì?

Câu 12: Trong hệ sinh thái Hadoop 2.x trở lên, thành phần nào chịu trách nhiệm quản lý tài nguyên và lập lịch cho các ứng dụng?

Câu 13: Kiểu lưu trữ dữ liệu theo cột (Columnar Storage) như Apache Parquet mang lại lợi ích lớn nhất trong trường hợp nào?

Câu 14: Trong Apache Spark, RDD (Resilient Distributed Dataset) có đặc điểm quan trọng nào?

Câu 15: Thuật ngữ 'Data Sharding' trong các cơ sở dữ liệu Big Data có nghĩa là gì?

Câu 16: Yếu tố nào được coi là quan trọng nhất trong 5V để biến Big Data thành kết quả thực tế cho doanh nghiệp?

Câu 17: Cơ sở dữ liệu NoSQL nào được thiết kế dựa trên mô hình BigTable của Google và chạy trên nền HDFS?

Câu 18: Sự khác biệt chính giữa ETL (Extract, Transform, Load) truyền thống và ELT trong Big Data là gì?

Câu 19: Apache Zookeeper đóng vai trò gì trong một cluster Big Data?

Câu 20: Ước tính phổ biến hiện nay cho thấy dữ liệu phi cấu trúc chiếm khoảng bao nhiêu phần trăm trong tổng lượng dữ liệu của doanh nghiệp?

Câu 21: Ứng dụng nào sau đây của Big Data sử dụng kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) để hiểu cảm xúc khách hàng?

Câu 22: Mục tiêu chính của việc sử dụng 'Replication' trong HDFS là gì?

Câu 23: Đặc điểm nào dưới đây là ưu điểm nổi bật của cơ sở dữ liệu Cassandra?

Câu 24: Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề gì?

Câu 25: Trong ngữ cảnh Big Data, 'Edge Computing' đóng vai trò như thế nào so với điện toán đám mây trung tâm?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top