Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong mô hình 5V của Dữ liệu lớn, đặc trưng nào đề cập đến sự tin cậy và độ chính xác của dữ liệu?

A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Variety (Đa dạng)
D. Veracity (Xác thực)

💡 Lời giải chi tiết:

Theo định nghĩa phổ biến về Big Data, Veracity tập trung vào việc xử lý các dữ liệu không chắc chắn và đảm bảo tính tin cậy của nguồn tin. Kết luận Lý giải: Veracity (Xác thực)

Câu 2: Thành phần nào trong kiến trúc Hadoop chịu trách nhiệm quản lý siêu dữ liệu (metadata) và sơ đồ cây thư mục của HDFS?

A. DataNode
B. NameNode
C. ResourceManager
D. NodeManager

💡 Lời giải chi tiết:

Trong HDFS, NameNode đóng vai trò là nút chủ quản lý cấu trúc tệp tin và lưu trữ thông tin về vị trí các khối dữ liệu trên DataNode. Kết luận Lý giải: NameNode

Câu 3: Ưu điểm nổi bật nhất của Apache Spark so với MapReduce truyền thống trong việc xử lý dữ liệu là gì?

A. Khả năng xử lý dữ liệu trên đĩa cứng nhanh hơn
B. Sử dụng ngôn ngữ lập trình Java duy nhất
C. Xử lý dữ liệu trong bộ nhớ (In-memory computing)
D. Không cần sử dụng hệ thống quản lý tài nguyên

💡 Lời giải chi tiết:

Apache Spark vượt trội nhờ khả năng giữ lại dữ liệu trong RAM giữa các bước tính toán, giúp tốc độ xử lý nhanh hơn hàng chục lần so với MapReduce đọc/ghi liên tục vào đĩa. Kết luận Lý giải: Xử lý dữ liệu trong bộ nhớ (In-memory computing)

Câu 4: Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào sau đây?

A. Tính nhất quán, Tính sẵn sàng, Khả năng chịu lỗi phân vùng
B. Tính bảo mật, Tính chính xác, Tính kịp thời
C. Tính đa dạng, Tốc độ, Khối lượng
D. Tính mở rộng, Tính bền vững, Tính kinh tế

💡 Lời giải chi tiết:

Định lý CAP (Consistency, Availability, Partition Tolerance) là nguyên tắc cơ bản trong thiết kế các hệ thống lưu trữ phân tán hiện đại. Kết luận Lý giải: Tính nhất quán, Tính sẵn sàng, Khả năng chịu lỗi phân vùng

Câu 5: Trong hệ sinh thái Hadoop, công cụ nào được thiết kế để chuyển đổi dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS)?

A. Apache Flume
B. Apache Pig
C. Apache Sqoop
D. Apache Oozie

💡 Lời giải chi tiết:

Apache Sqoop (viết tắt của SQL-to-Hadoop) là công cụ dòng lệnh dùng để nhập và xuất dữ liệu hiệu quả giữa RDBMS như MySQL, Oracle với HDFS hoặc Hive. Kết luận Lý giải: Apache Sqoop

Câu 6: Đặc điểm chính của cơ sở dữ liệu NoSQL dạng 'Document-oriented' là gì?

A. Lưu trữ dữ liệu dưới dạng bảng nghiêm ngặt
B. Lưu trữ dữ liệu dưới định dạng linh hoạt như JSON hoặc BSON
C. Chỉ sử dụng để lưu trữ các tập tin văn bản thô (txt)
D. Yêu cầu phải khai báo Schema trước khi chèn dữ liệu

💡 Lời giải chi tiết:

Cơ sở dữ liệu hướng tài liệu như MongoDB lưu trữ dữ liệu trong các cấu trúc linh hoạt, cho phép các bản ghi có các trường thông tin khác nhau. Kết luận Lý giải: Lưu trữ dữ liệu dưới định dạng linh hoạt như JSON hoặc BSON

Câu 7: Khái niệm 'Data Lake' (Hồ dữ liệu) khác biệt với 'Data Warehouse' (Kho dữ liệu) ở điểm cốt lõi nào?

A. Data Lake chỉ lưu trữ dữ liệu đã qua xử lý và làm sạch
B. Data Warehouse lưu trữ dữ liệu ở định dạng thô, chưa cấu trúc
C. Data Lake lưu trữ dữ liệu thô ở mọi định dạng cho đến khi cần sử dụng
D. Data Warehouse có khả năng mở rộng quy mô lớn hơn Data Lake

💡 Lời giải chi tiết:

Theo kiến trúc dữ liệu hiện đại, Data Lake giữ nguyên định dạng ban đầu của dữ liệu, trong khi Data Warehouse yêu cầu dữ liệu phải được cấu trúc hóa trước khi lưu trữ. Kết luận Lý giải: Data Lake lưu trữ dữ liệu thô ở mọi định dạng cho đến khi cần sử dụng

Câu 8: Apache Kafka thường được sử dụng trong hệ thống Big Data với vai trò chủ yếu là gì?

A. Lưu trữ dữ liệu tĩnh dài hạn thay thế cho HDFS
B. Hệ thống trung chuyển dòng dữ liệu (Message Broker) thời gian thực
C. Công cụ trực quan hóa dữ liệu trên trình duyệt
D. Hệ quản trị cơ sở dữ liệu quan hệ cho các giao dịch tài chính

💡 Lời giải chi tiết:

Apache Kafka là một nền tảng phân tán cho phép xuất bản và đăng ký các luồng bản ghi, đóng vai trò kết nối giữa nguồn dữ liệu và các ứng dụng xử lý. Kết luận Lý giải: Hệ thống trung chuyển dòng dữ liệu (Message Broker) thời gian thực

Câu 9: Kỹ thuật 'Sharding' trong các hệ thống Big Data dùng để giải quyết vấn đề gì?

A. Mã hóa dữ liệu để tăng tính bảo mật
B. Nén dữ liệu để tiết kiệm không gian lưu trữ
C. Phân chia dữ liệu theo chiều ngang để lưu trữ trên nhiều máy chủ
D. Sửa lỗi các bản ghi dữ liệu bị hỏng

💡 Lời giải chi tiết:

Sharding là phương pháp chia nhỏ tập dữ liệu lớn thành các phần nhỏ hơn để phân tán tải trọng lưu trữ và truy vấn trên cụm máy chủ. Kết luận Lý giải: Phân chia dữ liệu theo chiều ngang để lưu trữ trên nhiều máy chủ

Câu 10: Trong mô hình MapReduce, giai đoạn 'Shuffle and Sort' có mục tiêu chính là gì?

A. Xóa bỏ các dữ liệu trùng lặp ngay sau khi đọc file
B. Gom các giá trị có cùng một khóa (key) lại với nhau trước khi đưa vào hàm Reduce
C. Chuyển đổi dữ liệu thô thành các cặp khóa-giá trị ban đầu
D. Ghi kết quả cuối cùng từ bộ nhớ vào đĩa cứng HDFS

💡 Lời giải chi tiết:

Giai đoạn này đảm bảo rằng tất cả các giá trị liên quan đến cùng một khóa được tập hợp lại tại một nút xử lý Reduce duy nhất để tính toán chính xác. Kết luận Lý giải: Gom các giá trị có cùng một khóa (key) lại với nhau trước khi đưa vào hàm Reduce

Câu 11: Cấu trúc dữ liệu cốt lõi của Apache Spark, cho phép xử lý song song và có khả năng phục hồi lỗi, được gọi là gì?

A. DataFrame
B. DataSet
C. Resilient Distributed Dataset (RDD)
D. GraphX

💡 Lời giải chi tiết:

RDD là thành phần cơ bản nhất của Spark, đại diện cho một tập hợp các đối tượng chỉ đọc được phân tán trên các nút trong cụm máy tính. Kết luận Lý giải: Resilient Distributed Dataset (RDD)

Câu 12: Đặc trưng 'Variety' của Big Data phản ánh thách thức nào sau đây?

A. Sự gia tăng nhanh chóng về dung lượng ổ cứng
B. Sự kết hợp giữa dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc
C. Tốc độ xử lý yêu cầu phải đạt mức mili giây
D. Yêu cầu về độ chính xác tuyệt đối của các phép toán

💡 Lời giải chi tiết:

Variety nhấn mạnh vào sự đa dạng của các loại dữ liệu từ văn bản, hình ảnh, video đến các tệp log và dữ liệu cảm biến. Kết luận Lý giải: Sự kết hợp giữa dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc

Câu 13: Tại sao HDFS lại mặc định sao chép mỗi khối dữ liệu (block) thành 3 bản trên các nút khác nhau?

A. Để tăng tốc độ nén dữ liệu
B. Để giảm thiểu dung lượng lưu trữ trên mỗi máy
C. Để đảm bảo tính sẵn sàng và khả năng chịu lỗi khi một nút bị hỏng
D. Để đồng bộ hóa dữ liệu với các hệ thống Cloud bên ngoài

💡 Lời giải chi tiết:

Cơ chế Replication của HDFS giúp hệ thống vẫn hoạt động và không mất dữ liệu ngay cả khi một hoặc nhiều nút phần cứng gặp sự cố. Kết luận Lý giải: Để đảm bảo tính sẵn sàng và khả năng chịu lỗi khi một nút bị hỏng

Câu 14: Công cụ nào trong hệ sinh thái Hadoop cung cấp giao diện truy vấn giống SQL để phân tích dữ liệu trên HDFS?

A. Apache Hive
B. Apache Spark Streaming
C. Apache Mahout
D. Apache Ambari

💡 Lời giải chi tiết:

Apache Hive cho phép người dùng viết các câu lệnh HiveQL (tương tự SQL) để truy vấn dữ liệu lớn mà không cần viết mã MapReduce phức tạp. Kết luận Lý giải: Apache Hive

Câu 15: Trong phân tích Big Data, 'Edge Computing' mang lại lợi ích gì so với việc gửi toàn bộ dữ liệu về Cloud?

A. Tăng dung lượng lưu trữ tổng thể của hệ thống
B. Giảm độ trễ và tiết kiệm băng thông mạng
C. Loại bỏ hoàn toàn nhu cầu sử dụng bảo mật
D. Đơn giản hóa việc quản trị cơ sở dữ liệu trung tâm

💡 Lời giải chi tiết:

Bằng cách xử lý dữ liệu gần nguồn phát sinh (như cảm biến IoT), Edge Computing giúp phản hồi nhanh hơn và giảm tải cho đường truyền mạng. Kết luận Lý giải: Giảm độ trễ và tiết kiệm băng thông mạng

Câu 16: Thuật ngữ 'Batch Processing' (Xử lý theo lô) thường được dùng để chỉ loại hình xử lý dữ liệu nào?

A. Xử lý dữ liệu ngay lập tức khi nó vừa được tạo ra
B. Xử lý một lượng lớn dữ liệu tích lũy trong một khoảng thời gian nhất định
C. Xử lý dữ liệu chỉ dựa trên các thiết bị di động
D. Xử lý dữ liệu mà không cần đến sự hỗ trợ của phần mềm

💡 Lời giải chi tiết:

Xử lý theo lô phù hợp với các tác vụ không đòi hỏi thời gian thực, nơi dữ liệu được gom lại và chạy định kỳ (ví dụ: cuối ngày). Kết luận Lý giải: Xử lý một lượng lớn dữ liệu tích lũy trong một khoảng thời gian nhất định

Câu 17: Hệ thống NoSQL nào sau đây thuộc loại 'Graph Database', chuyên dùng để xử lý các mối quan hệ phức tạp?

A. Redis
B. Cassandra
C. Neo4j
D. HBase

💡 Lời giải chi tiết:

Neo4j sử dụng các nút và cạnh để mô hình hóa và truy vấn các mối quan hệ mạng lưới phức tạp hiệu quả hơn các cơ sở dữ liệu truyền thống. Kết luận Lý giải: Neo4j

Câu 18: Vai trò của Apache Zookeeper trong một cụm Big Data là gì?

A. Lưu trữ các tập tin video dung lượng lớn
B. Điều phối và quản lý cấu hình cho các dịch vụ phân tán
C. Viết thuật toán Machine Learning cho dữ liệu lớn
D. Làm sạch các dữ liệu văn bản bị lỗi font

💡 Lời giải chi tiết:

Zookeeper là dịch vụ điều phối tập trung giúp quản lý thông tin cấu hình, đặt tên và cung cấp tính năng đồng bộ hóa cho các hệ thống phân tán. Kết luận Lý giải: Điều phối và quản lý cấu hình cho các dịch vụ phân tán

Câu 19: Trong ngữ cảnh Big Data, 'Data Governance' (Quản trị dữ liệu) tập trung vào vấn đề gì?

A. Việc mua sắm thêm nhiều máy chủ vật lý
B. Xây dựng các thuật toán nén dữ liệu mới
C. Đảm bảo tính khả dụng, tính toàn vẹn và bảo mật của dữ liệu
D. Tăng tốc độ xung nhịp của bộ vi xử lý

💡 Lời giải chi tiết:

Quản trị dữ liệu là tập hợp các quy trình và tiêu chuẩn để kiểm soát cách thức dữ liệu được thu thập, lưu trữ và sử dụng một cách hợp lệ. Kết luận Lý giải: Đảm bảo tính khả dụng, tính toàn vẹn và bảo mật của dữ liệu

Câu 20: Hệ thống Apache Flink nổi tiếng với khả năng xử lý loại dữ liệu nào với độ trễ cực thấp?

A. Dữ liệu dạng bảng tĩnh trong Excel
B. Dòng dữ liệu (Stream Data) thời gian thực
C. Dữ liệu được lưu trữ trên băng từ cổ điển
D. Dữ liệu chỉ bao gồm các tệp tin hình ảnh

💡 Lời giải chi tiết:

Apache Flink là một khung xử lý dòng dữ liệu mạnh mẽ, hỗ trợ các tính toán trên dữ liệu liên tục với độ chính xác cao và thời gian thực. Kết luận Lý giải: Dòng dữ liệu (Stream Data) thời gian thực

Câu 21: Mục tiêu chính của việc sử dụng YARN (Yet Another Resource Negotiator) trong Hadoop 2.x là gì?

A. Thay thế hoàn toàn hệ thống tệp tin HDFS
B. Tách biệt việc quản lý tài nguyên và lập lịch công việc khỏi khung MapReduce
C. Tự động dịch mã Python sang mã Java cho Hadoop
D. Cung cấp giao diện đồ họa để người dùng xem phim

💡 Lời giải chi tiết:

YARN cho phép nhiều công cụ xử lý khác nhau (như Spark, Giraph) cùng chạy trên một cụm Hadoop bằng cách quản lý tài nguyên tập trung. Kết luận Lý giải: Tách biệt việc quản lý tài nguyên và lập lịch công việc khỏi khung MapReduce

Câu 22: Trong kiến trúc Lambda, tầng 'Speed Layer' (Tầng tốc độ) có nhiệm vụ gì?

A. Xử lý lại toàn bộ dữ liệu lịch sử để đảm bảo tính chính xác
B. Cung cấp kết quả xử lý dữ liệu mới nhất với độ trễ thấp
C. Lưu trữ dữ liệu vào các kho lưu trữ lạnh (Cold Storage)
D. Kiểm tra lỗi phần cứng của các máy chủ trong cụm

💡 Lời giải chi tiết:

Kiến trúc Lambda sử dụng Speed Layer để bổ sung các kết quả tức thời mà Batch Layer (với thời gian xử lý lâu hơn) chưa kịp cập nhật. Kết luận Lý giải: Cung cấp kết quả xử lý dữ liệu mới nhất với độ trễ thấp

Câu 23: Sự khác biệt chính giữa Structured Data và Unstructured Data là gì?

A. Dữ liệu có cấu trúc chiếm nhiều dung lượng hơn
B. Dữ liệu không cấu trúc dễ dàng truy vấn bằng SQL hơn
C. Dữ liệu có cấu trúc tuân theo một mô hình dữ liệu (Schema) xác định
D. Dữ liệu không cấu trúc chỉ tồn tại trong các cảm biến nhiệt độ

💡 Lời giải chi tiết:

Dữ liệu có cấu trúc được tổ chức chặt chẽ (như trong bảng SQL), trong khi dữ liệu không cấu trúc (như email, video) không có định dạng cố định. Kết luận Lý giải: Dữ liệu có cấu trúc tuân theo một mô hình dữ liệu (Schema) xác định

Câu 24: Ứng dụng phổ biến nhất của phân tích cảm xúc (Sentiment Analysis) trên Big Data là gì?

A. Tính toán chi phí vận hành máy chủ
B. Dự báo thời tiết dựa trên độ ẩm
C. Xác định thái độ của khách hàng qua các bài đăng trên mạng xã hội
D. Tối ưu hóa mã nguồn của ứng dụng di động

💡 Lời giải chi tiết:

Phân tích cảm xúc sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên để hiểu cảm xúc (tích cực, tiêu cực, trung lập) từ các tập dữ liệu văn bản khổng lồ. Kết luận Lý giải: Xác định thái độ của khách hàng qua các bài đăng trên mạng xã hội

Câu 25: Trong hệ thống Big Data, 'Veracity' thường đối mặt với thách thức nào nhất?

A. Dữ liệu bị thiếu, nhiễu hoặc không nhất quán
B. Tốc độ internet của người dùng quá chậm
C. Kích thước tệp tin vượt quá 1 Terabyte
D. Sự lỗi thời của các ngôn ngữ lập trình cũ

💡 Lời giải chi tiết:

Veracity đề cập đến chất lượng dữ liệu; do đó, các yếu tố gây sai lệch như dữ liệu ảo hoặc dữ liệu nhiễu là thách thức chính. Kết luận Lý giải: Dữ liệu bị thiếu, nhiễu hoặc không nhất quán

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 208 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 225 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 242 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 259 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 276 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 293 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong mô hình 5V của Dữ liệu lớn, đặc trưng nào đề cập đến sự tin cậy và độ chính xác của dữ liệu?

Câu 2: Thành phần nào trong kiến trúc Hadoop chịu trách nhiệm quản lý siêu dữ liệu (metadata) và sơ đồ cây thư mục của HDFS?

Câu 3: Ưu điểm nổi bật nhất của Apache Spark so với MapReduce truyền thống trong việc xử lý dữ liệu là gì?

Câu 4: Định lý CAP phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố nào sau đây?

Câu 5: Trong hệ sinh thái Hadoop, công cụ nào được thiết kế để chuyển đổi dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS)?

Câu 6: Đặc điểm chính của cơ sở dữ liệu NoSQL dạng 'Document-oriented' là gì?

Câu 7: Khái niệm 'Data Lake' (Hồ dữ liệu) khác biệt với 'Data Warehouse' (Kho dữ liệu) ở điểm cốt lõi nào?

Câu 8: Apache Kafka thường được sử dụng trong hệ thống Big Data với vai trò chủ yếu là gì?

Câu 9: Kỹ thuật 'Sharding' trong các hệ thống Big Data dùng để giải quyết vấn đề gì?

Câu 10: Trong mô hình MapReduce, giai đoạn 'Shuffle and Sort' có mục tiêu chính là gì?

Câu 11: Cấu trúc dữ liệu cốt lõi của Apache Spark, cho phép xử lý song song và có khả năng phục hồi lỗi, được gọi là gì?

Câu 12: Đặc trưng 'Variety' của Big Data phản ánh thách thức nào sau đây?

Câu 13: Tại sao HDFS lại mặc định sao chép mỗi khối dữ liệu (block) thành 3 bản trên các nút khác nhau?

Câu 14: Công cụ nào trong hệ sinh thái Hadoop cung cấp giao diện truy vấn giống SQL để phân tích dữ liệu trên HDFS?

Câu 15: Trong phân tích Big Data, 'Edge Computing' mang lại lợi ích gì so với việc gửi toàn bộ dữ liệu về Cloud?

Câu 16: Thuật ngữ 'Batch Processing' (Xử lý theo lô) thường được dùng để chỉ loại hình xử lý dữ liệu nào?

Câu 17: Hệ thống NoSQL nào sau đây thuộc loại 'Graph Database', chuyên dùng để xử lý các mối quan hệ phức tạp?

Câu 18: Vai trò của Apache Zookeeper trong một cụm Big Data là gì?

Câu 19: Trong ngữ cảnh Big Data, 'Data Governance' (Quản trị dữ liệu) tập trung vào vấn đề gì?

Câu 20: Hệ thống Apache Flink nổi tiếng với khả năng xử lý loại dữ liệu nào với độ trễ cực thấp?

Câu 21: Mục tiêu chính của việc sử dụng YARN (Yet Another Resource Negotiator) trong Hadoop 2.x là gì?

Câu 22: Trong kiến trúc Lambda, tầng 'Speed Layer' (Tầng tốc độ) có nhiệm vụ gì?

Câu 23: Sự khác biệt chính giữa Structured Data và Unstructured Data là gì?

Câu 24: Ứng dụng phổ biến nhất của phân tích cảm xúc (Sentiment Analysis) trên Big Data là gì?

Câu 25: Trong hệ thống Big Data, 'Veracity' thường đối mặt với thách thức nào nhất?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top