Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Mô hình 5Vs của Dữ liệu lớn (Big Data) bao gồm những yếu tố nào sau đây?

A. Volume, Velocity, Variety, Vertical, Value
B. Volume, Velocity, Variety, Veracity, Value
C. Volume, Vector, Variety, Veracity, Value
D. Volume, Velocity, Varnish, Veracity, Value

💡 Lời giải chi tiết:

Theo định nghĩa phổ biến của IBM và các tổ chức công nghệ, năm đặc trưng cốt lõi của Big Data là Khối lượng, Tốc độ, Đa dạng, Độ tin cậy và Giá trị. Kết luận Lý giải Volume, Velocity, Variety, Veracity, Value.

Câu 2: Thành phần nào trong hệ sinh thái Hadoop chịu trách nhiệm lưu trữ dữ liệu phân tán?

A. Hadoop Distributed File System (HDFS)
B. MapReduce
C. YARN
D. Zookeeper

💡 Lời giải chi tiết:

HDFS là hệ thống tệp tin phân tán được thiết kế để lưu trữ các tập dữ liệu cực lớn trên các cụm máy tính thông thường với khả năng chịu lỗi cao. Kết luận Lý giải Hadoop Distributed File System (HDFS).

Câu 3: Tại sao Apache Spark thường được đánh giá là nhanh hơn Hadoop MapReduce trong xử lý dữ liệu?

A. Sử dụng ngôn ngữ lập trình Python thay vì Java
B. Xử lý dữ liệu trực tiếp trên bộ nhớ (In-memory processing)
C. Không yêu cầu hệ thống tệp tin phân tán
D. Tối ưu hóa việc ghi dữ liệu liên tục xuống đĩa cứng

💡 Lời giải chi tiết:

Apache Spark tăng tốc độ xử lý bằng cách giữ dữ liệu trên RAM thay vì phải ghi và đọc từ đĩa cứng sau mỗi giai đoạn như MapReduce. Kết luận Lý giải Xử lý dữ liệu trực tiếp trên bộ nhớ (In-memory processing).

Câu 4: Trong hệ thống HDFS, nút nào đóng vai trò quản lý metadata và điều phối truy cập tệp tin?

A. DataNode
B. TaskTracker
C. NameNode
D. JobTracker

💡 Lời giải chi tiết:

NameNode hoạt động như một máy chủ quản lý trung tâm để lưu trữ cấu trúc thư mục và ánh xạ các khối dữ liệu trong HDFS. Kết luận Lý giải NameNode.

Câu 5: Định lý CAP trong hệ thống cơ sở dữ liệu phân tán khẳng định không thể đồng thời đạt được cả ba yếu tố nào?

A. Consistency, Availability, Partition Tolerance
B. Consistency, Accuracy, Performance
C. Capacity, Availability, Partition Tolerance
D. Consistency, Availability, Portability

💡 Lời giải chi tiết:

Theo định lý Brewer, một hệ thống phân tán chỉ có thể đảm bảo tối đa hai trong ba thuộc tính là Tính nhất quán, Tính sẵn sàng và Khả năng chịu lỗi phân đoạn. Kết luận Lý giải Consistency, Availability, Partition Tolerance.

Câu 6: Hai giai đoạn chính trong mô hình lập trình MapReduce là gì?

A. Map và Filter
B. Sort và Reduce
C. Map và Reduce
D. Load và Transform

💡 Lời giải chi tiết:

Quy trình MapReduce bao gồm bước Map để xử lý và phân tách dữ liệu, sau đó là bước Reduce để tổng hợp kết quả dựa trên các khóa. Kết luận Lý giải Map và Reduce.

Câu 7: Công cụ nào sau đây được sử dụng để thu thập và vận chuyển các dòng dữ liệu nhật ký (log) lớn vào Hadoop?

A. Apache Flume
B. Apache Pig
C. Apache Oozie
D. Apache Mahout

💡 Lời giải chi tiết:

Apache Flume là một dịch vụ phân tán, tin cậy để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu nhật ký từ nhiều nguồn khác nhau. Kết luận Lý giải Apache Flume.

Câu 8: Sự khác biệt cốt lõi giữa Data Lake và Data Warehouse là gì?

A. Data Lake chỉ lưu trữ dữ liệu đã qua xử lý cấu trúc
B. Data Warehouse lưu trữ dữ liệu thô chưa qua xử lý
C. Data Lake lưu trữ dữ liệu ở dạng thô (Raw format) cho đến khi cần sử dụng
D. Data Warehouse có khả năng mở rộng tốt hơn Data Lake

💡 Lời giải chi tiết:

Data Lake cho phép lưu trữ mọi loại dữ liệu ở định dạng gốc, trong khi Data Warehouse yêu cầu dữ liệu phải được làm sạch và cấu trúc hóa trước khi lưu. Kết luận Lý giải Data Lake lưu trữ dữ liệu ở dạng thô (Raw format) cho đến khi cần sử dụng.

Câu 9: Trong Hadoop 2.x, YARN đóng vai trò gì?

A. Là một hệ thống cơ sở dữ liệu NoSQL
B. Quản lý tài nguyên và lập lịch công việc cho cụm (Cluster)
C. Thực hiện việc nén dữ liệu trong HDFS
D. Cung cấp giao diện truy vấn SQL cho người dùng

💡 Lời giải chi tiết:

YARN (Yet Another Resource Negotiator) tách biệt việc quản lý tài nguyên khỏi việc xử lý dữ liệu, cho phép nhiều ứng dụng chạy đồng thời trên cùng một cụm. Kết luận Lý giải Quản lý tài nguyên và lập lịch công việc cho cụm (Cluster).

Câu 10: Đặc tính 'Veracity' trong Big Data đề cập đến khía cạnh nào?

A. Tốc độ xử lý dữ liệu thời gian thực
B. Sự đa dạng của các nguồn dữ liệu
C. Độ chính xác và tính tin cậy của dữ liệu
D. Giá trị kinh tế thu được từ dữ liệu

💡 Lời giải chi tiết:

Veracity tập trung vào việc xác định mức độ tin cậy và chất lượng của dữ liệu đầu vào để đảm bảo kết quả phân tích chính xác. Kết luận Lý giải Độ chính xác và tính tin cậy của dữ liệu.

Câu 11: Cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

A. Key-Value store
B. Document-oriented database
C. Column-family store
D. Graph database

💡 Lời giải chi tiết:

MongoDB lưu trữ dữ liệu dưới dạng các tài liệu có cấu trúc linh hoạt tương tự JSON (BSON), nên nó được phân loại là cơ sở dữ liệu hướng tài liệu. Kết luận Lý giải Document-oriented database.

Câu 12: Cấu trúc dữ liệu cơ bản của Apache Spark là gì?

A. Data Table
B. Array List
C. Resilient Distributed Datasets (RDD)
D. Distributed Matrix

💡 Lời giải chi tiết:

RDD là một tập hợp các đối tượng phân tán, có khả năng phục hồi lỗi và cho phép thực hiện các tính toán song song trên toàn cụm máy tính. Kết luận Lý giải Resilient Distributed Datasets (RDD).

Câu 13: Apache Hive cung cấp khả năng nào cho người dùng Hadoop?

A. Quản lý luồng công việc (workflow)
B. Phân tích dữ liệu bằng ngôn ngữ giống SQL (HiveQL)
C. Lưu trữ dữ liệu đồ thị phức tạp
D. Giao diện quản lý NameNode trực quan

💡 Lời giải chi tiết:

Hive giúp những người dùng quen thuộc với SQL có thể truy vấn dữ liệu lớn trên Hadoop mà không cần viết mã Java MapReduce phức tạp. Kết luận Lý giải Phân tích dữ liệu bằng ngôn ngữ giống SQL (HiveQL).

Câu 14: Dữ liệu từ các bài đăng trên mạng xã hội như Facebook hoặc Twitter thường được phân loại là loại dữ liệu nào?

A. Dữ liệu có cấu trúc (Structured data)
B. Dữ liệu phi cấu trúc (Unstructured data)
C. Dữ liệu quan hệ (Relational data)
D. Dữ liệu nhị phân thuần túy

💡 Lời giải chi tiết:

Các nội dung mạng xã hội bao gồm văn bản tự do, hình ảnh và video không tuân theo một mô hình dữ liệu bảng cố định nên được coi là phi cấu trúc. Kết luận Lý giải Dữ liệu phi cấu trúc (Unstructured data).

Câu 15: Edge Computing giúp ích gì cho các hệ thống Big Data và IoT?

A. Tăng dung lượng lưu trữ trung tâm
B. Giảm độ trễ bằng cách xử lý dữ liệu gần nguồn phát sinh
C. Loại bỏ hoàn toàn nhu cầu về Cloud Computing
D. Tăng độ phức tạp của các thuật toán học máy

💡 Lời giải chi tiết:

Bằng cách xử lý dữ liệu tại biên mạng, Edge Computing giúp phản hồi nhanh hơn và giảm bớt lưu lượng truyền tải về máy chủ trung tâm. Kết luận Lý giải Giảm độ trễ bằng cách xử lý dữ liệu gần nguồn phát sinh.

Câu 16: Trong quy trình xử lý dữ liệu, ETL là viết tắt của cụm từ nào?

A. Extract, Transform, Load
B. Execute, Transfer, List
C. Extract, Transmit, Log
D. Enter, Test, Locate

💡 Lời giải chi tiết:

ETL là quy trình chuẩn để trích xuất dữ liệu từ nguồn, chuyển đổi định dạng cho phù hợp và tải vào hệ thống lưu trữ đích. Kết luận Lý giải Extract, Transform, Load.

Câu 17: Cơ sở dữ liệu Apache Cassandra được thiết kế theo mô hình nào để tối ưu hóa khả năng mở rộng?

A. Master-Slave
B. Single Point of Failure
C. Peer-to-Peer (không có nút chủ)
D. Hierarchical structure

💡 Lời giải chi tiết:

Kiến trúc Peer-to-Peer của Cassandra giúp hệ thống không có điểm yếu tập trung và dễ dàng mở rộng theo chiều ngang bằng cách thêm nút mới. Kết luận Lý giải Peer-to-Peer (không có nút chủ).

Câu 18: Mục tiêu chính của Khoa học dữ liệu (Data Science) trong bối cảnh Big Data là gì?

A. Chỉ đơn thuần là lưu trữ càng nhiều dữ liệu càng tốt
B. Xây dựng hạ tầng phần cứng cho trung tâm dữ liệu
C. Khai thác thông tin và tri thức từ dữ liệu để đưa ra quyết định
D. Viết các chương trình phần mềm quản trị hệ điều hành

💡 Lời giải chi tiết:

Khoa học dữ liệu kết hợp toán học, thống kê và lập trình để biến dữ liệu thô thành các dự báo và thông tin có giá trị thực tiễn. Kết luận Lý giải Khai thác thông tin và tri thức từ dữ liệu để đưa ra quyết định.

Câu 19: Apache Kafka thường được sử dụng cho mục đích nào trong kiến trúc Big Data?

A. Xử lý các truy vấn SQL phức tạp
B. Xây dựng các đường ống dữ liệu (data pipeline) thời gian thực
C. Lưu trữ dữ liệu lịch sử lâu dài (archiving)
D. Thiết kế giao diện người dùng cho báo cáo

💡 Lời giải chi tiết:

Kafka là một nền tảng phân phối luồng cho phép truyền tải và xử lý hàng triệu sự kiện mỗi giây giữa các hệ thống khác nhau. Kết luận Lý giải Xây dựng các đường ống dữ liệu (data pipeline) thời gian thực.

Câu 20: Lỗi 'Single Point of Failure' trong cụm Hadoop 1.x liên quan đến thành phần nào?

A. DataNode
B. TaskTracker
C. NameNode
D. Secondary NameNode

💡 Lời giải chi tiết:

Trong Hadoop 1.x, chỉ có duy nhất một NameNode hoạt động, nếu nút này gặp sự cố thì toàn bộ cụm sẽ ngừng hoạt động. Kết luận Lý giải NameNode.

Câu 21: Quy định GDPR của Liên minh Châu Âu ảnh hưởng như thế nào đến việc xử lý Big Data?

A. Bắt buộc mọi dữ liệu phải được lưu trữ tại Châu Âu
B. Yêu cầu các tổ chức phải bảo vệ quyền riêng tư và dữ liệu cá nhân chặt chẽ
C. Cấm hoàn toàn việc sử dụng dữ liệu lớn trong kinh doanh
D. Yêu cầu tất cả dữ liệu lớn phải ở dạng công khai

💡 Lời giải chi tiết:

GDPR thiết lập các tiêu chuẩn nghiêm ngặt về cách thu thập, lưu trữ và xử lý dữ liệu của công dân EU nhằm bảo vệ quyền riêng tư cá nhân. Kết luận Lý giải Yêu cầu các tổ chức phải bảo vệ quyền riêng tư và dữ liệu cá nhân chặt chẽ.

Câu 22: Cơ chế 'Micro-batching' là đặc điểm xử lý dòng của công cụ nào?

A. Apache Storm
B. Apache Flink
C. Spark Streaming
D. Apache Samza

💡 Lời giải chi tiết:

Spark Streaming xử lý các dòng dữ liệu bằng cách chia nhỏ chúng thành các lô (batch) ngắn và xử lý như các tác vụ tính toán thông thường. Kết luận Lý giải Spark Streaming.

Câu 23: Đặc tính 'Variety' của Big Data nhấn mạnh vào yếu tố nào?

A. Tốc độ gia tăng của dữ liệu theo từng giây
B. Kích thước khổng lồ của các tệp tin lưu trữ
C. Sự đa dạng về định dạng dữ liệu (cấu trúc, bán cấu trúc, phi cấu trúc)
D. Khả năng mở rộng của hệ thống lưu trữ

💡 Lời giải chi tiết:

Variety phản ánh việc dữ liệu hiện nay đến từ nhiều nguồn và có nhiều định dạng khác nhau như văn bản, video, âm thanh, và cảm biến. Kết luận Lý giải Sự đa dạng về định dạng dữ liệu (cấu trúc, bán cấu trúc, phi cấu trúc).

Câu 24: Hệ thống nào giúp quản lý cấu hình và đồng bộ hóa các dịch vụ trong môi trường phân tán?

A. Apache Mahout
B. Apache Sqoop
C. Apache ZooKeeper
D. Apache Ambari

💡 Lời giải chi tiết:

ZooKeeper cung cấp một dịch vụ tập trung để duy trì thông tin cấu cấu hình, đặt tên và cung cấp khả năng đồng bộ hóa cho các ứng dụng phân tán. Kết luận Lý giải Apache ZooKeeper.

Câu 25: Tại sao 'Value' được coi là chữ V quan trọng nhất trong mô hình Big Data?

A. Vì nó liên quan đến chi phí mua sắm thiết bị phần cứng
B. Vì mục tiêu cuối cùng của phân tích là tạo ra giá trị hữu ích cho tổ chức
C. Vì dữ liệu có giá trị càng cao thì kích thước càng lớn
D. Vì nó xác định tốc độ truyền tải dữ liệu qua mạng

💡 Lời giải chi tiết:

Dữ liệu chỉ thực sự có ý nghĩa khi tổ chức có thể phân tích và trích xuất ra những thông tin mang lại lợi ích thực tế hoặc kinh tế. Kết luận Lý giải Vì mục tiêu cuối cùng của phân tích là tạo ra giá trị hữu ích cho tổ chức.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 161 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 178 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 140 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 157 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 174 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 191 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Mô hình 5Vs của Dữ liệu lớn (Big Data) bao gồm những yếu tố nào sau đây?

Câu 2: Thành phần nào trong hệ sinh thái Hadoop chịu trách nhiệm lưu trữ dữ liệu phân tán?

Câu 3: Tại sao Apache Spark thường được đánh giá là nhanh hơn Hadoop MapReduce trong xử lý dữ liệu?

Câu 4: Trong hệ thống HDFS, nút nào đóng vai trò quản lý metadata và điều phối truy cập tệp tin?

Câu 5: Định lý CAP trong hệ thống cơ sở dữ liệu phân tán khẳng định không thể đồng thời đạt được cả ba yếu tố nào?

Câu 6: Hai giai đoạn chính trong mô hình lập trình MapReduce là gì?

Câu 7: Công cụ nào sau đây được sử dụng để thu thập và vận chuyển các dòng dữ liệu nhật ký (log) lớn vào Hadoop?

Câu 8: Sự khác biệt cốt lõi giữa Data Lake và Data Warehouse là gì?

Câu 9: Trong Hadoop 2.x, YARN đóng vai trò gì?

Câu 10: Đặc tính 'Veracity' trong Big Data đề cập đến khía cạnh nào?

Câu 11: Cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

Câu 12: Cấu trúc dữ liệu cơ bản của Apache Spark là gì?

Câu 13: Apache Hive cung cấp khả năng nào cho người dùng Hadoop?

Câu 14: Dữ liệu từ các bài đăng trên mạng xã hội như Facebook hoặc Twitter thường được phân loại là loại dữ liệu nào?

Câu 15: Edge Computing giúp ích gì cho các hệ thống Big Data và IoT?

Câu 16: Trong quy trình xử lý dữ liệu, ETL là viết tắt của cụm từ nào?

Câu 17: Cơ sở dữ liệu Apache Cassandra được thiết kế theo mô hình nào để tối ưu hóa khả năng mở rộng?

Câu 18: Mục tiêu chính của Khoa học dữ liệu (Data Science) trong bối cảnh Big Data là gì?

Câu 19: Apache Kafka thường được sử dụng cho mục đích nào trong kiến trúc Big Data?

Câu 20: Lỗi 'Single Point of Failure' trong cụm Hadoop 1.x liên quan đến thành phần nào?

Câu 21: Quy định GDPR của Liên minh Châu Âu ảnh hưởng như thế nào đến việc xử lý Big Data?

Câu 22: Cơ chế 'Micro-batching' là đặc điểm xử lý dòng của công cụ nào?

Câu 23: Đặc tính 'Variety' của Big Data nhấn mạnh vào yếu tố nào?

Câu 24: Hệ thống nào giúp quản lý cấu hình và đồng bộ hóa các dịch vụ trong môi trường phân tán?

Câu 25: Tại sao 'Value' được coi là chữ V quan trọng nhất trong mô hình Big Data?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top