Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Lưu ý: Nội dung trong bài Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Đặc trưng 'Variety' (Sự đa dạng) trong mô hình 5V của Dữ liệu lớn chủ yếu đề cập đến yếu tố nào?

A. Tốc độ truyền tải dữ liệu qua mạng cực nhanh
B. Sự đa dạng về các loại và định dạng dữ liệu
C. Độ tin cậy và tính chính xác của dữ liệu
D. Khối lượng dữ liệu khổng lồ đạt mức Petabyte

💡 Lời giải chi tiết:

Theo phân tích phổ biến, đặc trưng Variety nhấn mạnh việc dữ liệu lớn bao gồm nhiều định dạng khác nhau từ có cấu trúc, bán cấu trúc đến phi cấu trúc, Kết luận Lý giải Sự đa dạng về các loại và định dạng dữ liệu.

Câu 2: Trong hệ sinh thái Hadoop, thành phần nào đóng vai trò quản lý việc lưu trữ dữ liệu phân tán trên các nút?

A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. YARN
D. Apache Hive

💡 Lời giải chi tiết:

HDFS là hệ thống tệp phân tán được thiết kế để lưu trữ các tệp dữ liệu rất lớn trên các cụm máy tính thông thường, Kết luận Lý giải HDFS (Hadoop Distributed File System).

Câu 3: Đặc điểm cốt lõi giúp Apache Spark xử lý dữ liệu nhanh hơn MapReduce trong nhiều trường hợp là gì?

A. Khả năng lưu trữ dữ liệu vĩnh viễn trên ổ đĩa
B. Chỉ hỗ trợ dữ liệu có cấu trúc từ SQL
C. Khả năng tính toán trực tiếp trên bộ nhớ (In-memory computing)
D. Sử dụng ngôn ngữ lập trình Java duy nhất

💡 Lời giải chi tiết:

Spark tối ưu hóa tốc độ bằng cách giữ lại dữ liệu trung gian trong RAM thay vì ghi xuống đĩa liên tục như MapReduce, Kết luận Lý giải Khả năng tính toán trực tiếp trên bộ nhớ (In-memory computing).

Câu 4: Thuật ngữ 'Veracity' trong Dữ liệu lớn dùng để chỉ khía cạnh nào?

A. Tốc độ xử lý dữ liệu thời gian thực
B. Giá trị kinh tế thu được từ dữ liệu
C. Độ chính xác và tính xác thực của dữ liệu
D. Kích thước của các tập dữ liệu lưu trữ

💡 Lời giải chi tiết:

Veracity đề cập đến sự không chắc chắn hoặc mức độ tin cậy của dữ liệu do tính nhiễu hoặc sự sai lệch trong quá trình thu thập, Kết luận Lý giải Độ chính xác và tính xác thực của dữ liệu.

Câu 5: Theo định lý CAP trong hệ thống phân tán, ba yếu tố mà một hệ thống không thể đồng thời đảm bảo hoàn hảo cùng lúc là gì?

A. Tính nhất quán, Tính sẵn sàng, Khả năng chịu lỗi phân vùng
B. Tốc độ, Khối lượng, Sự đa dạng
C. Tính bảo mật, Tính mở, Tính riêng tư
D. Tính đúng đắn, Tính kịp thời, Tính kinh tế

💡 Lời giải chi tiết:

Định lý CAP khẳng định một hệ thống dữ liệu phân tán chỉ có thể chọn tối đa hai trong ba yếu tố: Consistency, Availability, và Partition Tolerance, Kết luận Lý giải Tính nhất quán, Tính sẵn sàng, Khả năng chịu lỗi phân vùng.

Câu 6: Kiến trúc 'Data Lake' (Hồ dữ liệu) khác biệt cơ bản với 'Data Warehouse' (Kho dữ liệu) ở điểm nào?

A. Data Lake chỉ lưu trữ dữ liệu đã qua xử lý hoàn thiện
B. Data Lake lưu trữ dữ liệu thô ở định dạng nguyên bản
C. Data Lake yêu cầu cấu trúc dữ liệu nghiêm ngặt trước khi nạp vào
D. Data Lake không cho phép lưu trữ dữ liệu phi cấu trúc

💡 Lời giải chi tiết:

Data Lake cho phép lưu trữ mọi loại dữ liệu ở dạng thô cho đến khi cần phân tích, giúp linh hoạt hơn so với kho dữ liệu truyền thống, Kết luận Lý giải Data Lake lưu trữ dữ liệu thô ở định dạng nguyên bản.

Câu 7: Trong mô hình MapReduce, giai đoạn 'Reduce' thực hiện nhiệm vụ chính là gì?

A. Phân chia dữ liệu đầu vào thành các khối nhỏ
B. Đọc dữ liệu từ HDFS và chuyển thành cặp khóa-giá trị
C. Tổng hợp các kết quả trung gian có cùng khóa để đưa ra kết quả cuối cùng
D. Sắp xếp dữ liệu đầu vào theo thứ tự bảng chữ cái

💡 Lời giải chi tiết:

Giai đoạn Reduce nhận đầu vào từ Map và tiến hành gom nhóm, xử lý các giá trị dựa trên cùng một khóa để thu gọn dữ liệu, Kết luận Lý giải Tổng hợp các kết quả trung gian có cùng khóa để đưa ra kết quả cuối cùng.

Câu 8: Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây thuộc loại 'Document-oriented' (Hướng tài liệu)?

A. Neo4j
B. Cassandra
C. Redis
D. MongoDB

💡 Lời giải chi tiết:

MongoDB là cơ sở dữ liệu NoSQL phổ biến nhất lưu trữ dữ liệu dưới dạng các tài liệu tương tự JSON (BSON), Kết luận Lý giải MongoDB.

Câu 9: Đặc trưng 'Velocity' trong Big Data nhấn mạnh điều gì?

A. Tốc độ dữ liệu được tạo ra và luân chuyển liên tục
B. Số lượng các nút trong một cụm Hadoop
C. Độ trễ của việc truy vấn cơ sở dữ liệu SQL
D. Dung lượng tối đa của một ổ đĩa cứng

💡 Lời giải chi tiết:

Velocity không chỉ là tốc độ thu thập mà còn là tốc độ xử lý dữ liệu để kịp thời đưa ra quyết định kinh doanh, Kết luận Lý giải Tốc độ dữ liệu được tạo ra và luân chuyển liên tục.

Câu 10: Hệ số nhân bản (Replication Factor) mặc định của một khối dữ liệu trong HDFS là bao nhiêu?

A. 1
B. 2
C. 3
D. 5

💡 Lời giải chi tiết:

Theo cấu hình chuẩn của Apache Hadoop, mỗi khối dữ liệu sẽ được sao chép thành 3 bản trên các nút khác nhau để đảm bảo an toàn dữ liệu, Kết luận Lý giải 3.

Câu 11: Trong lĩnh vực Dữ liệu lớn, khái niệm 'Structured Data' (Dữ liệu có cấu trúc) thường được tìm thấy ở đâu?

A. Các tệp video và âm thanh trên mạng xã hội
B. Cơ sở dữ liệu quan hệ (RDBMS) như MySQL hay Oracle
C. Nội dung các email cá nhân không theo định dạng
D. Các bài đăng văn bản tự do trên trang cá nhân

💡 Lời giải chi tiết:

Dữ liệu có cấu trúc là loại dữ liệu được tổ chức chặt chẽ trong các bảng với các hàng và cột xác định rõ ràng, Kết luận Lý giải Cơ sở dữ liệu quan hệ (RDBMS) như MySQL hay Oracle.

Câu 12: Công cụ nào trong hệ sinh thái Hadoop chuyên dùng để chuyển dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ?

A. Apache Flume
B. Apache Sqoop
C. Apache Zookeeper
D. Apache Oozie

💡 Lời giải chi tiết:

Sqoop (SQL-to-Hadoop) được thiết kế đặc biệt để nhập và xuất dữ liệu hiệu quả giữa Hadoop và các kho dữ liệu có cấu trúc, Kết luận Lý giải Apache Sqoop.

Câu 13: Loại phân tích nào trong Big Data giúp đưa ra các dự báo về những gì có thể xảy ra trong tương lai?

A. Descriptive Analytics (Phân tích mô tả)
B. Diagnostic Analytics (Phân tích chẩn đoán)
C. Predictive Analytics (Phân tích dự đoán)
D. Prescriptive Analytics (Phân tích chỉ dẫn)

💡 Lời giải chi tiết:

Phân tích dự đoán sử dụng các mô hình thống kê và thuật toán học máy dựa trên dữ liệu lịch sử để dự báo xu hướng, Kết luận Lý giải Predictive Analytics (Phân tích dự đoán).

Câu 14: Apache Kafka thường được sử dụng trong kiến trúc Big Data với mục đích chính là gì?

A. Lưu trữ dữ liệu lịch sử lâu dài thay cho HDFS
B. Hệ thống truyền thông điệp và xử lý luồng dữ liệu thời gian thực
C. Thực hiện các truy vấn SQL phức tạp trên dữ liệu thô
D. Quản lý tài nguyên phần cứng của cụm máy chủ

💡 Lời giải chi tiết:

Kafka đóng vai trò là một nền tảng phân phối thông điệp có độ trễ thấp và khả năng mở rộng cao cho các luồng dữ liệu liên tục, Kết luận Lý giải Hệ thống truyền thông điệp và xử lý luồng dữ liệu thời gian thực.

Câu 15: Đâu là ví dụ điển hình nhất của dữ liệu 'Semi-structured' (Bán cấu trúc)?

A. Bảng lương nhân viên trong Excel
B. Tệp tin định dạng XML hoặc JSON
C. Hình ảnh chụp từ vệ tinh
D. Cơ sở dữ liệu khách hàng SQL

💡 Lời giải chi tiết:

Dữ liệu bán cấu trúc không nằm trong bảng nhưng chứa các thẻ hoặc dấu vết định danh để phân tách các thành phần dữ liệu, Kết luận Lý giải Tệp tin định dạng XML hoặc JSON.

Câu 16: Trong kiến trúc Hadoop, NameNode có nhiệm vụ chính là gì?

A. Trực tiếp lưu trữ các khối dữ liệu thực tế
B. Thực hiện các tác vụ tính toán Map và Reduce
C. Quản lý siêu dữ liệu (metadata) và cấu trúc cây thư mục của HDFS
D. Cung cấp giao diện người dùng để viết mã Java

💡 Lời giải chi tiết:

NameNode đóng vai trò là nút chính quản lý hệ thống tệp và điều phối việc truy cập tệp của khách hàng, Kết luận Lý giải Quản lý siêu dữ liệu (metadata) và cấu trúc cây thư mục của HDFS.

Câu 17: Yếu tố 'Value' (Giá trị) trong Big Data có ý nghĩa gì quan trọng nhất?

A. Giá tiền của hệ thống máy chủ lưu trữ
B. Khả năng chuyển đổi dữ liệu thành thông tin hữu ích cho doanh nghiệp
C. Tổng dung lượng dữ liệu tính bằng đơn vị tiền tệ
D. Số lượng nhân sự tham gia vào dự án dữ liệu

💡 Lời giải chi tiết:

Giá trị là mục tiêu cuối cùng của Big Data, biến các tập dữ liệu thô khổng lồ thành lợi thế cạnh tranh hoặc hiểu biết sâu sắc, Kết luận Lý giải Khả năng chuyển đổi dữ liệu thành thông tin hữu ích cho doanh nghiệp.

Câu 18: Cơ sở dữ liệu NoSQL loại 'Graph Database' phù hợp nhất cho bài toán nào?

A. Lưu trữ log truy cập web theo thời gian
B. Phân tích mối quan hệ và kết nối trong mạng xã hội
C. Tính toán bảng lương nhân viên hàng tháng
D. Lưu trữ nội dung các trang báo điện tử

💡 Lời giải chi tiết:

Cơ sở dữ liệu đồ thị như Neo4j được thiết kế tối ưu để lưu trữ và truy vấn các mối quan hệ phức tạp giữa các thực thể, Kết luận Lý giải Phân tích mối quan hệ và kết nối trong mạng xã hội.

Câu 19: Kỹ thuật 'Data Anonymization' (Ẩn danh dữ liệu) được sử dụng trong Big Data nhằm mục đích gì?

A. Tăng tốc độ xử lý của thuật toán MapReduce
B. Giảm dung lượng lưu trữ trên các đĩa cứng
C. Bảo vệ quyền riêng tư bằng cách loại bỏ thông tin định danh cá nhân
D. Chuyển đổi dữ liệu phi cấu trúc thành có cấu trúc

💡 Lời giải chi tiết:

Ẩn danh dữ liệu là bước quan trọng để tuân thủ các quy định bảo mật như GDPR khi phân tích dữ liệu người dùng, Kết luận Lý giải Bảo vệ quyền riêng tư bằng cách loại bỏ thông tin định danh cá nhân.

Câu 20: Thành phần 'YARN' trong Hadoop 2.x trở đi có vai trò là gì?

A. Hệ thống quản lý tài nguyên và lập lịch tác vụ
B. Công cụ thực hiện truy vấn SQL
C. Hệ thống sao lưu dữ liệu tự động
D. Giao diện web để theo dõi hoạt động của DataNode

💡 Lời giải chi tiết:

YARN (Yet Another Resource Negotiator) tách biệt việc quản lý tài nguyên khỏi việc giám sát tác vụ, giúp Hadoop chạy được nhiều loại ứng dụng khác nhau, Kết luận Lý giải Hệ thống quản lý tài nguyên và lập lịch tác vụ.

Câu 21: Ưu điểm lớn nhất của lưu trữ dạng 'Columnar Storage' (Lưu trữ theo cột) trong phân tích Dữ liệu lớn là gì?

A. Giúp việc ghi dữ liệu mới vào bảng nhanh hơn
B. Tối ưu cho các truy vấn tính toán trên các cột cụ thể
C. Đảm bảo tính toàn vẹn dữ liệu tốt hơn lưu trữ theo hàng
D. Dễ dàng hiển thị trên các thiết bị di động

💡 Lời giải chi tiết:

Lưu trữ theo cột giúp giảm lượng dữ liệu cần đọc từ đĩa khi chỉ cần phân tích một vài thuộc tính nhất định trong tập dữ liệu lớn, Kết luận Lý giải Tối ưu cho các truy vấn tính toán trên các cột cụ thể.

Câu 22: Trong Apache Spark, khái niệm 'RDD' (Resilient Distributed Dataset) đại diện cho điều gì?

A. Một loại ổ cứng mới có tốc độ cao
B. Cấu trúc dữ liệu cơ bản cho phép xử lý song song và có khả năng phục hồi
C. Một thuật toán nén dữ liệu độc quyền của Spark
D. Tên gọi của nút điều khiển chính trong cụm Spark

💡 Lời giải chi tiết:

RDD là thành phần cốt lõi của Spark, giúp dữ liệu được phân tán trên cụm máy tính và tự động phục hồi nếu có nút bị lỗi, Kết luận Lý giải Cấu trúc dữ liệu cơ bản cho phép xử lý song song và có khả năng phục hồi.

Câu 23: Quy trình ETL trong xử lý dữ liệu truyền thống thường gặp khó khăn gì khi áp dụng vào Big Data?

A. Không thể xử lý dữ liệu từ các nguồn khác nhau
B. Tốc độ và khối lượng dữ liệu vượt quá khả năng xử lý của các công cụ ETL cũ
C. ETL không hỗ trợ việc lưu trữ dữ liệu vào kho dữ liệu
D. Quy trình này chỉ hoạt động với ngôn ngữ lập trình Python

💡 Lời giải chi tiết:

Các công cụ ETL truyền thống thường không được thiết kế để mở rộng theo quy mô lớn và xử lý tốc độ cao như yêu cầu của Big Data, Kết luận Lý giải Tốc độ và khối lượng dữ liệu vượt quá khả năng xử lý của các công cụ ETL cũ.

Câu 24: Kiến trúc 'Lambda Architecture' giải quyết vấn đề gì trong hệ thống Big Data?

A. Kết hợp xử lý theo lô (Batch) và xử lý thời gian thực (Speed layer)
B. Tăng cường bảo mật bằng cách mã hóa dữ liệu 3 lớp
C. Loại bỏ hoàn toàn nhu cầu sử dụng HDFS
D. Giảm thiểu số lượng máy chủ cần thiết trong cụm

💡 Lời giải chi tiết:

Kiến trúc Lambda cung cấp một cách tiếp cận cân bằng giữa tính chính xác cao của xử lý lô và độ trễ thấp của xử lý luồng, Kết luận Lý giải Kết hợp xử lý theo lô (Batch) và xử lý thời gian thực (Speed layer).

Câu 25: Apache Hive được sử dụng trong hệ sinh thái Hadoop chủ yếu để làm gì?

A. Cung cấp giao diện giống SQL để truy vấn dữ liệu trên HDFS
B. Quản lý việc phân phối điện năng cho các máy chủ
C. Thay thế hoàn toàn ngôn ngữ lập trình Java
D. Lưu trữ dữ liệu phi cấu trúc dạng video

💡 Lời giải chi tiết:

Hive cho phép những người thành thạo SQL có thể làm việc với dữ liệu trên Hadoop mà không cần viết mã MapReduce phức tạp, Kết luận Lý giải Cung cấp giao diện giống SQL để truy vấn dữ liệu trên HDFS.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 4 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 191 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 208 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 225 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 242 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 259 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 276 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Đặc trưng 'Variety' (Sự đa dạng) trong mô hình 5V của Dữ liệu lớn chủ yếu đề cập đến yếu tố nào?

Câu 2: Trong hệ sinh thái Hadoop, thành phần nào đóng vai trò quản lý việc lưu trữ dữ liệu phân tán trên các nút?

Câu 3: Đặc điểm cốt lõi giúp Apache Spark xử lý dữ liệu nhanh hơn MapReduce trong nhiều trường hợp là gì?

Câu 4: Thuật ngữ 'Veracity' trong Dữ liệu lớn dùng để chỉ khía cạnh nào?

Câu 5: Theo định lý CAP trong hệ thống phân tán, ba yếu tố mà một hệ thống không thể đồng thời đảm bảo hoàn hảo cùng lúc là gì?

Câu 6: Kiến trúc 'Data Lake' (Hồ dữ liệu) khác biệt cơ bản với 'Data Warehouse' (Kho dữ liệu) ở điểm nào?

Câu 7: Trong mô hình MapReduce, giai đoạn 'Reduce' thực hiện nhiệm vụ chính là gì?

Câu 8: Hệ quản trị cơ sở dữ liệu NoSQL nào sau đây thuộc loại 'Document-oriented' (Hướng tài liệu)?

Câu 9: Đặc trưng 'Velocity' trong Big Data nhấn mạnh điều gì?

Câu 10: Hệ số nhân bản (Replication Factor) mặc định của một khối dữ liệu trong HDFS là bao nhiêu?

Câu 11: Trong lĩnh vực Dữ liệu lớn, khái niệm 'Structured Data' (Dữ liệu có cấu trúc) thường được tìm thấy ở đâu?

Câu 12: Công cụ nào trong hệ sinh thái Hadoop chuyên dùng để chuyển dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ?

Câu 13: Loại phân tích nào trong Big Data giúp đưa ra các dự báo về những gì có thể xảy ra trong tương lai?

Câu 14: Apache Kafka thường được sử dụng trong kiến trúc Big Data với mục đích chính là gì?

Câu 15: Đâu là ví dụ điển hình nhất của dữ liệu 'Semi-structured' (Bán cấu trúc)?

Câu 16: Trong kiến trúc Hadoop, NameNode có nhiệm vụ chính là gì?

Câu 17: Yếu tố 'Value' (Giá trị) trong Big Data có ý nghĩa gì quan trọng nhất?

Câu 18: Cơ sở dữ liệu NoSQL loại 'Graph Database' phù hợp nhất cho bài toán nào?

Câu 19: Kỹ thuật 'Data Anonymization' (Ẩn danh dữ liệu) được sử dụng trong Big Data nhằm mục đích gì?

Câu 20: Thành phần 'YARN' trong Hadoop 2.x trở đi có vai trò là gì?

Câu 21: Ưu điểm lớn nhất của lưu trữ dạng 'Columnar Storage' (Lưu trữ theo cột) trong phân tích Dữ liệu lớn là gì?

Câu 22: Trong Apache Spark, khái niệm 'RDD' (Resilient Distributed Dataset) đại diện cho điều gì?

Câu 23: Quy trình ETL trong xử lý dữ liệu truyền thống thường gặp khó khăn gì khi áp dụng vào Big Data?

Câu 24: Kiến trúc 'Lambda Architecture' giải quyết vấn đề gì trong hệ thống Big Data?

Câu 25: Apache Hive được sử dụng trong hệ sinh thái Hadoop chủ yếu để làm gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top