Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 11 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 11 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong mô hình 5Vs của Dữ liệu lớn (Big Data), đặc trưng 'Variety' đề cập đến yếu tố nào sau đây?

A. Sự gia tăng nhanh chóng của khối lượng dữ liệu lưu trữ.
B. Sự đa dạng về định dạng dữ liệu bao gồm cấu trúc, bán cấu trúc và phi cấu trúc.
C. Tốc độ thu thập và xử lý dữ liệu theo thời gian thực.
D. Độ tin cậy và tính chính xác của các nguồn dữ liệu.

💡 Lời giải chi tiết:

Theo phân tích phổ biến về Big Data, đặc trưng 'Variety' nhấn mạnh vào sự phong phú của các kiểu dữ liệu từ văn bản, hình ảnh đến video và nhật ký web. Kết luận Lý giải Sự đa dạng về định dạng dữ liệu bao gồm cấu trúc, bán cấu trúc và phi cấu trúc.

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) thường lưu trữ các bản sao của một khối dữ liệu (block) mặc định là bao nhiêu?

A. bản sao.
B. bản sao.
C. bản sao.
D. bản sao.

💡 Lời giải chi tiết:

Trong cấu hình mặc định của Apache Hadoop, hệ số sao chép (replication factor) được thiết lập là 3 để đảm bảo khả năng chịu lỗi và tính sẵn sàng cao. Kết luận Lý giải 3 bản sao.

Câu 3: Trong mô hình lập trình MapReduce, giai đoạn nào chịu trách nhiệm sắp xếp và chuyển dữ liệu trung gian từ các nút Map đến các nút Reduce?

A. Giai đoạn Input Split.
B. Giai đoạn Shuffle and Sort.
C. Giai đoạn Combiner.
D. Giai đoạn Output Format.

💡 Lời giải chi tiết:

Theo quy trình vận hành của MapReduce, giai đoạn Shuffle đóng vai trò trung gian để nhóm các khóa giống nhau lại trước khi đưa vào hàm Reduce xử lý. Kết luận Lý giải Giai đoạn Shuffle and Sort.

Câu 4: Định lý CAP trong hệ thống phân tán khẳng định rằng một hệ thống không thể đồng thời đảm bảo cả ba yếu tố nào?

A. Consistency (Tính nhất quán), Availability (Tính sẵn sàng), Partition Tolerance (Khả năng chịu lỗi phân vùng).
B. Cost (Chi phí), Agility (Sự linh hoạt), Performance (Hiệu suất).
C. Complexity (Độ phức tạp), Accuracy (Độ chính xác), Privacy (Tính riêng tư).
D. Capacity (Dung lượng), Authority (Thẩm quyền), Portability (Tính di động).

💡 Lời giải chi tiết:

Theo lý thuyết của Eric Brewer, các hệ thống dữ liệu phân tán chỉ có thể tối ưu hóa tối đa hai trong ba khía cạnh của định lý CAP tại một thời điểm. Kết luận Lý giải Consistency (Tính nhất quán), Availability (Tính sẵn sàng), Partition Tolerance (Khả năng chịu lỗi phân vùng).

Câu 5: Thành phần nào trong Apache Spark đóng vai trò là cấu trúc dữ liệu cơ bản, cho phép xử lý song song và có khả năng phục hồi lỗi?

A. Data Frame.
B. Resilient Distributed Dataset (RDD).
C. Spark SQL.
D. GraphX.

💡 Lời giải chi tiết:

RDD là thành phần cốt lõi của Spark, cung cấp một trừu tượng hóa cho các tập hợp đối tượng chỉ đọc được phân tán trên các cụm máy tính. Kết luận Lý giải Resilient Distributed Dataset (RDD).

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

A. Key-Value Store.
B. Wide-Column Store.
C. Document Store.
D. Graph Database.

💡 Lời giải chi tiết:

MongoDB lưu trữ dữ liệu dưới dạng các tài liệu linh hoạt giống JSON (BSON), do đó nó được phân loại chính xác là cơ sở dữ liệu hướng tài liệu. Kết luận Lý giải Document Store.

Câu 7: Trong hệ thống Apache Kafka, đơn vị cơ bản dùng để phân chia và song song hóa việc lưu trữ dữ liệu trong một 'Topic' là gì?

A. Producer.
B. Consumer Group.
C. Partition (Phân vùng).
D. Broker.

💡 Lời giải chi tiết:

Kafka sử dụng cơ chế Partition để chia nhỏ dữ liệu trong một Topic, giúp nhiều Consumer có thể đọc dữ liệu song song và tăng khả năng mở rộng. Kết luận Lý giải Partition (Phân vùng).

Câu 8: Sự khác biệt chính giữa 'Data Lake' và 'Data Warehouse' là gì?

A. Data Lake chỉ lưu trữ dữ liệu đã qua xử lý, còn Data Warehouse lưu dữ liệu thô.
B. Data Lake lưu trữ dữ liệu ở định dạng thô (chưa cấu trúc), trong khi Data Warehouse lưu trữ dữ liệu đã được cấu trúc và tối ưu hóa.
C. Data Warehouse có chi phí lưu trữ thấp hơn nhiều so với Data Lake.
D. Data Lake không hỗ trợ các công cụ phân tích dữ liệu như Data Warehouse.

💡 Lời giải chi tiết:

Theo mô hình kiến trúc dữ liệu hiện đại, Data Lake giữ nguyên định dạng gốc của dữ liệu để phục vụ khám phá, trong khi Warehouse yêu cầu định nghĩa lược đồ trước khi nạp. Kết luận Lý giải Data Lake lưu trữ dữ liệu ở định dạng thô (chưa cấu trúc), trong khi Data Warehouse lưu trữ dữ liệu đã được cấu trúc và tối ưu hóa.

Câu 9: Công cụ nào trong hệ sinh thái Hadoop cung cấp ngôn ngữ truy vấn giống SQL (HQL) để phân tích dữ liệu trên HDFS?

A. Apache Pig.
B. Apache Hive.
C. Apache Sqoop.
D. Apache Flume.

💡 Lời giải chi tiết:

Apache Hive được thiết kế để giúp những người dùng quen thuộc với SQL có thể thực hiện các truy vấn trên tập dữ liệu lớn mà không cần viết mã Java MapReduce phức tạp. Kết luận Lý giải Apache Hive.

Câu 10: Vai trò chính của Apache Zookeeper trong một cụm Big Data là gì?

A. Lưu trữ các tệp tin dữ liệu cực lớn.
B. Cung cấp dịch vụ điều phối, quản lý cấu hình và đồng bộ hóa cho các hệ thống phân tán.
C. Thực hiện các thuật toán học máy phức tạp.
D. Chuyển đổi dữ liệu từ định dạng CSV sang JSON.

💡 Lời giải chi tiết:

Zookeeper hoạt động như một dịch vụ tập trung để duy trì thông tin cấu cấu hình và cung cấp khả năng đồng bộ nhóm cho các ứng dụng phân tán. Kết luận Lý giải Cung cấp dịch vụ điều phối, quản lý cấu hình và đồng bộ hóa cho các hệ thống phân tán.

Câu 11: Quy trình ELT (Extract, Load, Transform) khác với ETL truyền thống ở điểm nào?

A. ELT không thực hiện bước trích xuất dữ liệu.
B. ELT thực hiện việc biến đổi dữ liệu ngay tại hệ thống lưu trữ đích sau khi nạp, thay vì biến đổi trên một máy chủ trung gian.
C. ETL chỉ dành cho dữ liệu phi cấu trúc, còn ELT dành cho dữ liệu có cấu trúc.
D. ELT chậm hơn ETL do phải nạp dữ liệu thô trước.

💡 Lời giải chi tiết:

ELT tận dụng sức mạnh xử lý của các kho dữ liệu hiện đại (như Cloud Data Warehouse) để thực hiện các thao tác biến đổi dữ liệu sau khi đã nạp vào. Kết luận Lý giải ELT thực hiện việc biến đổi dữ liệu ngay tại hệ thống lưu trữ đích sau khi nạp, thay vì biến đổi trên một máy chủ trung gian.

Câu 12: Ứng dụng nào sau đây của Big Data mang lại giá trị cao nhất trong lĩnh vực Y tế?

A. Tự động hóa việc gửi email thông báo lịch hẹn cho bệnh nhân.
B. Phân tích dự đoán để phát hiện sớm các đợt bùng phát dịch bệnh và cá nhân hóa phác đồ điều trị.
C. Lưu trữ danh sách số điện thoại của các bác sĩ trong bệnh viện.
D. Sắp xếp hồ sơ bệnh án theo thứ tự bảng chữ cái tên bệnh nhân.

💡 Lời giải chi tiết:

Big Data trong y tế cho phép kết hợp các nguồn dữ liệu lâm sàng và cộng đồng để đưa ra các dự báo chính xác về sức khỏe cộng đồng và tối ưu hóa điều trị. Kết luận Lý giải Phân tích dự đoán để phát hiện sớm các đợt bùng phát dịch bệnh và cá nhân hóa phác đồ điều trị.

Câu 13: Thành phần 'NameNode' trong kiến trúc HDFS của Hadoop có chức năng chính là gì?

A. Lưu trữ nội dung thực tế của các khối dữ liệu (data blocks).
B. Quản lý siêu dữ liệu (metadata) bao gồm sơ đồ cây tệp và vị trí của các khối dữ liệu trên các DataNode.
C. Thực hiện các tác vụ tính toán của người dùng.
D. Kết nối internet để tải dữ liệu từ bên ngoài vào cụm.

💡 Lời giải chi tiết:

NameNode đóng vai trò là 'bộ não' của HDFS, giữ nhiệm vụ điều phối và theo dõi toàn bộ cấu trúc tệp tin trong hệ thống mà không trực tiếp lưu nội dung dữ liệu. Kết luận Lý giải Quản lý siêu dữ liệu (metadata) bao gồm sơ đồ cây tệp và vị trí của các khối dữ liệu trên các DataNode.

Câu 14: Loại dữ liệu nào chiếm tỷ lệ lớn nhất (thường được ước tính khoảng 80%) trong tổng lượng dữ liệu toàn cầu hiện nay?

A. Dữ liệu có cấu trúc (Structured Data) trong các cơ sở dữ liệu quan hệ.
B. Dữ liệu phi cấu trúc (Unstructured Data) như email, video, và bài đăng mạng xã hội.
C. Dữ liệu dạng số trong các bảng tính Excel.
D. Dữ liệu định danh khách hàng.

💡 Lời giải chi tiết:

Theo các báo cáo về dữ liệu thế giới, sự bùng nổ của nội dung số từ người dùng khiến dữ liệu phi cấu trúc tăng trưởng vượt xa dữ liệu truyền thống có cấu trúc. Kết luận Lý giải Dữ liệu phi cấu trúc (Unstructured Data) như email, video, và bài đăng mạng xã hội.

Câu 15: Trong xử lý dữ liệu dòng (Stream Processing), điểm khác biệt cốt lõi của Apache Flink so với Spark Streaming (phiên bản cũ) là gì?

A. Flink chỉ có thể xử lý dữ liệu hàng loạt (batch processing).
B. Flink xử lý dữ liệu theo từng sự kiện thực tế (native streaming), trong khi Spark Streaming xử lý theo các đợt nhỏ (micro-batching).
C. Flink yêu cầu tài nguyên phần cứng cao hơn gấp 10 lần so với Spark.
D. Spark Streaming không hỗ trợ xử lý dữ liệu từ Kafka.

💡 Lời giải chi tiết:

Apache Flink được xây dựng trên mô hình xử lý liên tục cho từng bản ghi, giúp đạt được độ trễ thấp hơn so với mô hình chia nhỏ dữ liệu thành các lô của Spark Streaming. Kết luận Lý giải Flink xử lý dữ liệu theo từng sự kiện thực tế (native streaming), trong khi Spark Streaming xử lý theo các đợt nhỏ (micro-batching).

Câu 16: Định dạng lưu trữ cột (Columnar Storage) như Apache Parquet mang lại lợi ích gì cho các hệ thống Big Data?

A. Tăng tốc độ ghi dữ liệu liên tiếp vào đĩa cứng.
B. Giảm lượng dữ liệu cần đọc từ đĩa khi chỉ truy vấn một vài cột cụ thể và cải thiện tỷ lệ nén dữ liệu.
C. Cho phép lưu trữ dữ liệu không giới hạn trên một máy chủ duy nhất.
D. Loại bỏ hoàn toàn nhu cầu sử dụng siêu dữ liệu (metadata).

💡 Lời giải chi tiết:

Lưu trữ theo cột cho phép hệ thống chỉ truy cập vào đúng các trường dữ liệu cần thiết cho phân tích, từ đó tối ưu hóa I/O và băng thông mạng. Kết luận Lý giải Giảm lượng dữ liệu cần đọc từ đĩa khi chỉ truy vấn một vài cột cụ thể và cải thiện tỷ lệ nén dữ liệu.

Câu 17: Hàm 'Combiner' trong MapReduce được sử dụng với mục đích chính là gì?

A. Thay thế hoàn toàn hàm Reduce để tăng tốc độ.
B. Tối ưu hóa bằng cách tổng hợp dữ liệu cục bộ tại mỗi nút Map trước khi truyền qua mạng đến nút Reduce.
C. Chia nhỏ dữ liệu đầu vào thành các tệp tin nhỏ hơn.
D. Kiểm tra lỗi bảo mật của mã nguồn người dùng.

💡 Lời giải chi tiết:

Combiner hoạt động như một bộ giảm (reducer) cục bộ để giảm thiểu lưu lượng dữ liệu dư thừa cần di chuyển qua mạng trong giai đoạn Shuffle. Kết luận Lý giải Tối ưu hóa bằng cách tổng hợp dữ liệu cục bộ tại mỗi nút Map trước khi truyền qua mạng đến nút Reduce.

Câu 18: Cơ sở dữ liệu NoSQL nào sau đây là lựa chọn tốt nhất để biểu diễn các mối quan hệ phức tạp giữa các thực thể, như mạng lưới bạn bè trên mạng xã hội?

A. Redis (Key-Value Store).
B. Cassandra (Wide-Column Store).
C. Neo4j (Graph Database).
D. CouchDB (Document Store).

💡 Lời giải chi tiết:

Cơ sở dữ liệu đồ thị như Neo4j được thiết kế tối ưu để truy vấn các nút và các mối quan hệ (cạnh) mà không gặp phải vấn đề về hiệu suất như các phép Join trong SQL. Kết luận Lý giải Neo4j (Graph Database).

Câu 19: Trong kiến trúc YARN của Hadoop, thành phần nào chịu trách nhiệm phân bổ tài nguyên cho toàn bộ các ứng dụng trong cụm?

A. NodeManager.
B. ApplicationMaster.
C. ResourceManager.
D. Container.

💡 Lời giải chi tiết:

ResourceManager là bộ phận quản lý trung tâm trong YARN, có quyền quyết định cách thức phân chia tài nguyên hệ thống (CPU, RAM) cho các tác vụ khác nhau. Kết luận Lý giải ResourceManager.

Câu 20: Lý do quan trọng nhất khiến Apache Spark xử lý dữ liệu nhanh hơn MapReduce trong nhiều trường hợp là gì?

A. Spark sử dụng ngôn ngữ lập trình Python đơn giản hơn Java.
B. Spark thực hiện tính toán trên bộ nhớ (in-memory) thay vì liên tục ghi dữ liệu trung gian xuống đĩa cứng như MapReduce.
C. Spark không yêu cầu kết nối mạng giữa các máy tính trong cụm.
D. Spark chỉ chạy được trên các máy chủ có cấu hình cực mạnh.

💡 Lời giải chi tiết:

Bằng cách giữ dữ liệu trong RAM giữa các giai đoạn xử lý, Spark loại bỏ được độ trễ lớn phát sinh từ việc đọc/ghi tệp tin trên đĩa vốn là đặc thù của MapReduce. Kết luận Lý giải Spark thực hiện tính toán trên bộ nhớ (in-memory) thay vì liên tục ghi dữ liệu trung gian xuống đĩa cứng như MapReduce.

Câu 21: Đặc trưng 'Veracity' trong Big Data đề cập đến khía cạnh nào?

A. Khối lượng dữ liệu khổng lồ tính bằng Terabyte hoặc Petabyte.
B. Độ tin cậy, tính chính xác và chất lượng của dữ liệu đầu vào.
C. Giá trị kinh tế mà dữ liệu mang lại cho doanh nghiệp.
D. Tốc độ biến đổi không ngừng của các thuật toán xử lý.

💡 Lời giải chi tiết:

Veracity liên quan đến việc xử lý các dữ liệu không chắc chắn hoặc nhiễu để đảm bảo kết quả phân tích cuối cùng là đáng tin cậy. Kết luận Lý giải Độ tin cậy, tính chính xác và chất lượng của dữ liệu đầu vào.

Câu 22: Công cụ Apache Sqoop được sử dụng chủ yếu để thực hiện tác vụ nào?

A. Lập biểu đồ trực quan hóa dữ liệu.
B. Chuyển dữ liệu có cấu trúc giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS) như MySQL hay Oracle.
C. Quản lý các tài khoản người dùng trên hệ thống Linux.
D. Nén các tệp tin log từ máy chủ web thành định dạng ZIP.

💡 Lời giải chi tiết:

Sqoop là từ viết tắt của 'SQL-to-Hadoop', đóng vai trò là cầu nối quan trọng để đưa dữ liệu kinh doanh truyền thống vào hệ sinh thái Big Data để phân tích. Kết luận Lý giải Chuyển dữ liệu có cấu trúc giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS) như MySQL hay Oracle.

Câu 23: Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề gì?

A. Giảm chi phí mua sắm thiết bị phần cứng.
B. Cân bằng giữa độ chính xác (xử lý hàng loạt) và tốc độ (xử lý thời gian thực) bằng cách sử dụng hai luồng xử lý song song.
C. Chuyển đổi hoàn toàn từ lưu trữ tại chỗ sang lưu trữ đám mây.
D. Tăng cường bảo mật bằng cách mã hóa dữ liệu hai lần.

💡 Lời giải chi tiết:

Kiến trúc Lambda cung cấp một cách tiếp cận toàn diện để xử lý cả dữ liệu lịch sử và dữ liệu trực tiếp nhằm đảm bảo hệ thống luôn cung cấp thông tin cập nhật nhất với sai số thấp. Kết luận Lý giải Cân bản giữa độ chính xác (xử lý hàng loạt) và tốc độ (xử lý thời gian thực) bằng cách sử dụng hai luồng xử lý song song.

Câu 24: Vai trò của 'Edge Computing' (Tính toán biên) trong bối cảnh dữ liệu lớn phát sinh từ IoT là gì?

A. Thay thế hoàn toàn các trung tâm dữ liệu tập trung (Cloud).
B. Xử lý và lọc dữ liệu ngay tại gần nguồn phát sinh (thiết bị) để giảm độ trễ và băng thông truyền về trung tâm.
C. Chỉ dùng để lưu trữ dữ liệu dự phòng khi mất điện.
D. Tăng kích thước vật lý của các cảm biến IoT.

💡 Lời giải chi tiết:

Tính toán biên giúp giảm tải cho hệ thống mạng và các cụm xử lý trung tâm bằng cách thực hiện các phân tích sơ bộ ngay tại thiết bị đầu cuối. Kết luận Lý giải Xử lý và lọc dữ liệu ngay tại gần nguồn phát sinh (thiết bị) để giảm độ trễ và băng thông truyền về trung tâm.

Câu 25: Quản trị dữ liệu (Data Governance) trong dự án Big Data tập trung vào mục tiêu nào?

A. Mua sắm càng nhiều ổ cứng càng tốt.
B. Thiết lập các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, tính bảo mật và sự tuân thủ pháp lý của dữ liệu.
C. Xóa bỏ toàn bộ dữ liệu cũ để tiết kiệm không gian.
D. Thuê thêm nhân viên nhập liệu thủ công.

💡 Lời giải chi tiết:

Quản trị dữ liệu là khung quản lý giúp doanh nghiệp kiểm soát tốt tài sản thông tin và đáp ứng các tiêu chuẩn như GDPR. Kết luận Lý giải Thiết lập các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, tính bảo mật và sự tuân thủ pháp lý của dữ liệu.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 127 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 144 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 161 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 178 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 140 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 157 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong mô hình 5Vs của Dữ liệu lớn (Big Data), đặc trưng 'Variety' đề cập đến yếu tố nào sau đây?

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) thường lưu trữ các bản sao của một khối dữ liệu (block) mặc định là bao nhiêu?

Câu 3: Trong mô hình lập trình MapReduce, giai đoạn nào chịu trách nhiệm sắp xếp và chuyển dữ liệu trung gian từ các nút Map đến các nút Reduce?

Câu 4: Định lý CAP trong hệ thống phân tán khẳng định rằng một hệ thống không thể đồng thời đảm bảo cả ba yếu tố nào?

Câu 5: Thành phần nào trong Apache Spark đóng vai trò là cấu trúc dữ liệu cơ bản, cho phép xử lý song song và có khả năng phục hồi lỗi?

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

Câu 7: Trong hệ thống Apache Kafka, đơn vị cơ bản dùng để phân chia và song song hóa việc lưu trữ dữ liệu trong một 'Topic' là gì?

Câu 8: Sự khác biệt chính giữa 'Data Lake' và 'Data Warehouse' là gì?

Câu 9: Công cụ nào trong hệ sinh thái Hadoop cung cấp ngôn ngữ truy vấn giống SQL (HQL) để phân tích dữ liệu trên HDFS?

Câu 10: Vai trò chính của Apache Zookeeper trong một cụm Big Data là gì?

Câu 11: Quy trình ELT (Extract, Load, Transform) khác với ETL truyền thống ở điểm nào?

Câu 12: Ứng dụng nào sau đây của Big Data mang lại giá trị cao nhất trong lĩnh vực Y tế?

Câu 13: Thành phần 'NameNode' trong kiến trúc HDFS của Hadoop có chức năng chính là gì?

Câu 14: Loại dữ liệu nào chiếm tỷ lệ lớn nhất (thường được ước tính khoảng 80%) trong tổng lượng dữ liệu toàn cầu hiện nay?

Câu 15: Trong xử lý dữ liệu dòng (Stream Processing), điểm khác biệt cốt lõi của Apache Flink so với Spark Streaming (phiên bản cũ) là gì?

Câu 16: Định dạng lưu trữ cột (Columnar Storage) như Apache Parquet mang lại lợi ích gì cho các hệ thống Big Data?

Câu 17: Hàm 'Combiner' trong MapReduce được sử dụng với mục đích chính là gì?

Câu 18: Cơ sở dữ liệu NoSQL nào sau đây là lựa chọn tốt nhất để biểu diễn các mối quan hệ phức tạp giữa các thực thể, như mạng lưới bạn bè trên mạng xã hội?

Câu 19: Trong kiến trúc YARN của Hadoop, thành phần nào chịu trách nhiệm phân bổ tài nguyên cho toàn bộ các ứng dụng trong cụm?

Câu 20: Lý do quan trọng nhất khiến Apache Spark xử lý dữ liệu nhanh hơn MapReduce trong nhiều trường hợp là gì?

Câu 21: Đặc trưng 'Veracity' trong Big Data đề cập đến khía cạnh nào?

Câu 22: Công cụ Apache Sqoop được sử dụng chủ yếu để thực hiện tác vụ nào?

Câu 23: Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề gì?

Câu 24: Vai trò của 'Edge Computing' (Tính toán biên) trong bối cảnh dữ liệu lớn phát sinh từ IoT là gì?

Câu 25: Quản trị dữ liệu (Data Governance) trong dự án Big Data tập trung vào mục tiêu nào?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top