Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Lưu ý: Nội dung trong bài Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong đặc trưng 5V của Dữ liệu lớn, yếu tố 'Veracity' đề cập đến khía cạnh nào sau đây?

A. Tốc độ dữ liệu được tạo ra và xử lý theo thời gian thực.
B. Độ tin cậy và tính chính xác về chất lượng của dữ liệu.
C. Sự đa dạng của các loại dữ liệu từ cấu trúc đến phi cấu trúc.
D. Khối lượng dữ liệu khổng lồ được lưu trữ trong hệ thống.

💡 Lời giải chi tiết:

Theo mô hình 5V phổ biến, 'Veracity' tập trung vào việc đảm bảo dữ liệu có độ tin cậy cao và chất lượng chính xác để đưa ra quyết định đúng đắn. Kết luận Lý giải Độ tin cậy và tính chính xác về chất lượng của dữ liệu.

Câu 2: Thành phần nào trong kiến trúc HDFS của Hadoop chịu trách nhiệm quản lý Metadata và điều phối truy cập của khách hàng?

A. DataNode
B. TaskTracker
C. NameNode
D. JobTracker

💡 Lời giải chi tiết:

Trong hệ thống tệp phân tán HDFS, NameNode đóng vai trò là máy chủ quản lý bảng chỉ mục tệp và điều phối việc truy cập vào các DataNode. Kết luận Lý giải NameNode.

Câu 3: Trong mô hình lập trình MapReduce, giai đoạn nào thực hiện việc sắp xếp và phân phối các cặp 'key-value' trung gian đến các nút xử lý phù hợp?

A. Giai đoạn Map
B. Giai đoạn Shuffle và Sort
C. Giai đoạn Reduce
D. Giai đoạn Input Splitting

💡 Lời giải chi tiết:

Shuffle và Sort là bước trung gian quan trọng để đảm bảo tất cả các giá trị có cùng khóa được chuyển đến cùng một bộ rút gọn (Reducer). Kết luận Lý giải Giai đoạn Shuffle và Sort.

Câu 4: Tại sao Apache Spark thường được đánh giá là nhanh hơn Apache Hadoop MapReduce trong các bài toán phân tích dữ liệu lặp lại?

A. Vì Spark sử dụng ngôn ngữ lập trình Python thay vì Java.
B. Vì Spark thực hiện tính toán trên bộ nhớ (In-memory) thay vì ghi dữ liệu xuống đĩa sau mỗi bước.
C. Vì Spark không yêu cầu hệ thống tệp phân tán để hoạt động.
D. Vì Spark chỉ xử lý được dữ liệu có cấu trúc.

💡 Lời giải chi tiết:

Khả năng lưu trữ dữ liệu trung gian trên RAM giúp Spark giảm thiểu độ trễ do thao tác I/O đĩa cứng so với mô hình ghi đĩa liên tục của MapReduce. Kết luận Lý giải Vì Spark thực hiện tính toán trên bộ nhớ (In-memory) thay vì ghi dữ liệu xuống đĩa sau mỗi bước.

Câu 5: Theo định lý CAP trong hệ thống phân tán, ba yếu tố nào không thể đạt được đồng thời 100% tại một thời điểm?

A. Tính nhất quán (Consistency), Tính sẵn sàng (Availability), Tính chịu lỗi phân vùng (Partition Tolerance).
B. Tính bảo mật (Security), Tính nhất quán (Consistency), Tính tốc độ (Velocity).
C. Khối lượng (Volume), Tốc độ (Velocity), Sự đa dạng (Variety).
D. Tính chính xác (Accuracy), Tính sẵn sàng (Availability), Tính tin cậy (Reliability).

💡 Lời giải chi tiết:

Định lý CAP khẳng định một hệ thống dữ liệu phân tán chỉ có thể đảm bảo tối đa hai trong ba thuộc tính Consistency, Availability và Partition Tolerance. Kết luận Lý giải Tính nhất quán (Consistency), Tính sẵn sàng (Availability), Tính chịu lỗi phân vùng (Partition Tolerance).

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

A. Key-Value store
B. Graph database
C. Wide-column store
D. Document-oriented database

💡 Lời giải chi tiết:

MongoDB lưu trữ dữ liệu dưới dạng các tài liệu linh hoạt tương tự JSON, thuộc nhóm cơ sở dữ liệu hướng tài liệu. Kết luận Lý giải Document-oriented database.

Câu 7: Đặc điểm cốt lõi phân biệt Data Lake (Hồ dữ liệu) với Data Warehouse (Kho dữ liệu) là gì?

A. Data Lake chỉ lưu trữ dữ liệu đã qua xử lý và làm sạch kỹ lưỡng.
B. Data Lake lưu trữ dữ liệu ở định dạng thô (raw format) và chỉ cấu trúc hóa khi cần sử dụng (Schema-on-read).
C. Data Warehouse có khả năng mở rộng linh hoạt hơn Data Lake.
D. Data Lake không hỗ trợ lưu trữ dữ liệu phi cấu trúc như video hay hình ảnh.

💡 Lời giải chi tiết:

Data Lake cho phép lưu trữ mọi loại dữ liệu ở trạng thái nguyên bản, trong khi Data Warehouse yêu cầu dữ liệu phải được cấu trúc hóa trước khi lưu (Schema-on-write). Kết luận Lý giải Data Lake lưu trữ dữ liệu ở định dạng thô (raw format) và chỉ cấu trúc hóa khi cần sử dụng (Schema-on-read).

Câu 8: Apache Kafka được sử dụng chủ yếu cho mục đích nào trong hệ sinh thái Dữ liệu lớn?

A. Lưu trữ dữ liệu tĩnh dài hạn thay thế cho HDFS.
B. Xây dựng các đường ống dữ liệu thời gian thực và các ứng dụng truyền phát dữ liệu (Streaming).
C. Thực hiện các thuật toán học máy phức tạp trên dữ liệu có cấu trúc.
D. Thiết kế giao diện người dùng cho các bảng điều khiển báo cáo.

💡 Lời giải chi tiết:

Kafka là nền tảng phân phối thông điệp có khả năng chịu lỗi cao, chuyên dùng để xử lý dòng dữ liệu liên tục với lưu lượng lớn. Kết luận Lý giải Xây dựng các đường ống dữ liệu thời gian thực và các ứng dụng truyền phát dữ liệu (Streaming).

Câu 9: Trong ngữ cảnh Dữ liệu lớn, loại dữ liệu nào chiếm tỷ trọng lớn nhất và đang tăng trưởng nhanh nhất hiện nay?

A. Dữ liệu có cấu trúc (Structured Data).
B. Dữ liệu bán cấu trúc (Semi-structured Data).
C. Dữ liệu phi cấu trúc (Unstructured Data).
D. Dữ liệu trong các bảng Excel.

💡 Lời giải chi tiết:

Phần lớn dữ liệu thế giới hiện nay đến từ video, hình ảnh, mạng xã hội và cảm biến, vốn thuộc nhóm dữ liệu phi cấu trúc. Kết luận Lý giải Dữ liệu phi cấu trúc (Unstructured Data).

Câu 10: Công cụ Apache Hive cung cấp khả năng nào cho người dùng trên nền tảng Hadoop?

A. Cung cấp giao diện truy vấn giống SQL để phân tích dữ liệu lưu trữ trong HDFS.
B. Quản lý tài nguyên phần cứng cho toàn bộ cụm máy chủ.
C. Tăng tốc độ truy cập tệp tin bằng cách thay thế giao thức TCP/IP.
D. Tự động sao lưu dữ liệu từ máy cục bộ lên đám mây.

💡 Lời giải chi tiết:

Hive cho phép người dùng sử dụng ngôn ngữ HiveQL (tương tự SQL) để truy vấn dữ liệu lớn mà không cần viết mã MapReduce phức tạp. Kết luận Lý giải Cung cấp giao diện truy vấn giống SQL để phân tích dữ liệu lưu trữ trong HDFS.

Câu 11: Điểm mạnh nổi bật nhất của Apache Flink so với các công cụ xử lý dòng dữ liệu khác là gì?

A. Chỉ có khả năng xử lý lô (batch processing).
B. Khả năng xử lý dòng dữ liệu thực thụ (true streaming) với độ trễ cực thấp và quản lý trạng thái mạnh mẽ.
C. Không yêu cầu bộ nhớ RAM lớn để hoạt động.
D. Dễ cài đặt hơn Apache Spark trên máy tính cá nhân.

💡 Lời giải chi tiết:

Apache Flink được thiết kế tối ưu cho việc xử lý các sự kiện đơn lẻ theo thời gian thực thay vì chia nhỏ thành các đợt (micro-batches). Kết luận Lý giải Khả năng xử lý dòng dữ liệu thực thụ (true streaming) with độ trễ cực thấp và quản lý trạng thái mạnh mẽ.

Câu 12: Khái niệm 'Sharding' trong các cơ sở dữ liệu Dữ liệu lớn có nghĩa là gì?

A. Tạo ra nhiều bản sao của cùng một bản ghi dữ liệu để dự phòng.
B. Chia nhỏ một tập dữ liệu lớn thành các phần nhỏ hơn (shards) để lưu trữ trên nhiều máy chủ khác nhau.
C. Nén dữ liệu để tiết kiệm không gian lưu trữ trên đĩa cứng.
D. Mã hóa dữ liệu để đảm bảo an toàn thông tin.

💡 Lời giải chi tiết:

Sharding là kỹ thuật phân vùng dữ liệu theo chiều ngang để phân phối tải trọng và cải thiện khả năng mở rộng của hệ thống. Kết luận Lý giải Chia nhỏ một tập dữ liệu lớn thành các phần nhỏ hơn (shards) để lưu trữ trên nhiều máy chủ khác nhau.

Câu 13: Ưu điểm lớn nhất của quy trình ELT (Extract-Load-Transform) so với ETL truyền thống khi làm việc với Cloud Data Warehouse là gì?

A. ELT giúp dữ liệu sạch hơn trước khi nạp vào hệ thống.
B. ELT tận dụng sức mạnh tính toán của hệ thống lưu trữ đích để thực hiện các biến đổi dữ liệu quy mô lớn.
C. ELT không yêu cầu kết nối mạng tốc độ cao.
D. ELT chỉ áp dụng được cho các tệp văn bản đơn giản.

💡 Lời giải chi tiết:

Bằng cách nạp dữ liệu thô trước, ELT cho phép người dùng linh hoạt biến đổi dữ liệu nhiều lần bằng tài nguyên mạnh mẽ của các kho dữ liệu hiện đại. Kết luận Lý giải ELT tận dụng sức mạnh tính toán của hệ thống lưu trữ đích để thực hiện các biến đổi dữ liệu quy mô lớn.

Câu 14: Mục tiêu chính của việc thiết lập 'Data Governance' (Quản trị dữ liệu) trong doanh nghiệp là gì?

A. Chỉ nhằm mục đích mua thêm nhiều ổ cứng lưu trữ.
B. Đảm bảo tính sẵn có, chất lượng, tính bảo mật và sự tuân thủ các quy định về dữ liệu.
C. Tự động hóa hoàn toàn việc sa thải nhân viên dựa trên dữ liệu hiệu suất.
D. Loại bỏ hoàn toàn việc sử dụng các cơ sở dữ liệu quan hệ truyền thống.

💡 Lời giải chi tiết:

Quản trị dữ liệu thiết lập các tiêu chuẩn và quy trình để đảm bảo tài sản dữ liệu được sử dụng hiệu quả và an toàn trong toàn tổ chức. Kết luận Lý giải Đảm bảo tính sẵn có, chất lượng, tính bảo mật và sự tuân thủ các quy định về dữ liệu.

Câu 15: Trong cụm Hadoop, Apache Zookeeper đóng vai trò gì?

A. Lưu trữ dữ liệu người dùng cuối.
B. Cung cấp dịch vụ điều phối, quản lý cấu hình và đồng bộ hóa cho các dịch vụ phân tán.
C. Thực hiện các truy vấn SQL phức tạp.
D. Quét virus cho các tệp tin trong hệ thống.

💡 Lời giải chi tiết:

Zookeeper giúp các hệ thống phân tán duy trì trạng thái nhất quán và tránh các lỗi như 'split-brain' thông qua cơ chế bầu chọn và quản lý cấu hình tập trung. Kết luận Lý giải Cung cấp dịch vụ điều phối, quản lý cấu hình và đồng bộ hóa cho các dịch vụ phân tán.

Câu 16: Kiến trúc Lambda (Lambda Architecture) trong xử lý Dữ liệu lớn bao gồm những tầng (layers) chính nào?

A. Tầng Front-end, Tầng Back-end, Tầng Database.
B. Tầng Batch, Tầng Speed (Streaming), Tầng Serving.
C. Tầng Nhập liệu, Tầng Kiểm tra, Tầng Xuất dữ liệu.
D. Tầng Lưu trữ, Tầng Mạng, Tầng Tính toán.

💡 Lời giải chi tiết:

Kiến trúc Lambda kết hợp giữa xử lý lô để đảm bảo độ chính xác và xử lý dòng để đảm bảo tính thời gian thực cho dữ liệu. Kết luận Lý giải Tầng Batch, Tầng Speed (Streaming), Tầng Serving.

Câu 17: Vấn đề 'Thiên kiến dữ liệu' (Data Bias) trong Dữ liệu lớn có thể gây ra hậu quả nghiêm trọng nhất ở lĩnh vực nào?

A. Làm tăng chi phí tiền điện của trung tâm dữ liệu.
B. Dẫn đến các quyết định của thuật toán học máy thiếu công bằng và mang tính phân biệt đối xử.
C. Khiến tốc độ mạng internet bị chậm lại.
D. Làm hỏng các thiết bị lưu trữ vật lý.

💡 Lời giải chi tiết:

Khi dữ liệu đầu vào chứa các định kiến xã hội, mô hình AI sẽ học và lặp lại những sai lầm đó, gây ảnh hưởng đến sự công bằng trong các quyết định tự động. Kết luận Lý giải Dẫn đến các quyết định của thuật toán học máy thiếu công bằng và mang tính phân biệt đối xử.

Câu 18: Kỹ thuật 'Differential Privacy' (Quyền riêng tư vi sai) được sử dụng trong Dữ liệu lớn nhằm mục đích gì?

A. Tăng tốc độ truyền tải dữ liệu giữa các nút.
B. Thêm nhiễu toán học vào dữ liệu để bảo vệ danh tính cá nhân trong khi vẫn giữ được giá trị thống kê của tập dữ liệu.
C. Xóa hoàn toàn dữ liệu sau khi đã sử dụng xong.
D. Chỉ cho phép quản trị viên cao cấp truy cập vào dữ liệu.

💡 Lời giải chi tiết:

Đây là một kỹ thuật bảo mật tiên tiến giúp phân tích dữ liệu tập thể mà không làm lộ thông tin nhạy cảm của bất kỳ cá nhân cụ thể nào. Kết luận Lý giải Thêm nhiễu toán học vào dữ liệu để bảo vệ danh tính cá nhân trong khi vẫn giữ được giá trị thống kê của tập dữ liệu.

Câu 19: Apache HBase là một loại cơ sở dữ liệu có đặc điểm lưu trữ như thế nào?

A. Lưu trữ dữ liệu dưới dạng cây phân cấp.
B. Lưu trữ dữ liệu theo hướng cột (column-family) và chạy trên nền tảng HDFS.
C. Lưu trữ dữ liệu trong các bảng Excel lồng nhau.
D. Chỉ lưu trữ dữ liệu trên bộ nhớ tạm thời.

💡 Lời giải chi tiết:

HBase là cơ sở dữ liệu NoSQL phân tán, mã nguồn mở, hỗ trợ truy cập ngẫu nhiên theo thời gian thực vào lượng dữ liệu khổng lồ. Kết luận Lý giải Lưu trữ dữ liệu theo hướng cột (column-family) và chạy trên nền tảng HDFS.

Câu 20: Thành phần nào trong Hadoop YARN chịu trách nhiệm theo dõi và quản lý tài nguyên (CPU, RAM) trên từng nút riêng lẻ trong cụm?

A. Resource Manager
B. Application Master
C. Node Manager
D. Container

💡 Lời giải chi tiết:

Node Manager chạy trên mỗi máy trong cụm để báo cáo tình trạng tài nguyên về cho Resource Manager trung tâm. Kết luận Lý giải Node Manager.

Câu 21: Đặc trưng 'Velocity' trong Dữ liệu lớn nhấn mạnh điều gì?

A. Dữ liệu phải được lưu trữ trong thời gian ít nhất 10 năm.
B. Tốc độ mà dữ liệu được tạo ra, thu thập và cần được xử lý kịp thời.
C. Tốc độ di chuyển của các quản trị viên trong trung tâm dữ liệu.
D. Số lượng các loại định dạng tệp tin khác nhau.

💡 Lời giải chi tiết:

Velocity không chỉ là tốc độ truyền dẫn mà còn là yêu cầu về khả năng xử lý tức thời để dữ liệu không bị mất đi giá trị theo thời gian. Kết luận Lý giải Tốc độ mà dữ liệu được tạo ra, thu thập và cần được xử lý kịp thời.

Câu 22: Mô hình nhất quán nào thường được áp dụng trong Apache Cassandra để đảm bảo khả năng sẵn sàng cao?

A. Nhất quán tuyệt đối (Strong Consistency) trong mọi trường hợp.
B. Nhất quán cuối cùng (Eventual Consistency) có thể điều chỉnh được.
C. Không có tính nhất quán dữ liệu.
D. Nhất quán dựa trên thời gian thực dân cư.

💡 Lời giải chi tiết:

Cassandra cho phép người dùng cấu hình mức độ nhất quán tùy theo nhu cầu để đánh đổi giữa tốc độ phản hồi và độ chính xác dữ liệu tức thời. Kết luận Lý giải Nhất quán cuối cùng (Eventual Consistency) có thể điều chỉnh được.

Câu 23: Bước 'Data Wrangling' (hay Data Cleaning) trong quy trình phân tích Dữ liệu lớn chiếm khoảng bao nhiêu thời gian của các nhà khoa học dữ liệu?

A. Khoảng 5% tổng thời gian dự án.
B. Khoảng 20% tổng thời gian dự án.
C. Khoảng 80% tổng thời gian dự án.
D. Dữ liệu lớn không cần bước làm sạch dữ liệu.

💡 Lời giải chi tiết:

Theo khảo sát thực tế, việc thu thập, làm sạch và chuẩn hóa dữ liệu thô thường là công đoạn tốn kém thời gian nhất để đảm bảo kết quả phân tích chính xác. Kết luận Lý giải Khoảng 80% tổng thời gian dự án.

Câu 24: Lợi ích chính của công cụ phân tích SQL phân tán như Presto hoặc Trino là gì?

A. Nó yêu cầu phải di chuyển toàn bộ dữ liệu vào một kho lưu trữ duy nhất.
B. Khả năng truy vấn dữ liệu tại chỗ (in-place) từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu.
C. Chỉ hoạt động được với các tệp tin văn bản (txt).
D. Nó thay thế hoàn toàn nhu cầu về phần cứng máy chủ.

💡 Lời giải chi tiết:

Presto/Trino cho phép kết nối và thực hiện các câu lệnh SQL trên nhiều hệ thống như HDFS, S3, MySQL đồng thời trong một truy vấn duy nhất. Kết luận Lý giải Khả năng truy vấn dữ liệu tại chỗ (in-place) từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu.

Câu 25: Định dạng tệp Apache Parquet thường được ưu tiên trong lưu trữ Dữ liệu lớn vì lý do nào?

A. Nó lưu trữ dữ liệu theo dòng giống như CSV nên dễ đọc bởi con người.
B. Nó là định dạng lưu trữ hướng cột giúp nén dữ liệu tốt và tăng tốc độ truy vấn trên các cột cụ thể.
C. Nó không hỗ trợ các kiểu dữ liệu phức tạp như mảng hay bản đồ.
D. Nó chỉ dùng được trên hệ điều hành Windows.

💡 Lời giải chi tiết:

Lưu trữ theo cột cho phép hệ thống chỉ đọc những cột cần thiết cho truy vấn, giúp giảm đáng kể lượng I/O và tối ưu bộ nhớ. Kết luận Lý giải Nó là định dạng lưu trữ hướng cột giúp nén dữ liệu tốt và tăng tốc độ truy vấn trên các cột cụ thể.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 6 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 225 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 242 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 259 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 276 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 293 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 110 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong đặc trưng 5V của Dữ liệu lớn, yếu tố 'Veracity' đề cập đến khía cạnh nào sau đây?

Câu 2: Thành phần nào trong kiến trúc HDFS của Hadoop chịu trách nhiệm quản lý Metadata và điều phối truy cập của khách hàng?

Câu 3: Trong mô hình lập trình MapReduce, giai đoạn nào thực hiện việc sắp xếp và phân phối các cặp 'key-value' trung gian đến các nút xử lý phù hợp?

Câu 4: Tại sao Apache Spark thường được đánh giá là nhanh hơn Apache Hadoop MapReduce trong các bài toán phân tích dữ liệu lặp lại?

Câu 5: Theo định lý CAP trong hệ thống phân tán, ba yếu tố nào không thể đạt được đồng thời 100% tại một thời điểm?

Câu 6: Hệ quản trị cơ sở dữ liệu MongoDB thuộc loại NoSQL nào dưới đây?

Câu 7: Đặc điểm cốt lõi phân biệt Data Lake (Hồ dữ liệu) với Data Warehouse (Kho dữ liệu) là gì?

Câu 8: Apache Kafka được sử dụng chủ yếu cho mục đích nào trong hệ sinh thái Dữ liệu lớn?

Câu 9: Trong ngữ cảnh Dữ liệu lớn, loại dữ liệu nào chiếm tỷ trọng lớn nhất và đang tăng trưởng nhanh nhất hiện nay?

Câu 10: Công cụ Apache Hive cung cấp khả năng nào cho người dùng trên nền tảng Hadoop?

Câu 11: Điểm mạnh nổi bật nhất của Apache Flink so với các công cụ xử lý dòng dữ liệu khác là gì?

Câu 12: Khái niệm 'Sharding' trong các cơ sở dữ liệu Dữ liệu lớn có nghĩa là gì?

Câu 13: Ưu điểm lớn nhất của quy trình ELT (Extract-Load-Transform) so với ETL truyền thống khi làm việc với Cloud Data Warehouse là gì?

Câu 14: Mục tiêu chính của việc thiết lập 'Data Governance' (Quản trị dữ liệu) trong doanh nghiệp là gì?

Câu 15: Trong cụm Hadoop, Apache Zookeeper đóng vai trò gì?

Câu 16: Kiến trúc Lambda (Lambda Architecture) trong xử lý Dữ liệu lớn bao gồm những tầng (layers) chính nào?

Câu 17: Vấn đề 'Thiên kiến dữ liệu' (Data Bias) trong Dữ liệu lớn có thể gây ra hậu quả nghiêm trọng nhất ở lĩnh vực nào?

Câu 18: Kỹ thuật 'Differential Privacy' (Quyền riêng tư vi sai) được sử dụng trong Dữ liệu lớn nhằm mục đích gì?

Câu 19: Apache HBase là một loại cơ sở dữ liệu có đặc điểm lưu trữ như thế nào?

Câu 20: Thành phần nào trong Hadoop YARN chịu trách nhiệm theo dõi và quản lý tài nguyên (CPU, RAM) trên từng nút riêng lẻ trong cụm?

Câu 21: Đặc trưng 'Velocity' trong Dữ liệu lớn nhấn mạnh điều gì?

Câu 22: Mô hình nhất quán nào thường được áp dụng trong Apache Cassandra để đảm bảo khả năng sẵn sàng cao?

Câu 23: Bước 'Data Wrangling' (hay Data Cleaning) trong quy trình phân tích Dữ liệu lớn chiếm khoảng bao nhiêu thời gian của các nhà khoa học dữ liệu?

Câu 24: Lợi ích chính của công cụ phân tích SQL phân tán như Presto hoặc Trino là gì?

Câu 25: Định dạng tệp Apache Parquet thường được ưu tiên trong lưu trữ Dữ liệu lớn vì lý do nào?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top