Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Lưu ý: Nội dung trong bài Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong đặc trưng 5Vs của Dữ liệu lớn, yếu tố 'Velocity' (Tốc độ) đề cập chủ yếu đến khía cạnh nào?

A. Tốc độ mà dữ liệu được tạo ra, thu thập và xử lý trong thời gian thực hoặc gần thời gian thực.
B. Tốc độ di chuyển của dữ liệu từ ổ cứng vật lý sang bộ nhớ RAM của máy chủ.
C. Tốc độ mà các nhà khoa học dữ liệu có thể viết các truy vấn SQL phức tạp.
D. Tốc độ tăng trưởng về dung lượng lưu trữ của các trung tâm dữ liệu hàng năm.

💡 Lời giải chi tiết:

Theo định nghĩa phổ biến về Big Data, Velocity nhấn mạnh vào tần suất dữ liệu phát sinh liên tục và yêu cầu xử lý tức thời để tạo ra giá trị Kết luận Lý giải Tốc độ mà dữ liệu được tạo ra, thu thập và xử lý trong thời gian thực hoặc gần thời gian thực.

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) lưu trữ các tệp tin lớn bằng cách nào để đảm bảo tính chịu lỗi?

A. Nén dữ liệu thành các tệp tin zip nhỏ hơn trước khi lưu trữ vào một máy chủ duy nhất.
B. Chia tệp thành các khối (blocks) và sao chép chúng sang nhiều nút (nodes) khác nhau trong cụm.
C. Chỉ lưu trữ metadata của tệp và chuyển dữ liệu thực tế lên các dịch vụ lưu trữ đám mây bên thứ ba.
D. Sử dụng giao thức RAID 0 để tăng tốc độ ghi dữ liệu trên toàn bộ các ổ đĩa của cụm.

💡 Lời giải chi tiết:

HDFS chia dữ liệu thành các khối (mặc định 128MB) và nhân bản chúng (thường là 3 bản sao) trên các DataNode khác nhau để đảm bảo dữ liệu không bị mất khi một nút gặp sự cố Kết luận Lý giải Chia tệp thành các khối (blocks) và sao chép chúng sang nhiều nút (nodes) khác nhau trong cụm.

Câu 3: Trong mô hình lập trình MapReduce, nhiệm vụ chính của giai đoạn 'Reduce' là gì?

A. Phân tích dữ liệu thô và chuyển đổi chúng thành các cặp khóa - giá trị (key-value) trung gian.
B. Tổng hợp các giá trị trung gian có cùng một khóa để đưa ra kết quả cuối cùng rút gọn.
C. Sắp xếp dữ liệu đầu vào theo thứ tự bảng chữ cái trước khi quá trình xử lý bắt đầu.
D. Phân phối các tác vụ tính toán đến các máy tính còn trống trong hệ thống mạng.

💡 Lời giải chi tiết:

Giai đoạn Reduce tiếp nhận các cặp key-value từ giai đoạn Shuffle và thực hiện các phép toán gộp (như cộng, đếm) dựa trên khóa để tạo ra tập dữ liệu nhỏ hơn Kết luận Lý giải Tổng hợp các giá trị trung gian có cùng một khóa để đưa ra kết quả cuối cùng rút gọn.

Câu 4: Sự khác biệt cốt lõi giữa 'Data Lake' (Hồ dữ liệu) và 'Data Warehouse' (Kho dữ liệu) là gì?

A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ mọi loại dữ liệu.
B. Data Warehouse sử dụng mô hình 'Schema-on-read', trong khi Data Lake sử dụng 'Schema-on-write'.
C. Data Lake lưu trữ dữ liệu thô ở định dạng tự nhiên, còn Data Warehouse lưu trữ dữ liệu đã được xử lý và cấu trúc hóa.
D. Data Lake luôn có chi phí triển khai và bảo trì cao hơn nhiều so với Data Warehouse truyền thống.

💡 Lời giải chi tiết:

Data Lake cho phép lưu trữ dữ liệu chưa cấu trúc hoặc bán cấu trúc ở dạng nguyên bản cho đến khi cần phân tích, trong khi Data Warehouse yêu cầu dữ liệu phải được làm sạch và định dạng trước khi nạp Kết luận Lý giải Data Lake lưu trữ dữ liệu thô ở định dạng tự nhiên, còn Data Warehouse lưu trữ dữ liệu đã được xử lý và cấu trúc hóa.

Câu 5: Định lý CAP trong hệ thống phân tán khẳng định rằng một hệ thống không thể đồng thời đảm bảo cả 3 yếu tố nào?

A. Tính nhất quán (Consistency), Tính sẵn sàng (Availability), Khả năng chịu lỗi phân mảnh (Partition tolerance).
B. Tính bảo mật (Confidentiality), Tính toàn vẹn (Integrity), Tính sẵn sàng (Availability).
C. Tính toán (Computation), Lưu trữ (Archive), Hiệu suất (Performance).
D. Dung lượng (Capacity), Tốc độ (Acceleration), Tính chuẩn xác (Precision).

💡 Lời giải chi tiết:

Định lý CAP do Eric Brewer đưa ra nêu rõ trong một hệ thống dữ liệu phân tán, chỉ có thể chọn tối đa hai trong ba thuộc tính là Consistency, Availability và Partition Tolerance Kết luận Lý giải Tính nhất quán (Consistency), Tính sẵn sàng (Availability), Khả năng chịu lỗi phân mảnh (Partition tolerance).

Câu 6: Tại sao Apache Spark thường được coi là nhanh hơn MapReduce trong nhiều tác vụ xử lý dữ liệu?

A. Vì Spark sử dụng ngôn ngữ lập trình Python vốn nhanh hơn Java của Hadoop.
B. Vì Spark thực hiện xử lý dữ liệu chủ yếu trên bộ nhớ RAM (in-memory) thay vì ghi xuống đĩa liên tục.
C. Vì Spark không yêu cầu bất kỳ hệ thống tệp phân tán nào để lưu trữ dữ liệu tạm thời.
D. Vì Spark tự động loại bỏ tất cả các dữ liệu dư thừa trước khi bắt đầu quá trình tính toán.

💡 Lời giải chi tiết:

Khác với MapReduce phải ghi kết quả trung gian xuống đĩa cứng, Spark giữ dữ liệu trong bộ nhớ để thực hiện nhiều thao tác liên tiếp, giúp tăng tốc độ xử lý đáng kể Kết luận Lý giải Vì Spark thực hiện xử lý dữ liệu chủ yếu trên bộ nhớ RAM (in-memory) thay vì ghi xuống đĩa liên tục.

Câu 7: Công nghệ nào sau đây đóng vai trò là một hệ thống tin nhắn phân tán (distributed messaging system) phổ biến trong kiến trúc Big Data?

A. Apache Hive
B. Apache Kafka
C. Apache Pig
D. Apache Mahout

💡 Lời giải chi tiết:

Apache Kafka là nền tảng streaming giúp thu thập và luân chuyển dữ liệu theo thời gian thực giữa các ứng dụng và hệ thống theo mô hình publish-subscribe Kết luận Lý giải Apache Kafka.

Câu 8: Đặc trưng 'Veracity' (Tính xác thực) trong Dữ liệu lớn giải quyết vấn đề nào sau đây?

A. Độ lớn của dữ liệu tính bằng đơn vị Terabyte hoặc Petabyte.
B. Sự đa dạng về định dạng của dữ liệu như văn bản, hình ảnh, video.
C. Độ tin cậy, tính chính xác và chất lượng của dữ liệu đầu vào.
D. Giá trị kinh tế mà dữ liệu mang lại cho doanh nghiệp sau khi phân tích.

💡 Lời giải chi tiết:

Veracity đề cập đến sự mơ hồ hoặc không chắc chắn của dữ liệu, đòi hỏi các quy trình kiểm soát chất lượng để đảm bảo kết quả phân tích là chính xác Kết luận Lý giải Độ tin cậy, tính chính xác và chất lượng của dữ liệu đầu vào.

Câu 9: Lợi ích chính của việc sử dụng lưu trữ dạng cột (Columnar Storage) như Apache Parquet trong Big Data là gì?

A. Giúp việc thêm mới một bản ghi (row) diễn ra nhanh hơn so với lưu trữ dạng dòng.
B. Giảm lượng dữ liệu cần đọc từ đĩa khi chỉ truy vấn một số cột cụ thể, giúp tăng tốc độ phân tích.
C. Cho phép lưu trữ dữ liệu hình ảnh và video hiệu quả hơn so với tệp văn bản.
D. Đảm bảo dữ liệu luôn được sắp xếp theo thứ tự thời gian nạp vào hệ thống.

💡 Lời giải chi tiết:

Lưu trữ dạng cột tối ưu cho các truy vấn OLAP vì hệ thống chỉ cần truy xuất dữ liệu từ các cột liên quan thay vì đọc toàn bộ hàng dữ liệu Kết luận Lý giải Giảm lượng dữ liệu cần đọc từ đĩa khi chỉ truy vấn một số cột cụ thể, giúp tăng tốc độ phân tích.

Câu 10: Thành phần YARN (Yet Another Resource Negotiator) trong kiến trúc Hadoop 2.x có nhiệm vụ gì?

A. Quản lý việc lưu trữ các khối dữ liệu trên các ổ đĩa vật lý.
B. Quản lý tài nguyên của cụm và lập lịch thực hiện các ứng dụng khác nhau.
C. Cung cấp giao diện SQL để người dùng truy vấn dữ liệu trong HDFS.
D. Thực hiện việc sao lưu dữ liệu tự động sang các trung tâm dữ liệu dự phòng.

💡 Lời giải chi tiết:

YARN tách biệt chức năng quản lý tài nguyên và lập lịch công việc, cho phép nhiều công cụ xử lý khác nhau chạy trên cùng một cụm Hadoop Kết luận Lý giải Quản lý tài nguyên của cụm và lập lịch thực hiện các ứng dụng khác nhau.

Câu 11: Cơ sở dữ liệu NoSQL nào sau đây được phân loại vào nhóm 'Graph Database' (Cơ sở dữ liệu đồ thị)?

A. MongoDB
B. Cassandra
C. Neo4j
D. Redis

💡 Lời giải chi tiết:

Neo4j là hệ quản trị cơ sở dữ liệu đồ thị hàng đầu, sử dụng các nút và cạnh để biểu diễn và lưu trữ dữ liệu có mối quan hệ phức tạp Kết luận Lý giải Neo4j.

Câu 12: Khía cạnh 'Value' (Giá trị) trong mô hình 5Vs của Big Data ám chỉ điều gì?

A. Chi phí để mua sắm phần cứng lưu trữ dữ liệu lớn.
B. Khả năng chuyển đổi dữ liệu thô thành các hiểu biết có ích để ra quyết định kinh doanh.
C. Tổng số lượng giao dịch tài chính được ghi lại trong cơ sở dữ liệu.
D. Giá bán của bộ dữ liệu trên thị trường dữ liệu quốc tế.

💡 Lời giải chi tiết:

Mục tiêu cuối cùng của Big Data không chỉ là lưu trữ mà là trích xuất được những thông tin có giá trị thực tế cho tổ chức Kết luận Lý giải Khả năng chuyển đổi dữ liệu thô thành các hiểu biết có ích để ra quyết định kinh doanh.

Câu 13: Phân tích dự báo (Predictive Analytics) trong Big Data thường được sử dụng để làm gì?

A. Thống kê lại các sự kiện đã xảy ra trong quá khứ một cách chi tiết.
B. Sử dụng dữ liệu lịch sử và các thuật toán máy học để dự đoán các xu hướng hoặc hành vi trong tương lai.
C. Tự động xóa bỏ các dữ liệu cũ không còn giá trị sử dụng để tiết kiệm bộ nhớ.
D. Kiểm tra tính bảo mật của hệ thống mạng trước các cuộc tấn công từ bên ngoài.

💡 Lời giải chi tiết:

Phân tích dự báo tập trung vào việc tìm ra các mẫu hình trong dữ liệu cũ để đưa ra các tiên đoán về những gì có khả năng xảy ra Kết luận Lý giải Sử dụng dữ liệu lịch sử và các thuật toán máy học để dự đoán các xu hướng hoặc hành vi trong tương lai.

Câu 14: Trong hệ sinh thái Hadoop, công cụ Apache Zookeeper thường được dùng để thực hiện chức năng nào?

A. Phân tích dữ liệu bằng ngôn ngữ kịch bản tương tự như SQL.
B. Điều phối và quản lý cấu hình trong các hệ thống phân tán để đảm bảo tính đồng bộ.
C. Lưu trữ các tệp tin hình ảnh lớn phục vụ cho việc huấn luyện AI.
D. Nén dữ liệu để truyền tải qua mạng nhanh hơn.

💡 Lời giải chi tiết:

Apache Zookeeper cung cấp dịch vụ điều phối tập trung cho các ứng dụng phân tán, giúp duy trì cấu hình và cung cấp khả năng đồng bộ hóa Kết luận Lý giải Điều phối và quản lý cấu hình trong các hệ thống phân tán để đảm bảo tính đồng bộ.

Câu 15: Kiến trúc Lambda (Lambda Architecture) trong xử lý dữ liệu lớn được thiết kế để giải quyết vấn đề gì?

A. Chỉ tập trung vào việc tối ưu hóa tốc độ xử lý dữ liệu cũ.
B. Cân bằng giữa độ trễ thấp (xử lý luồng) và tính toàn diện/chính xác (xử lý lô).
C. Tăng cường khả năng bảo mật bằng cách mã hóa dữ liệu hai lớp.
D. Chuyển đổi toàn bộ dữ liệu từ SQL sang NoSQL một cách tự động.

💡 Lời giải chi tiết:

Kiến trúc Lambda kết hợp Batch Layer để xử lý dữ liệu lịch sử chính xác và Speed Layer để cung cấp kết quả theo thời gian thực Kết luận Lý giải Cân bằng giữa độ trễ thấp (xử lý luồng) và tính toàn diện/chính xác (xử lý lô).

Câu 16: Khái niệm 'Lazy Evaluation' (Đánh giá lười biếng) trong Apache Spark có ý nghĩa như thế nào?

A. Spark sẽ không thực hiện các phép biến đổi (transformations) cho đến khi một hành động (action) được gọi.
B. Spark sẽ tự động giảm tốc độ xử lý nếu hệ thống quá nóng để bảo vệ phần cứng.
C. Người dùng không cần phải khai báo kiểu dữ liệu cho các biến khi lập trình.
D. Dữ liệu sẽ bị xóa ngay sau khi được đọc vào bộ nhớ để giải phóng không gian.

💡 Lời giải chi tiết:

Lazy Evaluation cho phép Spark tối ưu hóa kế hoạch thực thi tổng thể bằng cách chỉ tính toán khi thực sự cần kết quả đầu ra Kết luận Lý giải Spark sẽ không thực hiện các phép biến đổi (transformations) cho đến khi một hành động (action) được gọi.

Câu 17: Trong đặc trưng 'Variety' (Sự đa dạng), loại dữ liệu nào chiếm tỷ trọng lớn nhất trong các tổ chức hiện nay theo ước tính của các chuyên gia?

A. Dữ liệu có cấu trúc (Structured data) lưu trong các bảng SQL.
B. Dữ liệu phi cấu trúc (Unstructured data) như email, video, mạng xã hội.
C. Dữ liệu số nguyên (Integer data) dùng cho tính toán tài chính.
D. Dữ liệu metadata mô tả các bảng cơ sở dữ liệu.

💡 Lời giải chi tiết:

Phần lớn dữ liệu được tạo ra hiện nay (khoảng 80% trở lên) là dữ liệu phi cấu trúc, đòi hỏi các kỹ thuật xử lý Big Data thay vì các công cụ truyền thống Kết luận Lý giải Dữ liệu phi cấu trúc (Unstructured data) như email, video, mạng xã hội.

Câu 18: Mô hình ELT (Extract, Load, Transform) khác với mô hình ETL truyền thống ở điểm căn bản nào khi xử lý Big Data?

A. ELT yêu cầu dữ liệu phải được làm sạch hoàn toàn trước khi nạp vào hệ thống lưu trữ.
B. ELT nạp dữ liệu thô vào hệ thống đích trước, sau đó mới thực hiện chuyển đổi bằng sức mạnh tính toán của hệ thống đó.
C. ELT chỉ có thể thực hiện được trên các máy chủ vật lý đơn lẻ, không hỗ trợ môi trường đám mây.
D. ETL luôn nhanh hơn ELT trong mọi trường hợp xử lý dữ liệu dung lượng lớn.

💡 Lời giải chi tiết:

Trong kỷ nguyên Big Data, ELT tận dụng khả năng mở rộng của Data Lake/Warehouse để thực hiện biến đổi sau khi nạp, giúp tăng linh hoạt Kết luận Lý giải ELT nạp dữ liệu thô vào hệ thống đích trước, sau đó mới thực hiện chuyển đổi bằng sức mạnh tính toán của hệ thống đó.

Câu 19: Nhiệm vụ chính của NameNode trong kiến trúc HDFS của Hadoop là gì?

A. Lưu trữ nội dung thực tế của tất cả các khối dữ liệu trong cụm.
B. Quản lý không gian tên (namespace) của hệ thống tệp và điều phối việc truy cập tệp của khách hàng.
C. Thực hiện các phép toán logic trên dữ liệu trước khi gửi kết quả về cho người dùng.
D. Tự động sửa chữa các tệp tin bị lỗi trên ổ đĩa cứng của DataNode.

💡 Lời giải chi tiết:

NameNode đóng vai trò 'não bộ' quản lý metadata (sơ đồ cây thư mục, vị trí các khối), trong khi DataNode mới là nơi lưu trữ dữ liệu thực Kết luận Lý giải Quản lý không gian tên (namespace) của hệ thống tệp và điều phối việc truy cập tệp của khách hàng.

Câu 20: Công cụ nào trong hệ sinh thái Hadoop cho phép người dùng sử dụng ngôn ngữ truy vấn giống SQL để phân tích dữ liệu trên HDFS?

A. Apache Hive
B. Apache Spark Streaming
C. Apache Flume
D. Apache Sqoop

💡 Lời giải chi tiết:

Apache Hive cung cấp một hạ tầng kho dữ liệu cho phép truy vấn dữ liệu lớn bằng ngôn ngữ HiveQL, rất gần gũi với SQL chuẩn Kết luận Lý giải Apache Hive.

Câu 21: Trong ngữ cảnh Big Data, 'Dark Data' (Dữ liệu tối) được hiểu là gì?

A. Dữ liệu được thu thập bất hợp pháp thông qua các cuộc tấn công mạng.
B. Dữ liệu mà các tổ chức thu thập, xử lý và lưu trữ nhưng không sử dụng cho mục đích phân tích hay ra quyết định.
C. Dữ liệu đã bị xóa vĩnh viễn khỏi hệ thống nhưng vẫn còn dấu vết vật lý trên ổ đĩa.
D. Dữ liệu chỉ có thể truy cập được thông qua các trình duyệt web ẩn danh (Deep Web).

💡 Lời giải chi tiết:

Theo Gartner, Dark Data là các tài sản thông tin mà tổ chức thu thập được trong các hoạt động kinh doanh thông thường nhưng chưa khai thác hết tiềm năng Kết luận Lý giải Dữ liệu mà các tổ chức thu thập, xử lý và lưu trữ nhưng không sử dụng cho mục đích phân tích hay ra quyết định.

Câu 22: Vai trò của Metadata trong quản trị dữ liệu lớn (Data Governance) là gì?

A. Để thay thế hoàn toàn cho dữ liệu gốc nhằm tiết kiệm không gian lưu trữ.
B. Cung cấp thông tin mô tả về nguồn gốc, cấu trúc và ý nghĩa của dữ liệu để quản lý và sử dụng hiệu quả.
C. Là một loại virus máy tính chuyên tấn công các hệ thống Big Data.
D. Chỉ dùng để ghi lại thời gian người dùng đăng nhập vào hệ thống xử lý.

💡 Lời giải chi tiết:

Metadata là 'dữ liệu về dữ liệu', đóng vai trò then chốt trong việc giúp người dùng tìm kiếm, hiểu và kiểm soát tính tuân thủ của dữ liệu Kết luận Lý giải Cung cấp thông tin mô tả về nguồn gốc, cấu trúc và ý nghĩa của dữ liệu để quản lý và sử dụng hiệu quả.

Câu 23: Trong quá trình MapReduce, giai đoạn 'Shuffle and Sort' diễn ra vào thời điểm nào?

A. Trước khi dữ liệu được đọc vào hàm Map.
B. Giữa giai đoạn Map và giai đoạn Reduce.
C. Sau khi kết quả từ giai đoạn Reduce đã được ghi xuống đĩa.
D. Chỉ diễn ra khi hệ thống phát hiện có lỗi xảy ra trong cụm.

💡 Lời giải chi tiết:

Shuffle and Sort là quá trình trung gian di chuyển dữ liệu từ các Map nodes sang các Reduce nodes phù hợp dựa trên khóa Kết luận Lý giải Giữa giai đoạn Map và giai đoạn Reduce.

Câu 24: Ưu điểm lớn nhất của việc sử dụng 'Commodity Hardware' (Phần cứng phổ thông) trong cụm Hadoop là gì?

A. Đảm bảo không bao giờ xảy ra hỏng hóc phần cứng.
B. Giảm chi phí đầu tư ban đầu và cho phép mở rộng hệ thống một cách linh hoạt bằng cách thêm các máy tính giá rẻ.
C. Có tốc độ xử lý đơn nhân nhanh hơn các máy chủ chuyên dụng đắt tiền.
D. Tích hợp sẵn các thuật toán trí tuệ nhân tạo ngay trong bộ vi xử lý.

💡 Lời giải chi tiết:

Thiết kế của Hadoop giả định rằng phần cứng có thể hỏng bất cứ lúc nào nên nó tối ưu hóa phần mềm để chạy trên các thiết bị rẻ tiền Kết luận Lý giải Giảm chi phí đầu tư ban đầu và cho phép mở rộng hệ thống một cách linh hoạt bằng cách thêm các máy tính giá rẻ.

Câu 25: Thuật ngữ 'In-memory computing' (Tính toán trong bộ nhớ) có liên quan mật thiết nhất đến công cụ nào sau đây?

A. Apache Flume
B. Apache Spark
C. Apache Sqoop
D. Hadoop MapReduce v1

💡 Lời giải chi tiết:

Apache Spark nổi tiếng với khả năng giữ dữ liệu trong RAM để xử lý nhanh hơn gấp nhiều lần so với các hệ thống dựa trên đĩa truyền thống Kết luận Lý giải Apache Spark.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 9 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 276 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 293 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 110 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 127 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 144 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 161 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong đặc trưng 5Vs của Dữ liệu lớn, yếu tố 'Velocity' (Tốc độ) đề cập chủ yếu đến khía cạnh nào?

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) lưu trữ các tệp tin lớn bằng cách nào để đảm bảo tính chịu lỗi?

Câu 3: Trong mô hình lập trình MapReduce, nhiệm vụ chính của giai đoạn 'Reduce' là gì?

Câu 4: Sự khác biệt cốt lõi giữa 'Data Lake' (Hồ dữ liệu) và 'Data Warehouse' (Kho dữ liệu) là gì?

Câu 5: Định lý CAP trong hệ thống phân tán khẳng định rằng một hệ thống không thể đồng thời đảm bảo cả 3 yếu tố nào?

Câu 6: Tại sao Apache Spark thường được coi là nhanh hơn MapReduce trong nhiều tác vụ xử lý dữ liệu?

Câu 7: Công nghệ nào sau đây đóng vai trò là một hệ thống tin nhắn phân tán (distributed messaging system) phổ biến trong kiến trúc Big Data?

Câu 8: Đặc trưng 'Veracity' (Tính xác thực) trong Dữ liệu lớn giải quyết vấn đề nào sau đây?

Câu 9: Lợi ích chính của việc sử dụng lưu trữ dạng cột (Columnar Storage) như Apache Parquet trong Big Data là gì?

Câu 10: Thành phần YARN (Yet Another Resource Negotiator) trong kiến trúc Hadoop 2.x có nhiệm vụ gì?

Câu 11: Cơ sở dữ liệu NoSQL nào sau đây được phân loại vào nhóm 'Graph Database' (Cơ sở dữ liệu đồ thị)?

Câu 12: Khía cạnh 'Value' (Giá trị) trong mô hình 5Vs của Big Data ám chỉ điều gì?

Câu 13: Phân tích dự báo (Predictive Analytics) trong Big Data thường được sử dụng để làm gì?

Câu 14: Trong hệ sinh thái Hadoop, công cụ Apache Zookeeper thường được dùng để thực hiện chức năng nào?

Câu 15: Kiến trúc Lambda (Lambda Architecture) trong xử lý dữ liệu lớn được thiết kế để giải quyết vấn đề gì?

Câu 16: Khái niệm 'Lazy Evaluation' (Đánh giá lười biếng) trong Apache Spark có ý nghĩa như thế nào?

Câu 17: Trong đặc trưng 'Variety' (Sự đa dạng), loại dữ liệu nào chiếm tỷ trọng lớn nhất trong các tổ chức hiện nay theo ước tính của các chuyên gia?

Câu 18: Mô hình ELT (Extract, Load, Transform) khác với mô hình ETL truyền thống ở điểm căn bản nào khi xử lý Big Data?

Câu 19: Nhiệm vụ chính của NameNode trong kiến trúc HDFS của Hadoop là gì?

Câu 20: Công cụ nào trong hệ sinh thái Hadoop cho phép người dùng sử dụng ngôn ngữ truy vấn giống SQL để phân tích dữ liệu trên HDFS?

Câu 21: Trong ngữ cảnh Big Data, 'Dark Data' (Dữ liệu tối) được hiểu là gì?

Câu 22: Vai trò của Metadata trong quản trị dữ liệu lớn (Data Governance) là gì?

Câu 23: Trong quá trình MapReduce, giai đoạn 'Shuffle and Sort' diễn ra vào thời điểm nào?

Câu 24: Ưu điểm lớn nhất của việc sử dụng 'Commodity Hardware' (Phần cứng phổ thông) trong cụm Hadoop là gì?

Câu 25: Thuật ngữ 'In-memory computing' (Tính toán trong bộ nhớ) có liên quan mật thiết nhất đến công cụ nào sau đây?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top