Quay lại danh mục Trắc nghiệm Dữ liệu lớn (BigData)

Trang chủ
Trắc nghiệm
Trắc nghiệm Dữ liệu lớn (BigData)
Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Lưu ý: Nội dung trong bài Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Veracity' tập trung vào khía cạnh nào?

A. Sự đa dạng của các định dạng dữ liệu đầu vào
B. Độ tin cậy và tính chính xác của dữ liệu
C. Tốc độ thu thập và xử lý dòng dữ liệu
D. Khối lượng dữ liệu lưu trữ trong hệ thống

💡 Lời giải chi tiết:

Theo phân tích phổ biến trong khoa học dữ liệu, Veracity đại diện cho chất lượng, tính xác thực và độ tin cậy của nguồn dữ liệu nhằm đảm bảo kết quả phân tích có giá trị thực tế. Kết luận Lý giải: Độ tin cậy và tính chính xác của dữ liệu

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) lưu trữ các tệp lớn bằng cách chia nhỏ chúng thành các phần có kích thước cố định được gọi là gì?

A. Blocks
B. Tables
C. Buckets
D. Partitions

💡 Lời giải chi tiết:

Kiến trúc HDFS được thiết kế để chia các tệp dữ liệu khổng lồ thành nhiều khối dữ liệu nhỏ gọi là 'Blocks' nhằm lưu trữ và xử lý song song trên nhiều nút của cụm máy chủ. Kết luận Lý giải: Blocks

Câu 3: Ưu điểm vượt trội nhất của Apache Spark so với mô hình MapReduce truyền thống trong xử lý dữ liệu là gì?

A. Khả năng lưu trữ dữ liệu vĩnh viễn trên ổ đĩa
B. Khả năng tính toán trực tiếp trên bộ nhớ RAM (In-memory computing)
C. Sử dụng ngôn ngữ truy vấn SQL đơn giản hơn
D. Hỗ trợ tốt hơn cho các loại dữ liệu có cấu trúc

💡 Lời giải chi tiết:

Theo so sánh hiệu năng phổ biến, Apache Spark nhanh hơn đáng kể so với MapReduce nhờ khả năng giữ dữ liệu trung gian trong bộ nhớ RAM thay vì ghi xuống đĩa cứng liên tục. Kết luận Lý giải: Khả năng tính toán trực tiếp trên bộ nhớ RAM (In-memory computing)

Câu 4: Đặc điểm chính của mô hình 'Schema-on-read' thường thấy trong các hồ dữ liệu (Data Lake) là gì?

A. Dữ liệu phải được làm sạch và cấu trúc hóa trước khi lưu trữ
B. Dữ liệu được lưu ở dạng thô và chỉ được định nghĩa cấu trúc khi cần truy vấn
C. Chỉ chấp nhận các loại dữ liệu có cấu trúc từ cơ sở dữ liệu quan hệ
D. Yêu cầu người dùng phải khai báo bảng trước khi nạp dữ liệu

💡 Lời giải chi tiết:

Trong bối cảnh quản lý dữ liệu hiện đại, hồ dữ liệu áp dụng 'Schema-on-read' để cho phép lưu trữ mọi loại dữ liệu ở định dạng gốc và chỉ áp dụng cấu trúc khi dữ liệu được đọc ra để phân tích. Kết luận Lý giải: Dữ liệu được lưu ở dạng thô và chỉ được định nghĩa cấu trúc khi cần truy vấn

Câu 5: Trong lý thuyết CAP áp dụng cho các hệ thống phân tán, ba yếu tố nào không thể đồng thời đạt được ở mức tối ưu?

A. Tính nhất quán (Consistency), Tính sẵn sàng (Availability), Tính chịu lỗi phân mảnh (Partition Tolerance)
B. Tính bảo mật, Tính tốc độ, Tính chính xác
C. Khối lượng, Tốc độ, Sự đa dạng
D. Tính mở rộng, Tính bền vững, Tính di động

💡 Lời giải chi tiết:

Lý thuyết CAP khẳng định rằng một hệ thống dữ liệu phân tán chỉ có thể đảm bảo tối đa hai trong ba yếu tố gồm tính nhất quán, tính sẵn sàng và khả năng chịu lỗi khi mạng bị phân tách. Kết luận Lý giải: Tính nhất quán (Consistency), Tính sẵn sàng (Availability), Tính chịu lỗi phân mảnh (Partition Tolerance)

Câu 6: Apache Kafka thường được sử dụng trong hệ sinh thái Big Data để giải quyết vấn đề nào?

A. Lưu trữ dữ liệu dài hạn thay thế cho HDFS
B. Truyền tải dòng dữ liệu thời gian thực giữa các hệ thống với độ trễ thấp
C. Trực quan hóa dữ liệu dưới dạng đồ thị
D. Xây dựng các mô hình học máy phức tạp

💡 Lời giải chi tiết:

Theo kiến trúc dữ liệu hiện hành, Apache Kafka đóng vai trò là hệ thống nhắn tin phân tán giúp luân chuyển dữ liệu quy mô lớn giữa các ứng dụng theo thời gian thực một cách ổn định. Kết luận Lý giải: Truyền tải dòng dữ liệu thời gian thực giữa các hệ thống với độ trễ thấp

Câu 7: Sự khác biệt cốt lõi giữa quy trình ETL và ELT trong xử lý dữ liệu lớn là gì?

A. ETL không hỗ trợ dữ liệu phi cấu trúc trong khi ELT thì có
B. Vị trí thực hiện biến đổi dữ liệu (Transformation)
C. ETL chỉ dùng cho dữ liệu nhỏ còn ELT dùng cho dữ liệu lớn
D. ELT không yêu cầu quá trình nạp dữ liệu (Loading)

💡 Lời giải chi tiết:

Trong quy trình ETL, dữ liệu được biến đổi trước khi nạp vào đích, còn trong ELT, dữ liệu được nạp vào kho lưu trữ trước rồi mới tận dụng sức mạnh của kho đó để thực hiện biến đổi. Kết luận Lý giải: Vị trí thực hiện biến đổi dữ liệu (Transformation)

Câu 8: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ dữ liệu có mối quan hệ phức tạp và kết nối chằng chịt như mạng xã hội?

A. Graph Database (Cơ sở dữ liệu đồ thị)
B. Document Store (Lưu trữ tài liệu)
C. Key-Value Store (Lưu trữ khóa-giá trị)
D. Wide Column Store (Lưu trữ cột rộng)

💡 Lời giải chi tiết:

Theo phân tích kỹ thuật, cơ sở dữ liệu đồ thị sử dụng các nút và cạnh để biểu diễn các thực thể và mối quan hệ giữa chúng một cách hiệu quả nhất cho các truy vấn mang tính kết nối. Kết luận Lý giải: Graph Database (Cơ sở dữ liệu đồ thị)

Câu 9: Thành phần nào trong Hadoop chịu trách nhiệm quản lý Metadata (siêu dữ liệu) của toàn bộ hệ thống tệp HDFS?

A. DataNode
B. NameNode
C. TaskTracker
D. JobTracker

💡 Lời giải chi tiết:

Trong kiến trúc Master-Slave của HDFS, NameNode đóng vai trò máy chủ quản trị giữ thông tin về cấu trúc thư mục và vị trí của các khối dữ liệu trên các máy nút. Kết luận Lý giải: NameNode

Câu 10: Trong mô hình MapReduce, giai đoạn nào nằm giữa giai đoạn Map và Reduce để nhóm các cặp 'key-value' có cùng khóa?

A. Giai đoạn Filtering
B. Giai đoạn Shuffle and Sort
C. Giai đoạn Compression
D. Giai đoạn Output Formatting

💡 Lời giải chi tiết:

Theo quy trình vận hành của Hadoop, bước Shuffle and Sort tự động tập hợp tất cả các giá trị đi kèm với cùng một khóa từ các tác vụ Map để chuyển giao đồng nhất cho các tác vụ Reduce. Kết luận Lý giải: Giai đoạn Shuffle and Sort

Câu 11: Tại sao định dạng lưu trữ dạng cột (Columnar Storage) như Apache Parquet lại hiệu quả hơn dạng dòng đối với các truy vấn phân tích (OLAP)?

A. Nó cho phép hệ thống chỉ đọc các cột dữ liệu cần thiết thay vì toàn bộ dòng
B. Nó giúp việc chèn dữ liệu mới vào từng dòng nhanh hơn
C. Nó dễ dàng đọc được bởi các trình soạn thảo văn bản thông thường
D. Nó không yêu cầu nén dữ liệu để tiết kiệm không gian

💡 Lời giải chi tiết:

Dữ liệu dạng cột tối ưu hóa hiệu suất truy vấn phân tích bằng cách giảm thiểu lượng I/O thông qua việc chỉ truy xuất đúng các thuộc tính được yêu cầu trong câu lệnh SQL. Kết luận Lý giải: Nó cho phép hệ thống chỉ đọc các cột dữ liệu cần thiết thay vì toàn bộ dòng

Câu 12: Yếu tố 'Velocity' trong Big Data thường được minh chứng rõ nét nhất qua ứng dụng nào sau đây?

A. Hệ thống phát hiện gian lận thẻ tín dụng trong mili giây
B. Hệ thống lưu trữ hồ sơ thuế hàng năm của chính phủ
C. Thư viện lưu trữ các sách số hóa từ thế kỷ trước
D. Báo cáo doanh thu hàng quý của một tập đoàn lớn

💡 Lời giải chi tiết:

Velocity biểu thị tốc độ dữ liệu được tạo ra và cần được xử lý tức thời, do đó hệ thống phát hiện gian lận là ví dụ điển hình vì đòi hỏi phản hồi ngay khi giao dịch phát sinh. Kết luận Lý giải: Hệ thống phát hiện gian lận thẻ tín dụng trong mili giây

Câu 13: Vai trò chủ chốt của Dữ liệu lớn (Big Data) đối với sự phát triển của Học máy (Machine Learning) hiện nay là gì?

A. Big Data giúp thuật toán chạy nhanh hơn trên máy tính cá nhân
B. Cung cấp khối lượng dữ liệu khổng lồ để huấn luyện các mô hình trở nên chính xác hơn
C. Thay thế hoàn toàn nhu cầu về các nhà toán học trong việc xây dựng mô hình
D. Giảm thiểu sự cần thiết của việc gán nhãn dữ liệu thủ công

💡 Lời giải chi tiết:

Trong thực tế phát triển AI, các mô hình học máy (đặc biệt là Deep Learning) đòi hỏi tập dữ liệu huấn luyện quy mô lớn để học được các đặc trưng phức tạp và đạt độ chính xác cao. Kết luận Lý giải: Cung cấp khối lượng dữ liệu khổng lồ để huấn luyện các mô hình trở nên chính xác hơn

Câu 14: Mục đích chính của Quản trị dữ liệu (Data Governance) trong một dự án Big Data là gì?

A. Tăng tốc độ phần cứng của các máy chủ trong cụm
B. Đảm bảo tính nhất quán, an toàn và tuân thủ các tiêu chuẩn của dữ liệu
C. Chuyển đổi toàn bộ dữ liệu phi cấu trúc thành dữ liệu có cấu trúc
D. Tự động hóa việc viết mã nguồn cho các ứng dụng Spark

💡 Lời giải chi tiết:

Quản trị dữ liệu thiết lập các quy tắc và quy trình để kiểm soát chất lượng, quyền truy cập và bảo mật dữ liệu, giúp tổ chức sử dụng Big Data một cách hiệu quả và đúng luật. Kết luận Lý giải: Đảm bảo tính nhất quán, an toàn và tuân thủ các tiêu chuẩn của dữ liệu

Câu 15: Khái niệm 'Edge Computing' giúp ích gì cho việc xử lý Big Data trong các hệ thống IoT?

A. Tập trung toàn bộ dữ liệu vào một trung tâm dữ liệu duy nhất
B. Xử lý dữ liệu ngay tại nguồn phát sinh để giảm độ trễ và băng thông mạng
C. Loại bỏ hoàn toàn nhu cầu sử dụng điện toán đám mây
D. Tăng dung lượng lưu trữ của các thiết bị cảm biến nhỏ

💡 Lời giải chi tiết:

Điện toán biên thực hiện xử lý sơ bộ dữ liệu gần nơi nó được tạo ra, giúp phản hồi nhanh và giảm tải lượng dữ liệu khổng lồ cần truyền về trung tâm. Kết luận Lý giải: Xử lý dữ liệu ngay tại nguồn phát sinh để giảm độ trễ và băng thông mạng

Câu 16: Dữ liệu nào sau đây được phân loại là dữ liệu phi cấu trúc (Unstructured Data)?

A. Bảng dữ liệu khách hàng trong SQL Server
B. Tập hợp các video trên YouTube và bài đăng trên mạng xã hội
C. Tệp tin CSV chứa thông tin giao dịch ngân hàng
D. Hồ sơ nhân sự định dạng bảng Excel

💡 Lời giải chi tiết:

Theo định nghĩa về cấu trúc dữ liệu, dữ liệu phi cấu trúc là loại không có định dạng hàng và cột cố định, điển hình là video, hình ảnh và các văn bản tự do. Kết luận Lý giải: Tập hợp các video trên YouTube và bài đăng trên mạng xã hội

Câu 17: Thành phần YARN trong hệ sinh thái Hadoop đóng vai trò gì?

A. Chỉ thực hiện chức năng lưu trữ dữ liệu trên đĩa cứng
B. Quản lý tài nguyên của cụm và lập lịch cho các ứng dụng xử lý
C. Là một ngôn ngữ lập trình mới dùng cho Big Data
D. Chức năng bảo mật tường lửa cho mạng nội bộ

💡 Lời giải chi tiết:

YARN (Yet Another Resource Negotiator) tách biệt khả năng quản lý tài nguyên và lập lịch công việc, cho phép nhiều công cụ xử lý khác nhau chạy chung trên một cụm Hadoop. Kết luận Lý giải: Quản lý tài nguyên của cụm và lập lịch cho các ứng dụng xử lý

Câu 18: Apache Hive được tạo ra nhằm mục đích chính là gì?

A. Tăng tốc độ truy cập dữ liệu thời gian thực nhanh hơn HBase
B. Cung cấp giao diện SQL để người dùng dễ dàng truy vấn dữ liệu lưu trên HDFS
C. Lưu trữ dữ liệu đồ thị phức tạp
D. Tự động sửa lỗi phần cứng trong cụm máy chủ

💡 Lời giải chi tiết:

Apache Hive cung cấp một lớp trừu tượng giống như kho dữ liệu, cho phép các lập trình viên sử dụng ngôn ngữ HiveQL (tương tự SQL) để phân tích dữ liệu lớn mà không cần viết mã Java MapReduce phức tạp. Kết luận Lý giải: Cung cấp giao diện SQL để người dùng dễ dàng truy vấn dữ liệu lưu trên HDFS

Câu 19: Trong HDFS, việc mặc định sao lưu mỗi khối dữ liệu (Block) thành 3 bản (Replication Factor = 3) nhằm mục đích gì?

A. Để tăng tốc độ ghi dữ liệu lên gấp 3 lần
B. Đảm bảo tính sẵn sàng và khả năng chịu lỗi khi có máy nút bị hỏng
C. Tiết kiệm dung lượng lưu trữ cho hệ thống
D. Để mã hóa dữ liệu an toàn hơn

💡 Lời giải chi tiết:

Cơ chế nhân bản trong HDFS đảm bảo rằng nếu một hoặc hai máy chủ chứa bản sao bị lỗi, hệ thống vẫn có thể truy xuất dữ liệu từ bản sao còn lại trên máy khác. Kết luận Lý giải: Đảm bảo tính sẵn sàng và khả năng chịu lỗi khi có máy nút bị hỏng

Câu 20: Apache ZooKeeper đóng vai trò gì trong một hệ thống phân tán Big Data?

A. Lưu trữ các tệp tin hình ảnh lớn
B. Điều phối và quản lý cấu hình giữa các dịch vụ trong cụm
C. Thực hiện các thuật toán phân tích thống kê
D. Tạo ra các báo cáo trực quan hóa dữ liệu

💡 Lời giải chi tiết:

ZooKeeper cung cấp dịch vụ điều phối tập trung cho các hệ thống phân tán, giúp duy trì cấu trúc cấu hình, đồng bộ hóa và quản lý tên nhóm nút trong cụm. Kết luận Lý giải: Điều phối và quản lý cấu hình giữa các dịch vụ trong cụm

Câu 21: Ứng dụng phân tích cảm xúc (Sentiment Analysis) trên dữ liệu Big Data thường sử dụng kỹ thuật nào?

A. Nén dữ liệu không mất mát
B. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)
C. Phân mảnh cơ sở dữ liệu (Database Sharding)
D. Tính toán song song các phép toán ma trận

💡 Lời giải chi tiết:

Phân tích cảm xúc dựa vào NLP để hiểu và phân loại thái độ (tích cực, tiêu cực, trung lập) từ các văn bản khổng lồ được thu thập từ người dùng. Kết luận Lý giải: Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)

Câu 22: Kiến trúc Lambda (Lambda Architecture) trong xử lý dữ liệu lớn được thiết kế để cân bằng giữa hai yếu tố nào?

A. Xử lý hàng loạt (Batch layer) và Xử lý tốc độ cao (Speed layer)
B. Lưu trữ giá rẻ và Lưu trữ hiệu năng cao
C. Bảo mật dữ liệu và Truy cập công khai
D. Dữ liệu có cấu trúc và Dữ liệu phi cấu trúc

💡 Lời giải chi tiết:

Kiến trúc Lambda kết hợp Batch layer để đảm bảo tính chính xác toàn diện và Speed layer để cung cấp các kết quả phân tích theo thời gian thực với độ trễ thấp. Kết luận Lý giải: Xử lý hàng loạt (Batch layer) và Xử lý tốc độ cao (Speed layer)

Câu 23: Hiện tượng 'Data Silo' gây ra trở ngại gì lớn nhất cho các tổ chức khi triển khai Big Data?

A. Dữ liệu bị phân mảnh và khó khăn trong việc tích hợp để có cái nhìn tổng thể
B. Làm cho dữ liệu bị xóa một cách ngẫu nhiên
C. Tăng tốc độ truy cập dữ liệu quá mức cần thiết
D. Dữ liệu quá sạch khiến thuật toán không hoạt động hiệu quả

💡 Lời giải chi tiết:

Data Silo là tình trạng dữ liệu bị cô lập trong các bộ phận riêng lẻ, ngăn cản việc chia sẻ và phân tích chéo thông tin để đưa ra các quyết định chiến lược toàn diện. Kết luận Lý giải: Dữ liệu bị phân mảnh và khó khăn trong việc tích hợp để có cái nhìn tổng thể

Câu 24: Tại sao đối tượng RDD (Resilient Distributed Dataset) trong Spark lại có tính chất 'Fault-tolerant' (chịu lỗi)?

A. Vì nó tự động sao chép dữ liệu ra 3 bản trên đĩa cứng
B. Vì nó ghi lại lịch sử các phép biến đổi (Lineage) để tái tạo lại dữ liệu khi cần
C. Vì nó không cho phép dữ liệu bị thay đổi sau khi tạo
D. Vì nó chỉ chạy trên các máy chủ có cấu hình phần cứng đặc biệt

💡 Lời giải chi tiết:

RDD đạt được khả năng chịu lỗi bằng cách theo dõi chuỗi các thao tác (lineage graph) để tính toán lại các phân vùng dữ liệu bị mất từ dữ liệu gốc mà không cần sao lưu vật lý liên tục. Kết luận Lý giải: Vì nó ghi lại lịch sử các phép biến đổi (Lineage) để tái tạo lại dữ liệu khi cần

Câu 25: Khi nào một tổ chức nên ưu tiên sử dụng Graph Database thay vì Relational Database?

A. Khi cần thực hiện các giao dịch kế toán chính xác tuyệt đối
B. Khi trọng tâm của việc phân tích là các mối liên kết và quan hệ giữa các thực thể
C. Khi khối lượng dữ liệu chỉ ở mức vài Gigabyte
D. Khi dữ liệu chỉ bao gồm các con số thống kê đơn giản

💡 Lời giải chi tiết:

Cơ sở dữ liệu đồ thị vượt trội trong việc truy vấn và khám phá các mô hình kết nối phức tạp (như phát hiện rửa tiền hoặc gợi ý bạn bè) vốn rất chậm chạp trên cơ sở dữ liệu quan hệ. Kết luận Lý giải: Khi trọng tâm của việc phân tích là các mối liên kết và quan hệ giữa các thực thể

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 13 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 144 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 161 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 178 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 140 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 157 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Bộ trắc nghiệm 174 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Dữ liệu lớn (BigData) online có đáp án

Kết quả của bạn:

Câu 1: Trong mô hình 5V của Dữ liệu lớn (Big Data), đặc tính 'Veracity' tập trung vào khía cạnh nào?

Câu 2: Hệ thống tệp phân tán Hadoop (HDFS) lưu trữ các tệp lớn bằng cách chia nhỏ chúng thành các phần có kích thước cố định được gọi là gì?

Câu 3: Ưu điểm vượt trội nhất của Apache Spark so với mô hình MapReduce truyền thống trong xử lý dữ liệu là gì?

Câu 4: Đặc điểm chính của mô hình 'Schema-on-read' thường thấy trong các hồ dữ liệu (Data Lake) là gì?

Câu 5: Trong lý thuyết CAP áp dụng cho các hệ thống phân tán, ba yếu tố nào không thể đồng thời đạt được ở mức tối ưu?

Câu 6: Apache Kafka thường được sử dụng trong hệ sinh thái Big Data để giải quyết vấn đề nào?

Câu 7: Sự khác biệt cốt lõi giữa quy trình ETL và ELT trong xử lý dữ liệu lớn là gì?

Câu 8: Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ dữ liệu có mối quan hệ phức tạp và kết nối chằng chịt như mạng xã hội?

Câu 9: Thành phần nào trong Hadoop chịu trách nhiệm quản lý Metadata (siêu dữ liệu) của toàn bộ hệ thống tệp HDFS?

Câu 10: Trong mô hình MapReduce, giai đoạn nào nằm giữa giai đoạn Map và Reduce để nhóm các cặp 'key-value' có cùng khóa?

Câu 11: Tại sao định dạng lưu trữ dạng cột (Columnar Storage) như Apache Parquet lại hiệu quả hơn dạng dòng đối với các truy vấn phân tích (OLAP)?

Câu 12: Yếu tố 'Velocity' trong Big Data thường được minh chứng rõ nét nhất qua ứng dụng nào sau đây?

Câu 13: Vai trò chủ chốt của Dữ liệu lớn (Big Data) đối với sự phát triển của Học máy (Machine Learning) hiện nay là gì?

Câu 14: Mục đích chính của Quản trị dữ liệu (Data Governance) trong một dự án Big Data là gì?

Câu 15: Khái niệm 'Edge Computing' giúp ích gì cho việc xử lý Big Data trong các hệ thống IoT?

Câu 16: Dữ liệu nào sau đây được phân loại là dữ liệu phi cấu trúc (Unstructured Data)?

Câu 17: Thành phần YARN trong hệ sinh thái Hadoop đóng vai trò gì?

Câu 18: Apache Hive được tạo ra nhằm mục đích chính là gì?

Câu 19: Trong HDFS, việc mặc định sao lưu mỗi khối dữ liệu (Block) thành 3 bản (Replication Factor = 3) nhằm mục đích gì?

Câu 20: Apache ZooKeeper đóng vai trò gì trong một hệ thống phân tán Big Data?

Câu 21: Ứng dụng phân tích cảm xúc (Sentiment Analysis) trên dữ liệu Big Data thường sử dụng kỹ thuật nào?

Câu 22: Kiến trúc Lambda (Lambda Architecture) trong xử lý dữ liệu lớn được thiết kế để cân bằng giữa hai yếu tố nào?

Câu 23: Hiện tượng 'Data Silo' gây ra trở ngại gì lớn nhất cho các tổ chức khi triển khai Big Data?

Câu 24: Tại sao đối tượng RDD (Resilient Distributed Dataset) trong Spark lại có tính chất 'Fault-tolerant' (chịu lỗi)?

Câu 25: Khi nào một tổ chức nên ưu tiên sử dụng Graph Database thay vì Relational Database?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top