Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thực hiện việc trích xuất các mẫu tiềm năng từ dữ liệu đã qua xử lý?

A. Tiền xử lý dữ liệu (Data Preprocessing)
B. Khai phá dữ liệu (Data Mining)
C. Biến đổi dữ liệu (Data Transformation)
D. Lựa chọn dữ liệu (Data Selection)

💡 Lời giải chi tiết:

Theo quy trình KDD chuẩn, Data Mining là giai đoạn then chốt sử dụng các thuật toán thông minh để trích xuất các mẫu hoặc mô hình tri thức từ dữ liệu, Kết luận Lý giải Khai phá dữ liệu (Data Mining).

Câu 2: Kỹ thuật nào dưới đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu (missing values) bằng cách thay thế bằng giá trị trung bình của thuộc tính đó?

A. Rời rạc hóa dữ liệu
B. Làm sạch dữ liệu
C. Giảm nhẹ dữ liệu
D. Hợp nhất dữ liệu

💡 Lời giải chi tiết:

Làm sạch dữ liệu bao gồm các kỹ thuật xử lý dữ liệu thiếu, dữ liệu nhiễu và các điểm không nhất quán để nâng cao chất lượng dữ liệu đầu vào, Kết luận Lý giải Làm sạch dữ liệu.

Câu 3: Trong luật kết hợp 'X -> Y', đại lượng nào đo lường tỷ lệ các giao dịch chứa cả X và Y trên tổng số giao dịch?

A. Độ tin cậy (Confidence)
B. Độ nâng (Lift)
C. Độ hỗ trợ (Support)
D. Độ lợi thông tin (Information Gain)

💡 Lời giải chi tiết:

Độ hỗ trợ (Support) phản ánh tần suất xuất hiện đồng thời của tập mục X và Y trong toàn bộ cơ sở dữ liệu giao dịch, Kết luận Lý giải Độ hỗ trợ (Support).

Câu 4: Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?

A. Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến
B. Nếu một tập mục không phổ biến, mọi tập cha của nó vẫn có thể phổ biến
C. Chỉ các tập mục có độ tin cậy cao mới được giữ lại
D. Tất cả các tập mục con của một tập không phổ biến đều là phổ biến

💡 Lời giải chi tiết:

Tính chất Apriori khẳng định rằng mọi tập con phi rỗng của một tập mục phổ biến cũng phải là tập mục phổ biến, giúp loại bỏ sớm các ứng viên không tiềm năng, Kết luận Lý giải Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến.

Câu 5: Trong phân lớp dữ liệu bằng cây quyết định, chỉ số Gini thường được sử dụng nhằm mục đích gì?

A. Đo lường độ tinh khiết (purity) của các nút để chọn thuộc tính phân tách
B. Tính toán khoảng cách giữa các điểm dữ liệu
C. Xác định số lượng cụm tối ưu
D. Giảm số lượng chiều của dữ liệu

💡 Lời giải chi tiết:

Chỉ số Gini đo lường mức độ bất thuần của một tập dữ liệu, từ đó giúp chọn thuộc tính phân tách tốt nhất để tối đa hóa độ tinh khiết tại các nút con, Kết luận Lý giải Đo lường độ tinh khiết (purity) của các nút để chọn thuộc tính phân tách.

Câu 6: Hệ số Lift trong luật kết hợp 'X -> Y' có giá trị bằng 1 cho biết điều gì về mối quan hệ giữa X và Y?

A. X và Y có mối quan hệ phụ thuộc tích cực
B. X và Y độc lập thống kê với nhau
C. X luôn xuất hiện khi có Y
D. X và Y có mối quan hệ phụ thuộc tiêu cực

💡 Lời giải chi tiết:

Khi giá trị Lift bằng 1, sự xuất hiện của tập mục X không ảnh hưởng đến xác suất xuất hiện của tập mục Y, chứng tỏ chúng độc lập với nhau, Kết luận Lý giải X và Y độc lập thống kê với nhau.

Câu 7: Thuật toán gom cụm K-means thuộc loại kỹ thuật gom cụm nào sau đây?

A. Gom cụm phân cấp (Hierarchical Clustering)
B. Gom cụm dựa trên mật độ (Density-based Clustering)
C. Gom cụm phân hoạch (Partitioning Clustering)
D. Gom cụm dựa trên lưới (Grid-based Clustering)

💡 Lời giải chi tiết:

K-means là thuật toán điển hình của phương pháp phân hoạch, thực hiện chia tập dữ liệu thành K phần riêng biệt sao cho mỗi phần đại diện cho một cụm, Kết luận Lý giải Gom cụm phân hoạch (Partitioning Clustering).

Câu 8: Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?

A. Mô hình quá đơn giản không học được quy luật của dữ liệu
B. Mô hình quá phức tạp và khớp cả với nhiễu của dữ liệu huấn luyện
C. Dữ liệu huấn luyện quá ít so với dữ liệu kiểm thử
D. Tất cả các thuộc tính đều là thuộc tính phân lớp

💡 Lời giải chi tiết:

Overfitting xảy ra khi mô hình học quá chi tiết các đặc điểm riêng biệt và nhiễu trong tập huấn luyện dẫn đến khả năng tổng quát hóa kém trên dữ liệu mới, Kết luận Lý giải Mô hình quá phức tạp và khớp cả với nhiễu của dữ liệu huấn luyện.

Câu 9: Phương pháp 'Min-max normalization' biến đổi giá trị v của thuộc tính A sang v' trong khoảng [0, 1] theo công thức nào (với minA và maxA là giá trị nhỏ nhất và lớn nhất của A)?

A. v' = (v - minA) / (maxA - minA)
B. v' = (v - maxA) / (maxA - minA)
C. v' = v / (maxA - minA)
D. v' = (v - meanA) / độ lệch chuẩn

💡 Lời giải chi tiết:

Công thức chuẩn hóa Min-max tính toán giá trị mới bằng cách lấy hiệu của giá trị gốc với giá trị nhỏ nhất chia cho khoảng biến thiên của thuộc tính, Kết luận Lý giải v' = (v - minA) / (maxA - minA).

Câu 10: Trong thuật toán K-means, việc lựa chọn giá trị K (số lượng cụm) ban đầu thường dựa trên phương pháp phổ biến nào?

A. Phương pháp khuỷu tay (Elbow method)
B. Phương pháp Entropy
C. Phương pháp Naive Bayes
D. Phương pháp hồi quy tuyến tính

💡 Lời giải chi tiết:

Phương pháp Elbow xác định số lượng cụm K tối ưu bằng cách quan sát điểm mà tại đó sự giảm của tổng bình phương sai số trong cụm bắt đầu chậm lại đáng kể, Kết luận Lý giải Phương pháp khuỷu tay (Elbow method).

Câu 11: Thuật toán phân lớp Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

A. Các thuộc tính có mối quan hệ tương quan mạnh mẽ với nhau
B. Các thuộc tính độc lập có điều kiện với nhau khi biết lớp
C. Tất cả các thuộc tính phải có định dạng số
D. Dữ liệu không được phép có giá trị nhiễu

💡 Lời giải chi tiết:

Naive Bayes giả định rằng sự hiện diện của một thuộc tính cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ thuộc tính nào khác, Kết luận Lý giải Các thuộc tính độc lập có điều kiện với nhau khi biết lớp.

Câu 12: Kỹ thuật 'Pruning' (Tỉa nhánh) trong xây dựng cây quyết định được sử dụng để làm gì?

A. Tăng độ sâu của cây để đạt độ chính xác 100% trên tập huấn luyện
B. Giảm độ phức tạp của cây và hạn chế hiện tượng quá khớp
C. Thêm các nút mới vào cây để xử lý dữ liệu thiếu
D. Chuyển đổi cây quyết định thành các luật kết hợp

💡 Lời giải chi tiết:

Tỉa nhánh giúp loại bỏ các phần của cây phản ánh nhiễu hoặc các chi tiết quá cụ thể, từ đó nâng cao khả năng phân lớp chính xác trên dữ liệu chưa biết, Kết luận Lý giải Giảm độ phức tạp của cây và hạn chế hiện tượng quá khớp.

Câu 13: Ma trận nhầm lẫn (Confusion Matrix) trong bài toán phân lớp nhị phân cung cấp các thông tin nào sau đây?

A. Số lượng cụm và tâm cụm
B. Các chỉ số TP, TN, FP, FN
C. Độ hỗ trợ và độ tin cậy của luật
D. Trọng số của các nút trong mạng nơ-ron

💡 Lời giải chi tiết:

Ma trận nhầm lẫn thống kê các kết quả dự báo đúng (True Positive, True Negative) và dự báo sai (False Positive, False Negative) của mô hình phân lớp, Kết luận Lý giải Các chỉ số TP, TN, FP, FN.

Câu 14: Trong phân cấp gom cụm (Hierarchical Clustering), phương pháp 'Single-linkage' định nghĩa khoảng cách giữa hai cụm là gì?

A. Khoảng cách giữa hai điểm gần nhau nhất của hai cụm
B. Khoảng cách giữa hai điểm xa nhau nhất của hai cụm
C. Khoảng cách trung bình giữa tất cả các cặp điểm của hai cụm
D. Khoảng cách giữa hai trọng tâm của hai cụm

💡 Lời giải chi tiết:

Single-linkage (liên kết đơn) xác định khoảng cách cụm dựa trên cặp phần tử có khoảng cách nhỏ nhất thuộc hai cụm khác nhau, Kết luận Lý giải Khoảng cách giữa hai điểm gần nhau nhất của hai cụm.

Câu 15: Thuật toán K-Nearest Neighbors (k-NN) là một ví dụ điển hình của phương pháp học nào?

A. Học lười (Lazy learning)
B. Học tích cực (Eager learning)
C. Học không giám sát (Unsupervised learning)
D. Học tăng cường (Reinforcement learning)

💡 Lời giải chi tiết:

k-NN được gọi là học lười vì nó không xây dựng mô hình phân lớp tường minh từ trước mà chỉ thực hiện tính toán khi có dữ liệu cần dự báo, Kết luận Lý giải Học lười (Lazy learning).

Câu 16: Khai phá dữ liệu Web (Web Mining) được chia thành ba lĩnh vực chính là gì?

A. Web content, Web structure, Web usage mining
B. Web text, Web image, Web video mining
C. Web client, Web server, Web database mining
D. Web search, Web link, Web log mining

💡 Lời giải chi tiết:

Ba nhánh chính của khai phá Web bao gồm khai phá nội dung, khai phá cấu trúc liên kết và khai phá nhật ký truy cập của người dùng, Kết luận Lý giải Web content, Web structure, Web usage mining.

Câu 17: Đại lượng 'Entropy' trong lý thuyết thông tin dùng để đo lường điều gì trong dữ liệu?

A. Độ chính xác của mô hình
B. Mức độ hỗn loạn hoặc tính không chắc chắn của thông tin
C. Khoảng cách Euclid giữa các mẫu
D. Thời gian chạy của thuật toán

💡 Lời giải chi tiết:

Entropy là thước đo độ không tinh khiết hoặc tính ngẫu nhiên của các mẫu dữ liệu, được sử dụng để tính độ lợi thông tin khi xây dựng cây quyết định, Kết luận Lý giải Mức độ hỗn loạn hoặc tính không chắc chắn của thông tin.

Câu 18: Phân tích thành phần chính (Principal Component Analysis - PCA) thường được sử dụng trong bước nào của khai phá dữ liệu?

A. Gom cụm dữ liệu
B. Giảm chiều dữ liệu (Dimension reduction)
C. Khai phá luật kết hợp
D. Làm sạch nhiễu

💡 Lời giải chi tiết:

PCA là kỹ thuật biến đổi dữ liệu sang một không gian mới có số chiều ít hơn nhưng vẫn giữ được tối đa phương sai của dữ liệu gốc, Kết luận Lý giải Giảm chiều dữ liệu (Dimension reduction).

Câu 19: Trong gom cụm dựa trên mật độ DBSCAN, một điểm được gọi là 'Core point' (điểm lõi) nếu thỏa mãn điều kiện nào?

A. Nó nằm ở biên của một cụm
B. Số lượng điểm lân cận trong bán kính Eps lớn hơn hoặc bằng ngưỡng MinPts
C. Nó không có bất kỳ điểm lân cận nào
D. Nó là trung bình cộng của tất cả các điểm trong tập dữ liệu

💡 Lời giải chi tiết:

DBSCAN định nghĩa điểm lõi là điểm có mật độ lân cận cao, vượt qua một ngưỡng số lượng điểm tối thiểu xác định trước, Kết luận Lý giải Số lượng điểm lân cận trong bán kính Eps lớn hơn hoặc bằng ngưỡng MinPts.

Câu 20: Chỉ số F1-score là giá trị trung bình điều hòa (harmonic mean) của hai đại lượng nào?

A. Độ chính xác (Precision) và Độ triệu hồi (Recall)
B. Độ hỗ trợ (Support) và Độ tin cậy (Confidence)
C. Tỷ lệ lỗi (Error rate) và Độ đặc hiệu (Specificity)
D. Độ nhạy (Sensitivity) và Độ chính xác tổng quát (Accuracy)

💡 Lời giải chi tiết:

F1-score kết hợp cả Precision và Recall để tạo ra một thước đo duy nhất giúp đánh giá hiệu năng mô hình phân lớp, đặc biệt khi dữ liệu mất cân bằng, Kết luận Lý giải Độ chính xác (Precision) và Độ triệu hồi (Recall).

Câu 21: Mô hình phân lớp Random Forest hoạt động dựa trên nguyên lý nào?

A. Sử dụng một cây quyết định duy nhất với độ sâu tối đa
B. Kết hợp kết quả dự báo của nhiều cây quyết định độc lập (Ensemble learning)
C. Sử dụng mạng nơ-ron để tối ưu hóa trọng số cây
D. Phân chia dữ liệu dựa trên khoảng cách đến tâm cụm

💡 Lời giải chi tiết:

Random Forest tạo ra một 'khu rừng' gồm nhiều cây quyết định và đưa ra kết quả cuối cùng dựa trên cơ chế bỏ phiếu đa số hoặc trung bình, Kết luận Lý giải Kết hợp kết quả dự báo của nhiều cây quyết định độc lập (Ensemble learning).

Câu 22: Thuật toán FP-Growth có ưu điểm chính nào so với thuật toán Apriori trong khai phá luật kết hợp?

A. Không cần quét cơ sở dữ liệu nhiều lần
B. Dễ cài đặt và hiểu hơn Apriori
C. Chỉ làm việc được với dữ liệu dạng số
D. Tạo ra ít luật kết hợp hơn nhưng chất lượng hơn

💡 Lời giải chi tiết:

FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu, giúp khai phá các tập mục phổ biến mà chỉ cần quét cơ sở dữ liệu 2 lần, nhanh hơn Apriori, Kết luận Lý giải Không cần quét cơ sở dữ liệu nhiều lần.

Câu 23: Kỹ thuật 'Binning' (chia giỏ) thường được sử dụng cho mục đích nào trong tiền xử lý dữ liệu?

A. Làm mượt dữ liệu để giảm nhiễu và rời rạc hóa dữ liệu
B. Tăng số lượng thuộc tính của dữ liệu
C. Xóa bỏ hoàn toàn các bản ghi có dữ liệu thiếu
D. Mã hóa dữ liệu văn bản thành dữ liệu nhị phân

💡 Lời giải chi tiết:

Binning là phương pháp làm mượt dữ liệu bằng cách chia các giá trị vào các khoảng (giỏ) và thay thế bằng giá trị đại diện của giỏ đó, Kết luận Lý giải Làm mượt dữ liệu để giảm nhiễu và rời rạc hóa dữ liệu.

Câu 24: Trong mô hình CRISP-DM, bước đầu tiên cần thực hiện là gì?

A. Thấu hiểu dữ liệu (Data Understanding)
B. Thấu hiểu kinh doanh/bài toán (Business Understanding)
C. Chuẩn bị dữ liệu (Data Preparation)
D. Mô hình hóa (Modeling)

💡 Lời giải chi tiết:

Quy trình CRISP-DM bắt đầu bằng việc xác định mục tiêu kinh doanh và yêu cầu của dự án trước khi đi sâu vào dữ liệu, Kết luận Lý giải Thấu hiểu kinh doanh/bài toán (Business Understanding).

Câu 25: Đặc điểm nào là nhược điểm chính của thuật toán k-NN?

A. Độ phức tạp tính toán cao tại thời điểm dự báo khi tập dữ liệu lớn
B. Khó xử lý các bài toán phân lớp nhiều lớp
C. Yêu cầu phải xây dựng một mô hình toán học phức tạp
D. Không thể hoạt động nếu dữ liệu có nhiễu

💡 Lời giải chi tiết:

Vì k-NN cần tính khoảng cách từ điểm mới đến tất cả các điểm trong tập huấn luyện nên nó rất tốn tài nguyên tính toán khi dữ liệu lớn, Kết luận Lý giải Độ phức tạp tính toán cao tại thời điểm dự báo khi tập dữ liệu lớn.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 223 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 185 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 202 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 219 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 236 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 253 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thực hiện việc trích xuất các mẫu tiềm năng từ dữ liệu đã qua xử lý?

Câu 2: Kỹ thuật nào dưới đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu (missing values) bằng cách thay thế bằng giá trị trung bình của thuộc tính đó?

Câu 3: Trong luật kết hợp 'X -> Y', đại lượng nào đo lường tỷ lệ các giao dịch chứa cả X và Y trên tổng số giao dịch?

Câu 4: Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?

Câu 5: Trong phân lớp dữ liệu bằng cây quyết định, chỉ số Gini thường được sử dụng nhằm mục đích gì?

Câu 6: Hệ số Lift trong luật kết hợp 'X -> Y' có giá trị bằng 1 cho biết điều gì về mối quan hệ giữa X và Y?

Câu 7: Thuật toán gom cụm K-means thuộc loại kỹ thuật gom cụm nào sau đây?

Câu 8: Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?

Câu 9: Phương pháp 'Min-max normalization' biến đổi giá trị v của thuộc tính A sang v' trong khoảng [0, 1] theo công thức nào (với minA và maxA là giá trị nhỏ nhất và lớn nhất của A)?

Câu 10: Trong thuật toán K-means, việc lựa chọn giá trị K (số lượng cụm) ban đầu thường dựa trên phương pháp phổ biến nào?

Câu 11: Thuật toán phân lớp Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

Câu 12: Kỹ thuật 'Pruning' (Tỉa nhánh) trong xây dựng cây quyết định được sử dụng để làm gì?

Câu 13: Ma trận nhầm lẫn (Confusion Matrix) trong bài toán phân lớp nhị phân cung cấp các thông tin nào sau đây?

Câu 14: Trong phân cấp gom cụm (Hierarchical Clustering), phương pháp 'Single-linkage' định nghĩa khoảng cách giữa hai cụm là gì?

Câu 15: Thuật toán K-Nearest Neighbors (k-NN) là một ví dụ điển hình của phương pháp học nào?

Câu 16: Khai phá dữ liệu Web (Web Mining) được chia thành ba lĩnh vực chính là gì?

Câu 17: Đại lượng 'Entropy' trong lý thuyết thông tin dùng để đo lường điều gì trong dữ liệu?

Câu 18: Phân tích thành phần chính (Principal Component Analysis - PCA) thường được sử dụng trong bước nào của khai phá dữ liệu?

Câu 19: Trong gom cụm dựa trên mật độ DBSCAN, một điểm được gọi là 'Core point' (điểm lõi) nếu thỏa mãn điều kiện nào?

Câu 20: Chỉ số F1-score là giá trị trung bình điều hòa (harmonic mean) của hai đại lượng nào?

Câu 21: Mô hình phân lớp Random Forest hoạt động dựa trên nguyên lý nào?

Câu 22: Thuật toán FP-Growth có ưu điểm chính nào so với thuật toán Apriori trong khai phá luật kết hợp?

Câu 23: Kỹ thuật 'Binning' (chia giỏ) thường được sử dụng cho mục đích nào trong tiền xử lý dữ liệu?

Câu 24: Trong mô hình CRISP-DM, bước đầu tiên cần thực hiện là gì?

Câu 25: Đặc điểm nào là nhược điểm chính của thuật toán k-NN?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top