Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình Khám phá Tri thức từ Dữ liệu (KDD), bước nào thường chiếm nhiều thời gian và công sức nhất?

A. Giải thích và đánh giá kết quả.
B. Lựa chọn thuật toán khai phá dữ liệu.
C. Tiền xử lý và làm sạch dữ liệu.
D. Lưu trữ dữ liệu vào kho dữ liệu.

💡 Lời giải chi tiết:

Theo phân tích phổ biến, giai đoạn tiền xử lý và làm sạch dữ liệu thường chiếm tới 60-80% thời gian của dự án vì dữ liệu thực tế thường nhiễu, thiếu và không nhất quán. Kết luận Lý giải: Tiền xử lý và làm sạch dữ liệu.

Câu 2: Mục tiêu chính của việc chuẩn hóa dữ liệu (Data Normalization) bằng phương pháp 'Min-Max' là gì?

A. Xóa bỏ hoàn toàn các giá trị ngoại lệ (outliers) khỏi tập dữ liệu.
B. Chuyển đổi các giá trị về một khoảng xác định, thường là từ 0 đến 1.
C. Giảm số lượng thuộc tính trong tập dữ liệu để tăng tốc độ tính toán.
D. Mã hóa các thuộc tính định danh thành các giá trị số.

💡 Lời giải chi tiết:

Phương pháp Min-Max thực hiện biến đổi tuyến tính để đưa dữ liệu về một thang đo đồng nhất, giúp các thuật toán dựa trên khoảng cách không bị chi phối bởi các thuộc tính có biên độ lớn. Kết luận Lý giải: Chuyển đổi các giá trị về một khoảng xác định, thường là từ 0 đến 1.

Câu 3: Thuật toán K-Nearest Neighbors (KNN) thuộc nhóm phương pháp khai phá dữ liệu nào sau đây?

A. Phân lớp (Classification) dựa trên học có giám sát.
B. Phân cụm (Clustering) dựa trên học không giám sát.
C. Khai phá luật kết hợp (Association Rule Mining).
D. Phân tích hồi quy (Regression Analysis).

💡 Lời giải chi tiết:

KNN là một thuật toán học có giám sát dùng để gán nhãn cho đối tượng mới dựa trên nhãn của k đối tượng gần nhất trong tập huấn luyện. Kết luận Lý giải: Phân lớp (Classification) dựa trên học có giám sát.

Câu 4: Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập mục tiêu được hiểu là gì?

A. Tỷ lệ các giao dịch chứa tập mục tiêu đó trên tổng số giao dịch.
B. Xác suất xuất hiện mục tiêu B khi đã biết sự xuất hiện của mục tiêu A.
C. Độ đo mức độ tin cậy của một quy luật rút ra từ dữ liệu.
D. Số lượng tối đa các mặt hàng có thể xuất hiện trong một hóa đơn.

💡 Lời giải chi tiết:

Độ hỗ trợ đo lường tần suất xuất hiện phổ biến của một tập hợp các mục tiêu trong toàn bộ cơ sở dữ liệu giao dịch. Kết luận Lý giải: Tỷ lệ các giao dịch chứa tập mục tiêu đó trên tổng số giao dịch.

Câu 5: Kỹ thuật PCA (Principal Component Analysis) thường được ứng dụng để giải quyết vấn đề gì?

A. Tăng số lượng thuộc tính để mô tả dữ liệu chi tiết hơn.
B. Phát hiện các phần tử ngoại lệ trong tập dữ liệu đa chiều.
C. Giảm chiều dữ liệu bằng cách tạo ra các biến mới không tương quan.
D. Dự báo giá trị liên tục của biến mục tiêu.

💡 Lời giải chi tiết:

PCA là một kỹ thuật thống kê giúp giảm số lượng biến trong khi vẫn giữ lại tối đa lượng thông tin (phương sai) của dữ liệu gốc. Kết luận Lý giải: Giảm chiều dữ liệu bằng cách tạo ra các biến mới không tương quan.

Câu 6: Đặc điểm chính để phân biệt giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?

A. Phân lớp dùng cho dữ liệu số, phân cụm dùng cho dữ liệu văn bản.
B. Phân lớp cần dữ liệu có nhãn mục tiêu, phân cụm thì không.
C. Phân cụm luôn chính xác hơn phân lớp trong mọi tình huống.
D. Phân lớp là học không giám sát, phân cụm là học có giám sát.

💡 Lời giải chi tiết:

Phân lớp là quá trình học từ các ví dụ đã biết nhãn (supervised), trong khi phân cụm nhóm các đối tượng dựa trên sự tương đồng mà không cần nhãn trước (unsupervised). Kết luận Lý giải: Phân lớp cần dữ liệu có nhãn mục tiêu, phân cụm thì không.

Câu 7: Trong cây quyết định (Decision Tree), hiện tượng 'Overfitting' (Quá khớp) xảy ra khi nào?

A. Mô hình quá đơn giản nên không học được xu hướng của dữ liệu.
B. Dữ liệu huấn luyện có quá ít thuộc tính để phân loại.
C. Mô hình học quá chi tiết cả nhiễu trong tập huấn luyện, làm giảm khả năng dự báo dữ liệu mới.
D. Cây quyết định có độ sâu quá thấp.

💡 Lời giải chi tiết:

Overfitting xảy ra khi cây quyết định được phát triển quá phức tạp, dẫn đến việc nắm bắt cả những biến động ngẫu nhiên và nhiễu thay vì quy luật tổng quát. Kết luận Lý giải: Mô hình học quá chi tiết cả nhiễu trong tập huấn luyện, làm giảm khả năng dự báo dữ liệu mới.

Câu 8: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính?

A. Các thuộc tính phải có mối tương quan chặt chẽ với nhau.
B. Các thuộc tính độc lập có điều kiện với nhau khi biết lớp mục tiêu.
C. Dữ liệu phải tuân theo phân phối chuẩn tuyệt đối.
D. Tất cả các thuộc tính phải là dạng định lượng (số).

💡 Lời giải chi tiết:

Giả định 'ngây ngô' (naive) của thuật toán này là sự hiện diện của một thuộc tính cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ thuộc tính nào khác. Kết luận Lý giải: Các thuộc tính độc lập có điều kiện với nhau khi biết lớp mục tiêu.

Câu 9: Ưu điểm nổi bật nhất của thuật toán DBSCAN so với K-means trong phân cụm là gì?

A. Cần phải xác định trước số lượng cụm K.
B. Tốc độ tính toán nhanh hơn đối với tập dữ liệu cực lớn.
C. Có khả năng phát hiện các cụm có hình dạng bất kỳ và loại bỏ nhiễu.
D. Luôn hội tụ về một kết quả tối ưu toàn cục duy nhất.

💡 Lời giải chi tiết:

DBSCAN dựa trên mật độ để phân cụm, cho phép nó tìm ra các cụm hình dạng phức tạp và tự động nhận diện các điểm dữ liệu thưa thớt là nhiễu. Kết luận Lý giải: Có khả năng phát hiện các cụm có hình dạng bất kỳ và loại bỏ nhiễu.

Câu 10: Chỉ số F1-score là giá trị trung bình nào giữa Precision (Độ chính xác) và Recall (Độ triệu hồi)?

A. Trung bình cộng (Arithmetic Mean).
B. Trung bình điều hòa (Harmonic Mean).
C. Trung bình nhân (Geometric Mean).
D. Giá trị lớn nhất giữa hai chỉ số.

💡 Lời giải chi tiết:

Trung bình điều hòa được sử dụng cho F1-score để đảm bảo rằng nếu một trong hai giá trị Precision hoặc Recall rất thấp, chỉ số F1 sẽ bị kéo xuống thấp theo. Kết luận Lý giải: Trung bình điều hòa (Harmonic Mean).

Câu 11: Trong thuật toán Apriori, nguyên lý 'tỉa nhánh' (pruning) dựa trên tính chất nào?

A. Mọi tập con của một tập mục tiêu phổ biến cũng phải là phổ biến.
B. Mọi tập siêu của một tập mục tiêu phổ biến cũng phải là phổ biến.
C. Chỉ những tập có độ hỗ trợ thấp mới được giữ lại.
D. Các tập mục tiêu không phổ biến sẽ sinh ra các tập siêu phổ biến.

💡 Lời giải chi tiết:

Tính chất đơn điệu của độ hỗ trợ khẳng định rằng nếu một tập hợp không đạt ngưỡng phổ biến, thì không một tập cha nào của nó có thể phổ biến, giúp giảm không gian tìm kiếm. Kết luận Lý giải: Mọi tập con của một tập mục tiêu phổ biến cũng phải là phổ biến.

Câu 12: Mục đích của việc sử dụng 'Cross-validation' (Kiểm chứng chéo) là gì?

A. Để tăng kích thước của tập dữ liệu huấn luyện.
B. Để đánh giá khả năng tổng quát hóa của mô hình và tránh sai số do chia dữ liệu.
C. Để nén dữ liệu giúp tiết kiệm bộ nhớ lưu trữ.
D. Để tự động chọn lựa các thuộc tính quan trọng nhất.

💡 Lời giải chi tiết:

Bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện/kiểm tra, cross-validation giúp ước lượng khách quan hiệu suất của mô hình trên dữ liệu chưa biết. Kết luận Lý giải: Để đánh giá khả năng tổng quát hóa của mô hình và tránh sai số do chia dữ liệu.

Câu 13: Trong khai phá dữ liệu văn bản (Text Mining), bước 'Stop words removal' có tác dụng gì?

A. Loại bỏ các từ có tần suất xuất hiện quá thấp trong văn bản.
B. Loại bỏ các từ phổ biến nhưng mang ít giá trị phân biệt như 'và', 'là', 'của'.
C. Chuyển các từ về dạng gốc (ví dụ: 'running' thành 'run').
D. Sửa lỗi chính tả tự động trong các tài liệu.

💡 Lời giải chi tiết:

Loại bỏ các từ dừng giúp giảm nhiễu và kích thước không gian vector, tập trung vào các từ mang nội dung ý nghĩa của văn bản. Kết luận Lý giải: Loại bỏ các từ phổ biến nhưng mang ít giá trị phân biệt như 'và', 'là', 'của'.

Câu 14: Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ biểu diễn nào sau đây?

A. Biểu đồ tán xạ (Scatter Plot).
B. Cây phân cấp (Dendrogram).
C. Đồ thị mạng lưới (Network Graph).
D. Biểu đồ hộp (Box Plot).

💡 Lời giải chi tiết:

Dendrogram minh họa quá trình lồng ghép hoặc chia tách các cụm theo từng bước, cho phép người dùng quan sát mối quan hệ giữa các đối tượng ở các mức độ chi tiết khác nhau. Kết luận Lý giải: Cây phân cấp (Dendrogram).

Câu 15: Tham số 'Lift' trong luật kết hợp A -> B lớn hơn 1 có ý nghĩa gì?

A. Sự xuất hiện của A và B là độc lập với nhau.
B. và B có mối tương quan âm (A xuất hiện làm giảm khả năng xuất hiện B).
C. và B có mối tương quan dương (A xuất hiện làm tăng khả năng xuất hiện B).
D. Luật kết hợp này không có giá trị thống kê.

💡 Lời giải chi tiết:

Lift đo lường mức độ phụ thuộc giữa hai vế của luật; giá trị lớn hơn 1 cho thấy hai tập mục tiêu xuất hiện cùng nhau nhiều hơn mức ngẫu nhiên. Kết luận Lý giải: A và B có mối tương quan dương (A xuất hiện làm tăng khả năng xuất hiện B).

Câu 16: Phương pháp 'Entropy' thường được sử dụng trong cây quyết định để làm gì?

A. Tính toán độ sâu tối đa của cây.
B. Đo lường độ không thuần nhất (impurity) của dữ liệu tại một nút.
C. Xác định số lượng lá tối thiểu cho mỗi nhánh.
D. Dự báo sai số của mô hình trên tập kiểm tra.

💡 Lời giải chi tiết:

Entropy là một đại lượng trong lý thuyết thông tin giúp xác định cách phân chia dữ liệu sao cho các nút con trở nên thuần khiết nhất có thể. Kết luận Lý giải: Đo lường độ không thuần nhất (impurity) của dữ liệu tại một nút.

Câu 17: Kỹ thuật 'Bagging' (như trong Random Forest) giúp cải thiện mô hình bằng cách nào?

A. Xây dựng các mô hình tuần tự, mô hình sau sửa lỗi cho mô hình trước.
B. Kết hợp dự báo từ nhiều mô hình độc lập được huấn luyện trên các mẫu dữ liệu khác nhau.
C. Sử dụng một mô hình duy nhất nhưng với số lượng thuộc tính lớn nhất.
D. Chỉ lấy mẫu dữ liệu không có sự lặp lại (sampling without replacement).

💡 Lời giải chi tiết:

Bagging (Bootstrap Aggregating) giảm phương sai của mô hình bằng cách lấy trung bình kết quả từ nhiều cây quyết định được xây dựng trên các mẫu bootstrap khác nhau. Kết luận Lý giải: Kết hợp dự báo từ nhiều mô hình độc lập được huấn luyện trên các mẫu dữ liệu khác nhau.

Câu 18: Trong hệ thống gợi ý (Recommender Systems), kỹ thuật 'Collaborative Filtering' dựa trên yếu tố nào?

A. Các đặc điểm nội dung của chính sản phẩm đó.
B. Sở thích và hành vi của những người dùng tương tự.
C. Giá cả và thời gian ra mắt của sản phẩm.
D. Các từ khóa được mô tả trong hồ sơ cá nhân người dùng.

💡 Lời giải chi tiết:

Lọc cộng tác giả định rằng nếu hai người dùng có cùng ý kiến về một số mục trong quá khứ, họ sẽ có xu hướng đồng ý với nhau trong tương lai. Kết luận Lý giải: Sở thích và hành vi của những người dùng tương tự.

Câu 19: Chỉ số Silhouette Coefficient được dùng để đánh giá kết quả của nhiệm vụ nào?

A. Đánh giá độ chính xác của mô hình phân lớp.
B. Đo lường chất lượng của các cụm trong phân cụm dữ liệu.
C. Tính toán độ tin cậy của các luật kết hợp.
D. Xác định mức độ hội tụ của thuật toán học sâu.

💡 Lời giải chi tiết:

Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của nó so với các cụm khác, giúp xác định số lượng cụm tối ưu. Kết luận Lý giải: Đo lường chất lượng của các cụm trong phân cụm dữ liệu.

Câu 20: Thế nào là một 'Outlier' (Giá trị ngoại lệ) trong tập dữ liệu?

A. Một giá trị bị thiếu trong quá trình thu thập dữ liệu.
B. Một giá trị xuất hiện thường xuyên nhất trong tập dữ liệu.
C. Một quan sát có sự khác biệt đáng kể so với phần lớn các quan sát khác.
D. Một biến mục tiêu cần được dự báo bởi mô hình.

💡 Lời giải chi tiết:

Ngoại lệ là những điểm dữ liệu không tuân theo quy luật chung của tập dữ liệu và có thể chứa thông tin quan trọng hoặc chỉ đơn giản là nhiễu. Kết luận Lý giải: Một quan sát có sự khác biệt đáng kể so với phần lớn các quan sát khác.

Câu 21: Mạng nơ-ron nhân tạo (ANN) cập nhật trọng số thông qua thuật toán nào sau đây?

A. Lan truyền ngược (Backpropagation).
B. Tìm kiếm theo chiều sâu (DFS).
C. Thuật toán tham lam (Greedy).
D. Phân chia và trị (Divide and Conquer).

💡 Lời giải chi tiết:

Backpropagation tính toán gradient của hàm mất mát và lan truyền lỗi từ đầu ra về đầu vào để điều chỉnh trọng số nhằm tối thiểu hóa sai số. Kết luận Lý giải: Lan truyền ngược (Backpropagation).

Câu 22: Trong Ma trận nhầm lẫn (Confusion Matrix), 'False Positive' (Dương tính giả) nghĩa là gì?

A. Mô hình dự báo là âm tính nhưng thực tế là dương tính.
B. Mô hình dự báo là dương tính và thực tế cũng là dương tính.
C. Mô hình dự báo là dương tính nhưng thực tế là âm tính.
D. Mô hình dự báo là âm tính và thực tế cũng là âm tính.

💡 Lời giải chi tiết:

Dương tính giả xảy ra khi mô hình đưa ra cảnh báo hoặc phân loại vào lớp mục tiêu trong khi thực tế đối tượng đó không thuộc lớp đó (Sai lầm loại I). Kết luận Lý giải: Mô hình dự báo là dương tính nhưng thực tế là âm tính.

Câu 23: Web Usage Mining tập trung vào việc khai phá thông tin gì?

A. Nội dung văn bản và hình ảnh trên các trang web.
B. Cấu trúc liên kết giữa các trang web thông qua Hyperlinks.
C. Nhật ký truy cập (Logs) để hiểu hành vi duyệt web của người dùng.
D. Mã nguồn HTML và các tập tin cấu hình server.

💡 Lời giải chi tiết:

Khai phá cách sử dụng web giúp các nhà quản trị hiểu rõ lộ trình di chuyển và thói quen của khách hàng trên website để tối ưu hóa giao diện. Kết luận Lý giải: Nhật ký truy cập (Logs) để hiểu hành vi duyệt web của người dùng.

Câu 24: Tại sao cần thực hiện 'Feature Selection' (Chọn lọc thuộc tính) trước khi huấn luyện mô hình?

A. Để đảm bảo dữ liệu không còn bất kỳ giá trị số nào.
B. Để loại bỏ các thuộc tính dư thừa hoặc không liên quan, giúp giảm độ phức tạp.
C. Để làm cho mô hình học thuộc lòng dữ liệu huấn luyện nhanh hơn.
D. Để tăng cường số lượng biến đầu vào cho mô hình.

💡 Lời giải chi tiết:

Việc giữ lại các thuộc tính quan trọng nhất giúp cải thiện độ chính xác, giảm thời gian tính toán và hạn chế hiện tượng quá khớp. Kết luận Lý giải: Để loại bỏ các thuộc tính dư thừa hoặc không liên quan, giúp giảm độ phức tạp.

Câu 25: Trong thuật toán K-means, việc chọn vị trí các tâm cụm (centroids) ban đầu có ảnh hưởng như thế nào?

A. Không ảnh hưởng gì vì thuật toán luôn tìm được tối ưu toàn cục.
B. Có thể dẫn đến việc thuật toán hội tụ về các tối ưu cục bộ khác nhau.
C. Chỉ ảnh hưởng đến định dạng hiển thị của các cụm.
D. Làm cho thuật toán không bao giờ kết thúc.

💡 Lời giải chi tiết:

K-means rất nhạy cảm với khởi tạo ban đầu, do đó các tâm cụm khác nhau có thể dẫn đến các kết quả phân cụm khác nhau. Kết luận Lý giải: Có thể dẫn đến việc thuật toán hội tụ về các tối ưu cục bộ khác nhau.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 253 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 270 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 287 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 104 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 121 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 138 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình Khám phá Tri thức từ Dữ liệu (KDD), bước nào thường chiếm nhiều thời gian và công sức nhất?

Câu 2: Mục tiêu chính của việc chuẩn hóa dữ liệu (Data Normalization) bằng phương pháp 'Min-Max' là gì?

Câu 3: Thuật toán K-Nearest Neighbors (KNN) thuộc nhóm phương pháp khai phá dữ liệu nào sau đây?

Câu 4: Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập mục tiêu được hiểu là gì?

Câu 5: Kỹ thuật PCA (Principal Component Analysis) thường được ứng dụng để giải quyết vấn đề gì?

Câu 6: Đặc điểm chính để phân biệt giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?

Câu 7: Trong cây quyết định (Decision Tree), hiện tượng 'Overfitting' (Quá khớp) xảy ra khi nào?

Câu 8: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính?

Câu 9: Ưu điểm nổi bật nhất của thuật toán DBSCAN so với K-means trong phân cụm là gì?

Câu 10: Chỉ số F1-score là giá trị trung bình nào giữa Precision (Độ chính xác) và Recall (Độ triệu hồi)?

Câu 11: Trong thuật toán Apriori, nguyên lý 'tỉa nhánh' (pruning) dựa trên tính chất nào?

Câu 12: Mục đích của việc sử dụng 'Cross-validation' (Kiểm chứng chéo) là gì?

Câu 13: Trong khai phá dữ liệu văn bản (Text Mining), bước 'Stop words removal' có tác dụng gì?

Câu 14: Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ biểu diễn nào sau đây?

Câu 15: Tham số 'Lift' trong luật kết hợp A -> B lớn hơn 1 có ý nghĩa gì?

Câu 16: Phương pháp 'Entropy' thường được sử dụng trong cây quyết định để làm gì?

Câu 17: Kỹ thuật 'Bagging' (như trong Random Forest) giúp cải thiện mô hình bằng cách nào?

Câu 18: Trong hệ thống gợi ý (Recommender Systems), kỹ thuật 'Collaborative Filtering' dựa trên yếu tố nào?

Câu 19: Chỉ số Silhouette Coefficient được dùng để đánh giá kết quả của nhiệm vụ nào?

Câu 20: Thế nào là một 'Outlier' (Giá trị ngoại lệ) trong tập dữ liệu?

Câu 21: Mạng nơ-ron nhân tạo (ANN) cập nhật trọng số thông qua thuật toán nào sau đây?

Câu 22: Trong Ma trận nhầm lẫn (Confusion Matrix), 'False Positive' (Dương tính giả) nghĩa là gì?

Câu 23: Web Usage Mining tập trung vào việc khai phá thông tin gì?

Câu 24: Tại sao cần thực hiện 'Feature Selection' (Chọn lọc thuộc tính) trước khi huấn luyện mô hình?

Câu 25: Trong thuật toán K-means, việc chọn vị trí các tâm cụm (centroids) ban đầu có ảnh hưởng như thế nào?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top