Bộ 12 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình Khám phá tri thức từ Cơ sở dữ liệu (KDD), bước nào diễn ra ngay sau khi các thuật toán khai phá dữ liệu đã hoàn tất việc trích xuất mẫu?
💡 Lời giải chi tiết:
Theo mô hình KDD chuẩn của Fayyad, sau khi các mô hình/mẫu được trích xuất từ bước Data Mining, chúng cần được đánh giá độ tin cậy và biểu diễn dưới dạng dễ hiểu để trở thành tri thức hữu ích. Kết luận Lý giải Biểu diễn và đánh giá tri thức (Knowledge Presentation/Evaluation)
Câu 2:Kỹ thuật 'Binning' thường được sử dụng trong giai đoạn nào của quá trình tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
Phương pháp 'Binning' (phân thùng) giúp làm mịn dữ liệu bằng cách chia các giá trị dữ liệu vào các khoảng nhất định để loại bỏ các biến động nhỏ không đáng kể hoặc nhiễu. Kết luận Lý giải Làm mịn dữ liệu để giảm nhiễu
Câu 3:Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập phổ biến A được định nghĩa là gì?
💡 Lời giải chi tiết:
Trong giải thuật Apriori, 'Support' đại diện cho tần suất xuất hiện tương đối của tập mục tiêu trong toàn bộ tập dữ liệu giao dịch. Kết luận Lý giải Tỷ lệ các giao dịch chứa tập A trên tổng số giao dịch trong cơ sở dữ liệu
Câu 4:Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình khớp quá sát với các đặc điểm cụ thể và nhiễu của tập huấn luyện, khiến nó hoạt động không chính xác trên dữ liệu mới. Kết luận Lý giải Mô hình học quá chi tiết cả nhiễu của dữ liệu huấn luyện dẫn đến khả năng tổng quát hóa kém
Câu 5:Thuật toán K-means thuộc loại kỹ thuật khai phá dữ liệu nào sau đây?
💡 Lời giải chi tiết:
K-means là một thuật toán học không giám sát điển hình dùng để nhóm các đối tượng dữ liệu vào các cụm dựa trên độ tương đồng về khoảng cách. Kết luận Lý giải Phân cụm dữ liệu (Clustering)
Câu 6:Trong tiền xử lý dữ liệu, mục đích chính của kỹ thuật 'Min-Max Normalization' là gì?
💡 Lời giải chi tiết:
Chuẩn hóa Min-Max thực hiện phép biến đổi tuyến tính trên dữ liệu gốc để đưa tất cả giá trị về cùng một thang đo nhỏ nhằm tránh việc các thuộc tính có tầm giá trị lớn lấn át các thuộc tính khác. Kết luận Lý giải Chuyển đổi các giá trị thuộc tính về một khoảng xác định (thường là [0, 1])
Câu 7:Trong luật kết hợp 'X suy ra Y', chỉ số 'Confidence' (Độ tin cậy) được tính theo công thức nào sau đây?
💡 Lời giải chi tiết:
Độ tin cậy của luật kết hợp được xác định bằng xác suất tìm thấy Y trong các giao dịch đã chứa X, tương đương với tỷ lệ giữa độ hỗ trợ của tập (X hợp Y) và độ hỗ trợ của X. Kết luận Lý giải Support(X giao Y) / Support(X)
Câu 8:Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính trong tập dữ liệu?
💡 Lời giải chi tiết:
Sự 'ngây ngô' (Naive) trong tên thuật toán chỉ việc giả định rằng sự hiện diện của một thuộc tính cụ thể trong một lớp là hoàn toàn độc lập với sự hiện diện của các thuộc tính khác. Kết luận Lý giải Các thuộc tính hoàn toàn độc lập với nhau khi biết giá trị của lớp
Câu 9:Đặc điểm chính của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?
💡 Lời giải chi tiết:
Phân cụm phân cấp xây dựng các phân đoạn dữ liệu theo thứ tự từ dưới lên hoặc từ trên xuống và kết quả thường được biểu diễn trực quan qua biểu đồ cây. Kết luận Lý giải Tạo ra một cấu trúc dạng cây (Dendrogram) biểu diễn các cụm lồng nhau
Câu 10:Trong hệ thống OLAP (Xử lý trực tuyến), thao tác 'Drill-down' có ý nghĩa gì?
💡 Lời giải chi tiết:
Thao tác 'Drill-down' cho phép người dùng đi sâu vào các cấp bậc thấp hơn của dữ liệu để xem thông tin chi tiết (ví dụ: từ doanh thu theo năm xuống doanh thu theo quý). Kết luận Lý giải Chuyển từ dữ liệu tổng quát xuống mức chi tiết hơn
Câu 11:Thuật toán phân lớp nào sau đây hoạt động dựa trên nguyên lý tìm kiếm 'siêu phẳng tối ưu' để phân tách các lớp dữ liệu?
💡 Lời giải chi tiết:
SVM hướng tới việc tìm một siêu phẳng trong không gian đa chiều sao cho khoảng cách (lề) giữa các điểm dữ liệu gần nhất của các lớp là lớn nhất. Kết luận Lý giải Support Vector Machines (SVM)
Câu 12:Phân tích thành phần chính (PCA) thường được áp dụng với mục đích gì trong khai phá dữ liệu?
💡 Lời giải chi tiết:
PCA là một kỹ thuật biến đổi thống kê giúp chuyển đổi một tập hợp các biến có thể tương quan thành một tập hợp các giá trị của các biến không tương quan tuyến tính gọi là các thành phần chính để giảm số lượng biến. Kết luận Lý giải Giảm chiều dữ liệu bằng cách tạo ra các biến mới không tương quan
Câu 13:Chỉ số 'Lift' trong khai phá luật kết hợp dùng để đánh giá điều gì?
💡 Lời giải chi tiết:
Chỉ số Lift lớn hơn 1 cho thấy sự hiện diện của vế trái và vế phải có ảnh hưởng tích cực đến nhau thay vì chỉ xuất hiện cùng nhau do ngẫu nhiên. Kết luận Lý giải Mức độ phụ thuộc lẫn nhau giữa vế trái và vế phải của luật so với ngẫu nhiên
Câu 14:Tại sao thuật toán k-Nearest Neighbors (k-NN) lại được gọi là 'Lazy Learner' (Người học lười biếng)?
💡 Lời giải chi tiết:
Khác với các thuật toán học tích cực (eager learners), k-NN không xây dựng mô hình tổng quát từ dữ liệu huấn luyện mà chỉ lưu trữ chúng và chỉ tính toán khi có dữ liệu cần dự báo. Kết luận Lý giải Vì nó trì hoãn việc xây dựng mô hình cho đến khi nhận được câu truy vấn phân lớp cụ thể
Câu 15:Chỉ số F1-score là giá trị trung bình điều hòa (harmonic mean) của hai đại lượng nào?
💡 Lời giải chi tiết:
F1-score được sử dụng để cân bằng giữa Precision và Recall, đặc biệt hữu ích khi tập dữ liệu bị mất cân bằng lớp. Kết luận Lý giải Độ chính xác (Precision) và Độ triệu hồi (Recall)
Câu 16:Trong khai phá dữ liệu văn bản, chỉ số TF-IDF giúp xác định điều gì?
💡 Lời giải chi tiết:
TF-IDF đánh giá mức độ quan trọng của một từ dựa trên tần suất xuất hiện của nó trong tài liệu đó và nghịch đảo tần suất xuất hiện của nó trong toàn bộ kho tài liệu. Kết luận Lý giải Tầm quan trọng của một từ đối với một tài liệu trong một tập hợp văn bản
Câu 17:Thuật toán DBSCAN có ưu điểm nổi bật nào so với K-means trong phân cụm dữ liệu?
💡 Lời giải chi tiết:
DBSCAN dựa trên mật độ để phân cụm, cho phép nó tìm ra các cụm có hình dạng phức tạp và tự động loại bỏ các điểm dữ liệu thưa thớt là nhiễu. Kết luận Lý giải Có khả năng phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu tốt
Câu 18:Khai phá ngoại lệ (Outlier Detection) được ứng dụng phổ biến nhất trong lĩnh vực nào sau đây?
💡 Lời giải chi tiết:
Các hành vi gian lận thường có đặc điểm khác biệt hoàn toàn với hành vi tiêu dùng thông thường của khách hàng, do đó chúng được coi là các điểm ngoại lệ cần phát hiện. Kết luận Lý giải Phát hiện gian lận thẻ tín dụng
Câu 19:Trong thuật toán Cây quyết định (Decision Tree), độ đo Entropy dùng để đánh giá điều gì tại một nút?
💡 Lời giải chi tiết:
Entropy là thước đo mức độ hỗn loạn của dữ liệu; thuật toán cây quyết định cố gắng chọn các thuộc tính phân chia sao cho làm giảm Entropy nhiều nhất. Kết luận Lý giải Độ không tinh khiết hoặc tính ngẫu nhiên của các ví dụ dữ liệu
Câu 20:Phương pháp 'Random Forest' hoạt động dựa trên nguyên lý nào?
💡 Lời giải chi tiết:
Random Forest là một phương pháp học máy kết hợp (ensemble learning) sử dụng kỹ thuật bagging để tạo ra nhiều cây quyết định và lấy kết quả biểu quyết cuối cùng. Kết luận Lý giải Kết hợp kết quả từ nhiều cây quyết định được huấn luyện trên các tập dữ liệu con khác nhau
Câu 21:Trong tích hợp dữ liệu, làm thế nào để xác định sự dư thừa giữa hai thuộc tính định lượng?
💡 Lời giải chi tiết:
Hệ số tương quan Pearson đo lường mức độ quan hệ tuyến tính giữa hai biến; nếu hệ số này quá cao, một trong hai biến có thể coi là dư thừa. Kết luận Lý giải Sử dụng phân tích tương quan (như hệ số Pearson)
Câu 22:Thuật toán lan truyền ngược (Backpropagation) trong Mạng thần kinh nhân tạo có nhiệm vụ chính là gì?
💡 Lời giải chi tiết:
Backpropagation tính toán gradient của hàm mất mát và truyền ngược lại qua mạng để cập nhật các trọng số nhằm cải thiện độ chính xác của mô hình. Kết luận Lý giải Điều chỉnh trọng số của các kết nối để giảm thiểu hàm mất mát (loss function)
Câu 23:Kỹ thuật 'k-fold Cross-validation' được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
Bằng cách chia dữ liệu thành k phần và huấn luyện/kiểm tra luân phiên, kỹ thuật này giúp giảm thiểu sự sai lệch do việc chia dữ liệu huấn luyện và kiểm tra ngẫu nhiên một lần duy nhất. Kết luận Lý giải Đánh giá hiệu suất của mô hình một cách khách quan hơn trên toàn bộ dữ liệu hiện có
Câu 24:Quá trình 'Feature Engineering' (Kỹ nghệ đặc trưng) bao gồm các hoạt động nào?
💡 Lời giải chi tiết:
Kỹ nghệ đặc trưng là bước quan trọng giúp chuyển đổi dữ liệu thô thành các định dạng mà thuật toán máy học có thể hiểu và khai thác hiệu quả hơn. Kết luận Lý giải Lựa chọn, biến đổi và tạo ra các đặc trưng mới từ dữ liệu thô để nâng cao hiệu quả mô hình
Câu 25:Khai phá chuỗi (Sequence Mining) khác với khai phá luật kết hợp ở điểm cơ bản nào?
💡 Lời giải chi tiết:
Trong khi khai phá luật kết hợp tìm các mục cùng xuất hiện đồng thời, khai phá chuỗi tập trung vào việc tìm kiếm các mẫu xuất hiện theo một trình tự thời gian cụ thể. Kết luận Lý giải Nó xem xét thứ tự xuất hiện theo thời gian của các sự kiện