Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình KDD (Knowledge Discovery in Databases), bước nào được thực hiện ngay trước giai đoạn Khai phá dữ liệu (Data Mining) để đảm bảo dữ liệu sẵn sàng cho các thuật toán?

A. Tiền xử lý và biến đổi dữ liệu
B. Giải thích và đánh giá kết quả
C. Thu thập dữ liệu thô từ nguồn
D. Lưu trữ dữ liệu vào kho (Data Warehouse)

💡 Lời giải chi tiết:

Theo quy trình chuẩn KDD của Fayyad, giai đoạn biến đổi và làm sạch dữ liệu (Transformation/Preprocessing) là bước bắt buộc để chuyển đổi dữ liệu thành dạng phù hợp trước khi áp dụng các kỹ thuật khai phá. Kết luận Lý giải: Tiền xử lý và biến đổi dữ liệu

Câu 2: Thuật toán K-means trong khai phá dữ liệu thuộc nhóm phương pháp nào sau đây?

A. Phân loại (Classification)
B. Phân tích luật kết hợp (Association Rules)
C. Phân cụm (Clustering)
D. Hồi quy tuyến tính (Regression)

💡 Lời giải chi tiết:

K-means là một thuật toán học không giám sát điển hình dùng để nhóm các đối tượng có đặc điểm tương đồng vào các cụm dựa trên khoảng cách tới tâm cụm. Kết luận Lý giải: Phân cụm (Clustering)

Câu 3: Trong phân tích luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập phổ biến A được định nghĩa như thế nào?

A. Xác suất điều kiện để tập A xảy ra khi đã biết tập B
B. Tần suất xuất hiện của tập A trên tổng số các giao dịch trong cơ sở dữ liệu
C. Tỷ lệ các giao dịch chứa tập B trong số các giao dịch chứa tập A
D. Mức độ ảnh hưởng của tập A lên tập B so với kỳ vọng ngẫu nhiên

💡 Lời giải chi tiết:

Độ hỗ trợ (Support) đo lường mức độ phổ biến của một tập mục dữ liệu bằng cách tính tỷ lệ số giao dịch chứa tập đó trên tổng số giao dịch. Kết luận Lý giải: Tần suất xuất hiện của tập A trên tổng số các giao dịch trong cơ sở dữ liệu

Câu 4: Khái niệm 'Overfitting' (Quá khớp) trong xây dựng mô hình phân loại thường xảy ra khi nào?

A. Mô hình quá đơn giản và không nắm bắt được xu hướng của dữ liệu
B. Dữ liệu huấn luyện quá ít khiến mô hình không thể học
C. Mô hình quá phức tạp và học cả nhiễu của dữ liệu huấn luyện dẫn đến kết quả kém trên dữ liệu mới
D. Dữ liệu huấn luyện và dữ liệu kiểm tra hoàn toàn trùng khớp nhau

💡 Lời giải chi tiết:

Quá khớp xảy ra khi mô hình khớp quá sát với dữ liệu huấn luyện (bao gồm cả các biến động ngẫu nhiên/nhiễu), làm mất đi khả năng tổng quát hóa trên tập dữ liệu chưa biết. Kết luận Lý giải: Mô hình quá phức tạp và học cả nhiễu của dữ liệu huấn luyện dẫn đến kết quả kém trên dữ liệu mới

Câu 5: Thuật toán Naive Bayes dựa trên giả thuyết quan trọng nào về các thuộc tính của dữ liệu?

A. Các thuộc tính phải có phân phối chuẩn
B. Các thuộc tính hoàn toàn độc lập với nhau khi biết lớp (class)
C. Các thuộc tính phải có trọng số bằng nhau
D. Các thuộc tính phải là dạng định lượng (số thực)

💡 Lời giải chi tiết:

Tên gọi 'Naive' xuất phát từ giả định đơn giản hóa rằng tất cả các đặc trưng đều độc lập với nhau trong một lớp dữ liệu cho trước. Kết luận Lý giải: Các thuộc tính hoàn toàn độc lập với nhau khi biết lớp (class)

Câu 6: Trong kỹ thuật làm sạch dữ liệu, việc xử lý 'Outliers' (Dữ liệu ngoại lai) nhằm mục đích chính là gì?

A. Loại bỏ các giá trị bị thiếu trong bảng dữ liệu
B. Tăng số lượng thuộc tính cho mô hình
C. Giảm nhiễu và tránh làm sai lệch các phép đo thống kê hoặc mô hình dự báo
D. Chuyển đổi dữ liệu định tính sang định lượng

💡 Lời giải chi tiết:

Các giá trị ngoại lai có thể gây ra những sai số lớn cho các thuật toán nhạy cảm với khoảng cách hoặc trung bình, do đó cần được xác định và xử lý để mô hình chính xác hơn. Kết luận Lý giải: Giảm nhiễu và tránh làm sai lệch các phép đo thống kê hoặc mô hình dự báo

Câu 7: Chỉ số 'Lift' trong luật kết hợp A suy ra B có giá trị bằng 1 cho biết điều gì?

A. và B có mối liên hệ rất mạnh mẽ
B. và B hoàn toàn độc lập với nhau
C. Sự xuất hiện của A làm giảm khả năng xuất hiện của B
D. Luật kết hợp này có độ tin cậy tuyệt đối

💡 Lời giải chi tiết:

Khi Lift bằng 1, xác suất xuất hiện đồng thời của A và B đúng bằng tích xác suất riêng lẻ, chứng tỏ hai tập này không có sự phụ thuộc lẫn nhau. Kết luận Lý giải: A và B hoàn toàn độc lập với nhau

Câu 8: Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu bằng phương pháp Min-Max thường đưa dữ liệu về khoảng giá trị nào?

A. Từ -1 đến 1
B. Từ 0 đến 1
C. Từ 0 đến vô cùng
D. Theo phân phối chuẩn có trung bình là 0

💡 Lời giải chi tiết:

Công thức chuẩn hóa Min-Max phổ biến nhất là chuyển đổi giá trị gốc x thành x' trong đoạn [0, 1] để đồng nhất thang đo giữa các biến. Kết luận Lý giải: Từ 0 đến 1

Câu 9: Cây quyết định (Decision Tree) sử dụng độ đo 'Entropy' để thực hiện việc gì?

A. Đo lường mức độ không chắc chắn hoặc độ hỗn loạn của thông tin tại một nút
B. Tính toán khoảng cách giữa các điểm dữ liệu
C. Xác định số lượng lớp tối ưu trong phân cụm
D. Ước lượng trọng số cho các mạng nơ-ron

💡 Lời giải chi tiết:

Entropy là đại lượng đo lường độ tinh khiết của dữ liệu, giúp thuật toán chọn thuộc tính phân tách tốt nhất (Information Gain) để xây dựng cây. Kết luận Lý giải: Đo lường mức độ không chắc chắn hoặc độ hỗn loạn của thông tin tại một nút

Câu 10: Sự khác biệt cơ bản giữa Phân loại (Classification) và Phân cụm (Clustering) là gì?

A. Phân loại là học không giám sát, Phân cụm là học có giám sát
B. Phân loại dự báo giá trị liên tục, Phân cụm dự báo giá trị rời rạc
C. Phân loại cần nhãn dữ liệu biết trước, Phân cụm tự tìm cấu trúc trong dữ liệu không nhãn
D. Phân loại chỉ áp dụng cho dữ liệu văn bản, Phân cụm cho dữ liệu số

💡 Lời giải chi tiết:

Phân loại (có giám sát) gán các bản ghi vào các lớp đã định nghĩa trước, trong khi phân cụm (không giám sát) nhóm dữ liệu dựa trên sự tương đồng mà không cần nhãn. Kết luận Lý giải: Phân loại cần nhãn dữ liệu biết trước, Phân cụm tự tìm cấu trúc trong dữ liệu không nhãn

Câu 11: Trong thuật toán KNN (K-Nearest Neighbors), biến 'K' đại diện cho yếu tố nào?

A. Số lượng thuộc tính được sử dụng
B. Số lượng cụm dữ liệu cần phân chia
C. Số lượng láng giềng gần nhất tham gia vào việc bỏ phiếu quyết định lớp
D. Số lần lặp tối đa của thuật toán

💡 Lời giải chi tiết:

KNN xác định lớp của một điểm mới dựa trên đa số phiếu bầu của 'K' điểm dữ liệu gần nó nhất trong không gian thuộc tính. Kết luận Lý giải: Số lượng láng giềng gần nhất tham gia vào việc bỏ phiếu quyết định lớp

Câu 12: Mục tiêu chính của kỹ thuật PCA (Principal Component Analysis) trong tiền xử lý dữ liệu là gì?

A. Tăng số lượng bản ghi cho tập huấn luyện
B. Giảm chiều dữ liệu bằng cách tạo ra các biến mới không tương quan
C. Mã hóa các biến định tính thành biến số
D. Tự động gán nhãn cho dữ liệu chưa phân loại

💡 Lời giải chi tiết:

PCA là phương pháp giảm chiều dữ liệu (Dimensionality Reduction) bằng cách biến đổi các biến có tương quan thành một tập hợp nhỏ hơn các biến không tương quan gọi là các thành phần chính. Kết luận Lý giải: Giảm chiều dữ liệu bằng cách tạo ra các biến mới không tương quan

Câu 13: Hệ số 'Silhouette' trong phân tích phân cụm được sử dụng để đánh giá điều gì?

A. Độ chính xác của mô hình phân loại
B. Mức độ tin cậy của một luật kết hợp
C. Chất lượng phân cụm dựa trên độ chặt chẽ trong cụm và độ tách biệt giữa các cụm
D. Tốc độ hội tụ của thuật toán K-means

💡 Lời giải chi tiết:

Hệ số Silhouette đo lường mức độ một đối tượng khớp với cụm của nó so với các cụm khác, giá trị càng cao thì chất lượng phân cụm càng tốt. Kết luận Lý giải: Chất lượng phân cụm dựa trên độ chặt chẽ trong cụm và độ tách biệt giữa các cụm

Câu 14: Trong mạng nơ-ron nhân tạo, hàm kích hoạt (Activation Function) có vai trò chính là gì?

A. Tính tổng trọng số của các đầu vào
B. Lưu trữ dữ liệu trong quá trình huấn luyện
C. Giới thiệu tính phi tuyến vào mô hình để học các mẫu phức tạp
D. Ngăn chặn việc mô hình bị quá khớp

💡 Lời giải chi tiết:

Hàm kích hoạt cho phép mạng nơ-ron mô hình hóa các quan hệ phi tuyến giữa đầu vào và đầu ra, điều mà các hàm tuyến tính đơn thuần không làm được. Kết luận Lý giải: Giới thiệu tính phi tuyến vào mô hình để học các mẫu phức tạp

Câu 15: Khi xây dựng cây quyết định, hiện tượng 'Pruning' (Tỉa cây) được thực hiện nhằm mục đích gì?

A. Làm cho cây sâu hơn để tăng độ chính xác trên tập huấn luyện
B. Giảm độ phức tạp của cây để tránh hiện tượng quá khớp (overfitting)
C. Tăng số lượng nút lá để bao phủ hết các trường hợp
D. Loại bỏ các thuộc tính định tính khỏi mô hình

💡 Lời giải chi tiết:

Tỉa cây giúp loại bỏ các nhánh cây không mang lại nhiều thông tin hoặc chỉ khớp với nhiễu, giúp mô hình bền vững hơn khi dự báo dữ liệu mới. Kết luận Lý giải: Giảm độ phức tạp của cây để tránh hiện tượng quá khớp (overfitting)

Câu 16: Ma trận nhầm lẫn (Confusion Matrix) trong khai phá dữ liệu dùng để làm gì?

A. Tính toán khoảng cách giữa các cụm
B. Tổng hợp kết quả dự báo của mô hình phân loại so với thực tế
C. Hiển thị các luật kết hợp phổ biến nhất
D. Biểu diễn cấu trúc phân cấp của dữ liệu

💡 Lời giải chi tiết:

Ma trận nhầm lẫn thống kê số lượng các mẫu được phân loại đúng và sai cho từng lớp, từ đó tính được các chỉ số như Precision, Recall, F1. Kết luận Lý giải: Tổng hợp kết quả dự báo của mô hình phân loại so với thực tế

Câu 17: Trong bài toán phân loại, chỉ số 'Recall' (Độ gợi nhớ) được hiểu là gì?

A. Tỷ lệ các trường hợp thực tế dương tính được mô hình dự báo đúng là dương tính
B. Tỷ lệ các trường hợp dự báo dương tính thực sự là dương tính
C. Tổng tỷ lệ dự báo đúng trên toàn bộ tập dữ liệu
D. Tỷ lệ dự báo sai các trường hợp âm tính

💡 Lời giải chi tiết:

Recall đo lường khả năng của mô hình trong việc tìm ra tất cả các mẫu thuộc lớp mục tiêu trong tập dữ liệu. Kết luận Lý giải: Tỷ lệ các trường hợp thực tế dương tính được mô hình dự báo đúng là dương tính

Câu 18: Đặc điểm chính của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?

A. Yêu cầu người dùng phải xác định số lượng cụm K ngay từ đầu
B. Tạo ra một cấu trúc dạng cây (Dendrogram) biểu diễn quan hệ giữa các cụm
C. Luôn có tốc độ xử lý nhanh hơn thuật toán K-means
D. Chỉ hoạt động được với các biến dữ liệu dạng số

💡 Lời giải chi tiết:

Phân cụm phân cấp xây dựng các cụm bằng cách ghép dần (agglomerative) hoặc chia nhỏ (divisive), tạo ra sơ đồ hình cây cho phép chọn số cụm linh hoạt sau khi xử lý. Kết luận Lý giải: Tạo ra một cấu trúc dạng cây (Dendrogram) biểu diễn quan hệ giữa các cụm

Câu 19: Thuật toán Random Forest cải thiện độ chính xác so với một cây quyết định đơn lẻ bằng cách nào?

A. Sử dụng một cây quyết định rất sâu và phức tạp
B. Kết hợp dự báo từ nhiều cây quyết định được huấn luyện trên các tập con dữ liệu khác nhau
C. Loại bỏ hoàn toàn các thuộc tính có độ nhiễu cao
D. Chỉ sử dụng các thuộc tính quan trọng nhất cho toàn bộ rừng

💡 Lời giải chi tiết:

Random Forest là một phương pháp học máy kết hợp (ensemble learning) giúp giảm phương sai và tăng tính ổn định bằng cách lấy trung bình hoặc bỏ phiếu từ nhiều cây độc lập. Kết luận Lý giải: Kết hợp dự báo từ nhiều cây quyết định được huấn luyện trên các tập con dữ liệu khác nhau

Câu 20: Trong kỹ thuật khai phá dữ liệu văn bản (Text Mining), chỉ số TF-IDF dùng để làm gì?

A. Đếm tổng số từ trong một văn bản
B. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
C. Đánh giá mức độ quan trọng của một từ đối với một văn bản trong một tập hợp các văn bản
D. Phân loại văn bản dựa trên cảm xúc của người viết

💡 Lời giải chi tiết:

TF-IDF giúp làm nổi bật các từ mang tính đặc trưng của văn bản và giảm trọng số của các từ thông dụng xuất hiện quá nhiều trong mọi văn bản. Kết luận Lý giải: Đánh giá mức độ quan trọng của một từ đối với một văn bản trong một tập hợp các văn bản

Câu 21: Phương pháp 'Cross-validation' (Kiểm chéo) được sử dụng trong khai phá dữ liệu với mục đích gì?

A. Để nén dữ liệu nhằm tiết kiệm không gian lưu trữ
B. Để làm sạch dữ liệu nhiễu
C. Để đánh giá hiệu suất của mô hình một cách khách quan trên nhiều phần dữ liệu khác nhau
D. Để tìm kiếm các luật kết hợp tiềm ẩn

💡 Lời giải chi tiết:

Kiểm chéo (như K-fold) chia dữ liệu thành nhiều phần để luân phiên huấn luyện và kiểm tra, giúp ước lượng sai số của mô hình chính xác hơn và tránh phụ thuộc vào một cách chia dữ liệu duy nhất. Kết luận Lý giải: Để đánh giá hiệu suất của mô hình một cách khách quan trên nhiều phần dữ liệu khác nhau

Câu 22: Trong khai phá dữ liệu, 'Data Warehouse' (Kho dữ liệu) khác với cơ sở dữ liệu tác nghiệp (Operational Database) ở điểm nào?

A. Kho dữ liệu chỉ lưu trữ dữ liệu hiện tại, không lưu lịch sử
B. Kho dữ liệu được tối ưu hóa cho việc truy vấn và phân tích thay vì giao dịch nhanh
C. Cơ sở dữ liệu tác nghiệp chứa lượng dữ liệu lớn hơn nhiều lần
D. Kho dữ liệu không cho phép thực hiện các phép toán thống kê

💡 Lời giải chi tiết:

Kho dữ liệu là nơi tích hợp dữ liệu từ nhiều nguồn, được tổ chức theo chủ đề và tối ưu hóa cho các hệ thống hỗ trợ ra quyết định (OLAP). Kết luận Lý giải: Kho dữ liệu được tối ưu hóa cho việc truy vấn và phân tích thay vì giao dịch nhanh

Câu 23: Thuật toán FP-Growth có ưu điểm nổi bật gì so với thuật toán Apriori trong khai phá tập phổ biến?

A. Đưa ra các luật kết hợp có độ tin cậy cao hơn
B. Không cần quét cơ sở dữ liệu nhiều lần và không tạo ra các ứng viên trung gian
C. Dễ dàng cài đặt và triển khai hơn
D. Có thể áp dụng cho dữ liệu dạng chuỗi thời gian

💡 Lời giải chi tiết:

FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu, giúp tìm tập phổ biến hiệu quả hơn do chỉ cần quét cơ sở dữ liệu 2 lần. Kết luận Lý giải: Không cần quét cơ sở dữ liệu nhiều lần và không tạo ra các ứng viên trung gian

Câu 24: Trong Support Vector Machines (SVM), 'Kernel trick' được sử dụng để làm gì?

A. Làm sạch dữ liệu bị thiếu
B. Ánh xạ dữ liệu vào không gian chiều cao hơn để có thể phân tách tuyến tính
C. Giảm số lượng vector hỗ trợ để tăng tốc độ tính toán
D. Tự động chọn tham số C cho mô hình

💡 Lời giải chi tiết:

Hàm Kernel cho phép SVM giải quyết các bài toán phân loại phi tuyến bằng cách chuyển đổi không gian thuộc tính ban đầu sang không gian mới nơi các lớp có thể tách biệt bởi một siêu phẳng. Kết luận Lý giải: Ánh xạ dữ liệu vào không gian chiều cao hơn để có thể phân tách tuyến tính

Câu 25: Đâu là một ví dụ điển hình của ứng dụng Khai phá dữ liệu trong lĩnh vực Thương mại điện tử?

A. Tạo bản sao lưu dự phòng cho hệ thống website
B. Gợi ý sản phẩm phù hợp dựa trên lịch sử mua hàng của người dùng
C. Thiết kế giao diện trang web bắt mắt hơn
D. Tăng tốc độ kết nối mạng cho khách hàng

💡 Lời giải chi tiết:

Hệ thống gợi ý (Recommendation Systems) sử dụng các kỹ thuật như lọc cộng tác hoặc khai phá luật kết hợp để dự đoán nhu cầu của khách hàng. Kết luận Lý giải: Gợi ý sản phẩm phù hợp dựa trên lịch sử mua hàng của người dùng

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 240 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 254 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 271 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 288 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 105 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 122 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình KDD (Knowledge Discovery in Databases), bước nào được thực hiện ngay trước giai đoạn Khai phá dữ liệu (Data Mining) để đảm bảo dữ liệu sẵn sàng cho các thuật toán?

Câu 2: Thuật toán K-means trong khai phá dữ liệu thuộc nhóm phương pháp nào sau đây?

Câu 3: Trong phân tích luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập phổ biến A được định nghĩa như thế nào?

Câu 4: Khái niệm 'Overfitting' (Quá khớp) trong xây dựng mô hình phân loại thường xảy ra khi nào?

Câu 5: Thuật toán Naive Bayes dựa trên giả thuyết quan trọng nào về các thuộc tính của dữ liệu?

Câu 6: Trong kỹ thuật làm sạch dữ liệu, việc xử lý 'Outliers' (Dữ liệu ngoại lai) nhằm mục đích chính là gì?

Câu 7: Chỉ số 'Lift' trong luật kết hợp A suy ra B có giá trị bằng 1 cho biết điều gì?

Câu 8: Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu bằng phương pháp Min-Max thường đưa dữ liệu về khoảng giá trị nào?

Câu 9: Cây quyết định (Decision Tree) sử dụng độ đo 'Entropy' để thực hiện việc gì?

Câu 10: Sự khác biệt cơ bản giữa Phân loại (Classification) và Phân cụm (Clustering) là gì?

Câu 11: Trong thuật toán KNN (K-Nearest Neighbors), biến 'K' đại diện cho yếu tố nào?

Câu 12: Mục tiêu chính của kỹ thuật PCA (Principal Component Analysis) trong tiền xử lý dữ liệu là gì?

Câu 13: Hệ số 'Silhouette' trong phân tích phân cụm được sử dụng để đánh giá điều gì?

Câu 14: Trong mạng nơ-ron nhân tạo, hàm kích hoạt (Activation Function) có vai trò chính là gì?

Câu 15: Khi xây dựng cây quyết định, hiện tượng 'Pruning' (Tỉa cây) được thực hiện nhằm mục đích gì?

Câu 16: Ma trận nhầm lẫn (Confusion Matrix) trong khai phá dữ liệu dùng để làm gì?

Câu 17: Trong bài toán phân loại, chỉ số 'Recall' (Độ gợi nhớ) được hiểu là gì?

Câu 18: Đặc điểm chính của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?

Câu 19: Thuật toán Random Forest cải thiện độ chính xác so với một cây quyết định đơn lẻ bằng cách nào?

Câu 20: Trong kỹ thuật khai phá dữ liệu văn bản (Text Mining), chỉ số TF-IDF dùng để làm gì?

Câu 21: Phương pháp 'Cross-validation' (Kiểm chéo) được sử dụng trong khai phá dữ liệu với mục đích gì?

Câu 22: Trong khai phá dữ liệu, 'Data Warehouse' (Kho dữ liệu) khác với cơ sở dữ liệu tác nghiệp (Operational Database) ở điểm nào?

Câu 23: Thuật toán FP-Growth có ưu điểm nổi bật gì so với thuật toán Apriori trong khai phá tập phổ biến?

Câu 24: Trong Support Vector Machines (SVM), 'Kernel trick' được sử dụng để làm gì?

Câu 25: Đâu là một ví dụ điển hình của ứng dụng Khai phá dữ liệu trong lĩnh vực Thương mại điện tử?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top