Quay lại danh mục Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Trang chủ
Trắc nghiệm
Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh
Bộ 8 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ 8 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Lưu ý: Nội dung trong bài Bộ 8 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Sự khác biệt chính giữa Business Intelligence (BI) và Khoa học dữ liệu (Data Science) trong doanh nghiệp là gì?

A. BI tập trung vào báo cáo dữ liệu lịch sử, trong khi Khoa học dữ liệu tập trung vào dự báo và tối ưu hóa tương lai.
B. BI chỉ sử dụng các thuật toán học máy phức tạp còn Khoa học dữ liệu chỉ dùng bảng tính.
C. Khoa học dữ liệu không yêu cầu kỹ năng lập trình trong khi BI bắt buộc phải biết Python.
D. BI xử lý dữ liệu phi cấu trúc còn Khoa học dữ liệu chỉ xử lý dữ liệu có cấu trúc SQL.

💡 Lời giải chi tiết:

Theo phân tích phổ biến trong quản trị thông tin, BI giúp doanh nghiệp hiểu những gì đã xảy ra thông qua mô tả quá khứ, còn Khoa học dữ liệu hướng tới việc dự đoán các kịch bản và đưa ra khuyến nghị cho tương lai, Kết luận Lý giải BI tập trung vào báo cáo dữ liệu lịch sử, trong khi Khoa học dữ liệu tập trung vào dự báo và tối ưu hóa tương lai.

Câu 2: Trong quy trình chuẩn công nghiệp về khai phá dữ liệu (CRISP-DM), giai đoạn nào được thực hiện đầu tiên?

A. Chuẩn bị dữ liệu (Data Preparation).
B. Thấu hiểu dữ liệu (Data Understanding).
C. Thấu hiểu kinh doanh (Business Understanding).
D. Xây dựng mô hình (Modeling).

💡 Lời giải chi tiết:

Quy trình CRISP-DM bắt đầu bằng việc xác định mục tiêu và yêu cầu từ góc độ kinh doanh để định hướng cho toàn bộ dự án dữ liệu, Kết luận Lý giải Thấu hiểu kinh doanh (Business Understanding).

Câu 3: Hiện tượng 'Overfitting' (Quá khớp) trong xây dựng mô hình dự báo kinh tế xảy ra khi nào?

A. Mô hình hoạt động tốt trên tập dữ liệu huấn luyện nhưng kém trên tập dữ liệu mới.
B. Mô hình quá đơn giản và không thể bắt kịp các xu hướng của dữ liệu huấn luyện.
C. Dữ liệu huấn luyện có quá ít quan sát so với số lượng biến độc lập.
D. Mô hình đạt độ chính xác 100% trên mọi tập dữ liệu kiểm thử thực tế.

💡 Lời giải chi tiết:

Overfitting xảy ra khi mô hình học quá chi tiết cả những nhiễu trong dữ liệu huấn luyện dẫn đến khả năng tổng quát hóa kém trên dữ liệu thực tế, Kết luận Lý giải Mô hình hoạt động tốt trên tập dữ liệu huấn luyện nhưng kém trên tập dữ liệu mới.

Câu 4: Mục đích chính của việc sử dụng 'A/B Testing' trong marketing kỹ thuật số là gì?

A. Để loại bỏ hoàn toàn nhu cầu về việc thu thập dữ liệu khách hàng.
B. Để so sánh hai phiên bản của một biến số nhằm xác định phiên bản nào đạt hiệu quả cao hơn.
C. Để dự báo doanh thu của doanh nghiệp trong 10 năm tới.
D. Để mã hóa dữ liệu người dùng nhằm mục đích bảo mật thông tin.

💡 Lời giải chi tiết:

A/B Testing là phương pháp thực nghiệm so sánh hai biến thể để tìm ra phương án tối ưu hóa các chỉ số như tỷ lệ chuyển đổi hoặc tỷ lệ nhấp, Kết luận Lý giải Để so sánh hai phiên bản của một biến số nhằm xác định phiên bản nào đạt hiệu quả cao hơn.

Câu 5: Thuật toán K-means Clustering thường được ứng dụng vào bài toán kinh doanh nào sau đây?

A. Dự báo giá cổ phiếu theo thời gian thực.
B. Phân đoạn khách hàng (Customer Segmentation).
C. Nhận diện khuôn mặt nhân viên để chấm công.
D. Ước tính hàm sản xuất biên trong kinh tế học.

💡 Lời giải chi tiết:

K-means là thuật toán học máy không giám sát giúp nhóm các khách hàng có đặc điểm tương đồng vào cùng một phân đoạn để thực hiện marketing mục tiêu, Kết luận Lý giải Phân đoạn khách hàng (Customer Segmentation).

Câu 6: Trong bước làm sạch dữ liệu, kỹ thuật 'Normalization' (Chuẩn hóa) nhằm mục đích gì?

A. Xóa bỏ tất cả các dòng dữ liệu có giá trị bị khuyết.
B. Đưa các biến về cùng một thang đo để tránh biến có giá trị lớn áp đảo mô hình.
C. Chuyển đổi dữ liệu từ dạng số sang dạng văn bản mô tả.
D. Tăng số lượng quan sát trong tập dữ liệu bằng cách nhân bản ngẫu nhiên.

💡 Lời giải chi tiết:

Chuẩn hóa giúp các thuộc tính có đơn vị đo khác nhau trở nên tương đồng, đảm bảo tính khách quan khi tính toán khoảng cách hoặc trọng số trong mô hình, Kết luận Lý giải Đưa các biến về cùng một thang đo để tránh biến có giá trị lớn áp đảo mô hình.

Câu 7: Dữ liệu nào sau đây được phân loại là 'Dữ liệu phi cấu trúc' (Unstructured Data)?

A. Bảng dữ liệu giao dịch ngân hàng lưu trữ trong SQL.
B. Nội dung các bài đánh giá của khách hàng trên mạng xã hội.
C. Danh sách mã số thuế của các doanh nghiệp trong nước.
D. Bảng cân đối kế toán dạng Excel có các cột cố định.

💡 Lời giải chi tiết:

Dữ liệu phi cấu trúc không có định dạng hàng và cột cố định, ví dụ điển hình là các đoạn văn bản, hình ảnh hoặc video từ người dùng, Kết luận Lý giải Nội dung các bài đánh giá của khách hàng trên mạng xã hội.

Câu 8: Hệ thống gợi ý (Recommender System) sử dụng phương pháp 'Collaborative Filtering' dựa trên nguyên lý nào?

A. Gợi ý sản phẩm dựa trên sở thích của những người dùng có hành vi tương tự.
B. Gợi ý sản phẩm dựa hoàn toàn vào các thuộc tính kỹ thuật của món hàng đó.
C. Gợi ý những sản phẩm đắt nhất hiện có trong kho hàng.
D. Gợi ý ngẫu nhiên bất kỳ sản phẩm nào để tối đa hóa sự khám phá.

💡 Lời giải chi tiết:

Lọc cộng tác dựa trên giả định rằng nếu hai người dùng có chung quan điểm về một số món hàng, họ có khả năng sẽ đồng ý với nhau về các món hàng khác, Kết luận Lý giải Gợi ý sản phẩm dựa trên sở thích của những người dùng có hành vi tương tự.

Câu 9: Trong phân tích chuỗi thời gian kinh tế, tính 'Dừng' (Stationarity) của dữ liệu có nghĩa là gì?

A. Các đặc tính thống kê như trung bình và phương sai không thay đổi theo thời gian.
B. Dữ liệu luôn có xu hướng tăng trưởng liên tục trong dài hạn.
C. Dữ liệu hoàn toàn không chứa bất kỳ thành phần ngẫu nhiên nào.
D. Giá trị của ngày hôm nay bằng đúng giá trị của ngày hôm trước.

💡 Lời giải chi tiết:

Một chuỗi thời gian dừng là chuỗi mà các thuộc tính thống kê chính của nó hằng định theo thời gian, giúp việc dự báo trở nên tin cậy hơn, Kết luận Lý giải Các đặc tính thống kê như trung bình và phương sai không thay đổi theo thời gian.

Câu 10: Thành phần nào trong 5V của Big Data mô tả tốc độ mà dữ liệu được tạo ra và cần được xử lý?

A. Volume (Khối lượng).
B. Variety (Đa dạng).
C. Velocity (Tốc độ).
D. Veracity (Độ tin cậy).

💡 Lời giải chi tiết:

Velocity đề cập đến vận tốc dữ liệu truyền vào từ các nguồn như cảm biến, mạng xã hội và yêu cầu khả năng xử lý tức thời của hệ thống, Kết luận Lý giải Velocity (Tốc độ).

Câu 11: Trong bài toán dự báo khách hàng rời bỏ (Churn Prediction), chỉ số 'Recall' (Độ nhạy) cho biết điều gì?

A. Tỷ lệ mô hình dự báo đúng khách hàng thực sự rời bỏ trên tổng số khách hàng rời bỏ thực tế.
B. Tỷ lệ khách hàng không rời bỏ nhưng bị mô hình dự báo nhầm là sẽ rời bỏ.
C. Tỷ lệ dự báo chính xác trên toàn bộ tập dữ liệu bao gồm cả người ở lại và người đi.
D. Chi phí trung bình để giữ chân một khách hàng dựa trên dự báo của mô hình.

💡 Lời giải chi tiết:

Chỉ số Recall đo lường khả năng bao phủ của mô hình đối với các trường hợp dương tính (khách rời bỏ) trong thực tế, Kết luận Lý giải Tỷ lệ mô hình dự báo đúng khách hàng thực sự rời bỏ trên tổng số khách hàng rời bỏ thực tế.

Câu 12: Sự khác biệt cơ bản giữa học máy có giám sát (Supervised Learning) và học máy không giám sát (Unsupervised Learning) là gì?

A. Học có giám sát cần dữ liệu đã được gán nhãn (label), còn học không giám sát thì không.
B. Học không giám sát luôn đạt độ chính xác cao hơn học có giám sát.
C. Học có giám sát chỉ dùng cho dữ liệu văn bản, học không giám sát dùng cho số.
D. Chỉ có học có giám sát mới cần sử dụng máy tính để tính toán.

💡 Lời giải chi tiết:

Học có giám sát học từ các ví dụ đã có đáp án mục tiêu để dự báo, trong khi học không giám sát tự tìm cấu trúc ẩn trong dữ liệu không nhãn, Kết luận Lý giải Học có giám sát cần dữ liệu đã được gán nhãn (label), còn học không giám sát thì không.

Câu 13: Trong phân tích kinh tế, tại sao 'Tương quan' (Correlation) không đồng nghĩa với 'Nhân quả' (Causation)?

A. Vì hai biến có thể cùng thay đổi do tác động của một biến thứ ba mà không trực tiếp gây ra nhau.
B. Vì hệ số tương quan luôn có giá trị bằng 0 trong mọi mô hình kinh tế thực tế.
C. Vì tương quan chỉ áp dụng cho dữ liệu lớn còn nhân quả chỉ áp dụng cho dữ liệu nhỏ.
D. Vì máy tính không thể tính toán được các mối quan hệ nhân quả.

💡 Lời giải chi tiết:

Theo logic thống kê, sự đồng biến giữa hai đại lượng không đủ để khẳng định sự thay đổi của biến này là nguyên nhân trực tiếp dẫn đến sự thay đổi của biến kia, Kết luận Lý giải Vì hai biến có thể cùng thay đổi do tác động của một biến thứ ba mà không trực tiếp gây ra nhau.

Câu 14: Kỹ thuật 'Imputation' trong tiền xử lý dữ liệu có nghĩa là gì?

A. Thay thế các giá trị dữ liệu bị thiếu bằng các giá trị ước tính hợp lý.
B. Xóa toàn bộ các biến có độ lệch chuẩn quá cao khỏi mô hình.
C. Mã hóa dữ liệu định tính thành các số nguyên ngẫu nhiên.
D. Tự động tạo ra dữ liệu giả lập để làm tăng quy mô mẫu.

💡 Lời giải chi tiết:

Imputation là quy trình điền vào các ô trống trong tập dữ liệu bằng các giá trị như trung bình, trung vị hoặc kết quả từ mô hình dự báo để duy trì cấu trúc dữ liệu, Kết luận Lý giải Thay thế các giá trị dữ liệu bị thiếu bằng các giá trị ước tính hợp lý.

Câu 15: Mô hình Hồi quy Logistic (Logistic Regression) thường được ưu tiên sử dụng cho loại biến phụ thuộc nào?

A. Biến phụ thuộc là số thực liên tục như giá nhà hoặc nhiệt độ.
B. Biến phụ thuộc là biến phân loại nhị phân (ví dụ: Có/Không, Thành công/Thất bại).
C. Biến phụ thuộc là một đoạn video hoặc tập hợp các hình ảnh.
D. Biến phụ thuộc là thứ tự xếp hạng của hơn 100 sản phẩm khác nhau.

💡 Lời giải chi tiết:

Hồi quy Logistic sử dụng hàm Sigmoid để chuyển đổi đầu ra thành xác suất thuộc về một trong hai nhóm, rất phù hợp cho bài toán phân loại nhị phân, Kết luận Lý giải Biến phụ thuộc là biến phân loại nhị phân (ví dụ: Có/Không, Thành công/Thất bại).

Câu 16: Trong Cây quyết định (Decision Tree), chỉ số 'Entropy' được dùng để đo lường điều gì?

A. Độ tinh khiết hoặc độ nhiễu thông tin trong một tập dữ liệu.
B. Tốc độ xử lý của thuật toán khi chạy trên máy chủ đám mây.
C. Số lượng các nút lá tối đa mà một cây có thể phát triển.
D. Chi phí vốn đầu tư cần thiết để triển khai mô hình vào thực tế.

💡 Lời giải chi tiết:

Entropy phản ánh mức độ hỗn loạn của dữ liệu; trong cây quyết định, nó giúp chọn ra thuộc tính phân tách dữ liệu hiệu quả nhất để giảm sự không chắc chắn, Kết luận Lý giải Độ tinh khiết hoặc độ nhiễu thông tin trong một tập dữ liệu.

Câu 17: Khái niệm 'ETL' trong kỹ thuật dữ liệu (Data Engineering) là viết tắt của các bước nào?

A. Extract (Trích xuất), Transform (Chuyển đổi), Load (Tải lên).
B. Evaluate (Đánh giá), Test (Kiểm thử), Learn (Học tập).
C. Estimate (Ước tính), Trace (Truy vết), List (Liệt kê).
D. Enter (Nhập), Transfer (Truyền), Log (Ghi nhật ký).

💡 Lời giải chi tiết:

ETL là quy trình cơ bản để tích hợp dữ liệu từ nhiều nguồn, xử lý định dạng và đưa vào kho dữ liệu (Data Warehouse) để phân tích, Kết luận Lý giải Extract (Trích xuất), Transform (Chuyển đổi), Load (Tải lên).

Câu 18: Trong kinh tế học số, 'Độ co giãn của cầu theo giá' có thể được ước lượng chính xác nhất qua mô hình nào?

A. Mô hình hồi quy Log-Log (Double-log model).
B. Mô hình phân cụm K-means không giám sát.
C. Mô hình mạng nơ-ron tích chập (CNN).
D. Mô hình phân tích thành phần chính (PCA).

💡 Lời giải chi tiết:

Trong mô hình Log-Log, các hệ số ước lượng được giải thích trực tiếp là độ co giãn (phần trăm thay đổi của Y khi X thay đổi 1%), Kết luận Lý giải Mô hình hồi quy Log-Log (Double-log model).

Câu 19: Phân tích giỏ hàng (Market Basket Analysis) sử dụng chỉ số 'Lift' để đo lường điều gì?

A. Xác suất hai sản phẩm được mua cùng nhau so với việc chúng được mua ngẫu nhiên.
B. Tổng doanh thu tăng thêm khi khách hàng mua thêm một sản phẩm mới.
C. Khối lượng hàng hóa tối đa mà một giỏ hàng có thể chứa được.
D. Số lượng khách hàng rời bỏ cửa hàng mà không mua bất kỳ thứ gì.

💡 Lời giải chi tiết:

Lift lớn hơn 1 cho thấy việc mua sản phẩm A làm tăng khả năng mua sản phẩm B, giúp doanh nghiệp thiết kế các chương trình khuyến mãi chéo hiệu quả, Kết luận Lý giải Xác suất hai sản phẩm được mua cùng nhau so với việc chúng được mua ngẫu nhiên.

Câu 20: Ứng dụng nào sau đây của Xử lý ngôn ngữ tự nhiên (NLP) phổ biến nhất trong phân tích kinh doanh?

A. Phân tích cảm xúc khách hàng (Sentiment Analysis) từ các bình luận.
B. Tối ưu hóa tuyến đường giao hàng của các xe tải logisitics.
C. Dự báo nhu cầu điện năng tiêu thụ của tòa nhà văn phòng.
D. Phân loại các loại lỗi kỹ thuật trên bảng mạch điện tử.

💡 Lời giải chi tiết:

NLP cho phép doanh nghiệp tự động hóa việc hiểu thái độ tích cực, tiêu cực hoặc trung tính của khách hàng từ lượng lớn dữ liệu văn bản, Kết luận Lý giải Phân tích cảm xúc khách hàng (Sentiment Analysis) từ các bình luận.

Câu 21: Tại sao tính 'Khả năng mở rộng' (Scalability) của điện toán đám mây lại quan trọng đối với Khoa học dữ liệu?

A. Cho phép tăng tài nguyên tính toán tức thì khi khối lượng dữ liệu hoặc độ phức tạp của mô hình tăng lên.
B. Giúp máy tính hoạt động mà không cần kết nối internet hay nguồn điện.
C. Đảm bảo rằng mọi dữ liệu đều được chuyển đổi sang định dạng bản in giấy.
D. Giới hạn số lượng người dùng truy cập vào hệ thống để bảo mật tuyệt đối.

💡 Lời giải chi tiết:

Scalability cho phép các dự án khoa học dữ liệu thích ứng với sự bùng nổ của dữ liệu mà không cần đầu tư quá lớn vào hạ tầng phần cứng cố định, Kết luận Lý giải Cho phép tăng tài nguyên tính toán tức thì khi khối lượng dữ liệu hoặc độ phức tạp của mô hình tăng lên.

Câu 22: Thuật toán Rừng ngẫu nhiên (Random Forest) hoạt động dựa trên cơ chế nào sau đây?

A. Kết hợp kết quả từ nhiều Cây quyết định để đưa ra dự báo cuối cùng chính xác hơn.
B. Chỉ sử dụng duy nhất một cây quyết định có chiều sâu vô hạn.
C. Loại bỏ hoàn toàn các biến có tương quan thấp trước khi bắt đầu huấn luyện.
D. Tìm đường thẳng phân cách tốt nhất giữa các nhóm dữ liệu trong không gian hai chiều.

💡 Lời giải chi tiết:

Random Forest là một mô hình học máy dạng Ensemble (tập hợp) giúp giảm thiểu sai số và hiện tượng quá khớp bằng cách lấy trung bình cộng hoặc bỏ phiếu từ nhiều cây đơn lẻ, Kết luận Lý giải Kết hợp kết quả từ nhiều Cây quyết định để đưa ra dự báo cuối cùng chính xác hơn.

Câu 23: Trong tối ưu hóa mô hình, thuật toán 'Gradient Descent' thực hiện nhiệm vụ gì?

A. Tìm các giá trị tham số của mô hình sao cho hàm mất mát (loss function) đạt giá trị nhỏ nhất.
B. Tự động tăng số lượng biến độc lập cho đến khi mô hình đạt độ chính xác 100%.
C. Xáo trộn thứ tự các quan sát trong tập dữ liệu để đảm bảo tính ngẫu nhiên.
D. Chuyển đổi các hình ảnh từ đen trắng sang ảnh màu để máy tính dễ nhận diện.

💡 Lời giải chi tiết:

Gradient Descent là thuật toán lặp được sử dụng để cập nhật các trọng số của mô hình nhằm cực tiểu hóa sai số giữa giá trị dự báo và giá trị thực tế, Kết luận Lý giải Tìm các giá trị tham số của mô hình sao cho hàm mất mát (loss function) đạt giá trị nhỏ nhất.

Câu 24: Giá trị 'P-value' trong kiểm định giả thuyết thống kê có ý nghĩa gì?

A. Xác suất quan sát được dữ liệu cực đoan như hiện tại nếu giả thuyết không (H0) là đúng.
B. Độ chính xác tuyệt đối của mô hình dự báo trên tập dữ liệu thực tế.
C. Số lượng biến độc lập tối thiểu cần thiết để xây dựng một mô hình hồi quy.
D. Khoảng thời gian cần thiết để thu thập đủ mẫu cho một cuộc khảo sát kinh doanh.

💡 Lời giải chi tiết:

P-value nhỏ (thường dưới 0.05) cho thấy bằng chứng chống lại giả thuyết không là đủ mạnh để bác bỏ nó, khẳng định ý nghĩa thống kê của kết quả, Kết luận Lý giải Xác suất quan sát được dữ liệu cực đoan như hiện tại nếu giả thuyết không (H0) là đúng.

Câu 25: Chỉ số 'Giá trị vòng đời khách hàng' (Customer Lifetime Value - CLV) giúp doanh nghiệp quyết định điều gì?

A. Mức chi phí tối đa có thể bỏ ra để thu hút một khách hàng mới mà vẫn đảm bảo lợi nhuận.
B. Số lượng nhân viên cần thiết để vận hành một cửa hàng bán lẻ trong một ngày.
C. Tỷ giá hối đoái dự kiến giữa các đồng tiền khi kinh doanh quốc tế.
D. Vị trí địa lý tối ưu để đặt kho hàng nhằm giảm chi phí vận chuyển.

💡 Lời giải chi tiết:

CLV dự báo tổng lợi nhuận mà một khách hàng đóng góp cho doanh nghiệp trong suốt mối quan hệ, định hướng cho ngân sách marketing và giữ chân khách hàng, Kết luận Lý giải Mức chi phí tối đa có thể bỏ ra để thu hút một khách hàng mới mà vẫn đảm bảo lợi nhuận.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 9 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 131 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 148 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 165 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 182 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 199 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 216 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Kết quả của bạn:

Câu 1: Sự khác biệt chính giữa Business Intelligence (BI) và Khoa học dữ liệu (Data Science) trong doanh nghiệp là gì?

Câu 2: Trong quy trình chuẩn công nghiệp về khai phá dữ liệu (CRISP-DM), giai đoạn nào được thực hiện đầu tiên?

Câu 3: Hiện tượng 'Overfitting' (Quá khớp) trong xây dựng mô hình dự báo kinh tế xảy ra khi nào?

Câu 4: Mục đích chính của việc sử dụng 'A/B Testing' trong marketing kỹ thuật số là gì?

Câu 5: Thuật toán K-means Clustering thường được ứng dụng vào bài toán kinh doanh nào sau đây?

Câu 6: Trong bước làm sạch dữ liệu, kỹ thuật 'Normalization' (Chuẩn hóa) nhằm mục đích gì?

Câu 7: Dữ liệu nào sau đây được phân loại là 'Dữ liệu phi cấu trúc' (Unstructured Data)?

Câu 8: Hệ thống gợi ý (Recommender System) sử dụng phương pháp 'Collaborative Filtering' dựa trên nguyên lý nào?

Câu 9: Trong phân tích chuỗi thời gian kinh tế, tính 'Dừng' (Stationarity) của dữ liệu có nghĩa là gì?

Câu 10: Thành phần nào trong 5V của Big Data mô tả tốc độ mà dữ liệu được tạo ra và cần được xử lý?

Câu 11: Trong bài toán dự báo khách hàng rời bỏ (Churn Prediction), chỉ số 'Recall' (Độ nhạy) cho biết điều gì?

Câu 12: Sự khác biệt cơ bản giữa học máy có giám sát (Supervised Learning) và học máy không giám sát (Unsupervised Learning) là gì?

Câu 13: Trong phân tích kinh tế, tại sao 'Tương quan' (Correlation) không đồng nghĩa với 'Nhân quả' (Causation)?

Câu 14: Kỹ thuật 'Imputation' trong tiền xử lý dữ liệu có nghĩa là gì?

Câu 15: Mô hình Hồi quy Logistic (Logistic Regression) thường được ưu tiên sử dụng cho loại biến phụ thuộc nào?

Câu 16: Trong Cây quyết định (Decision Tree), chỉ số 'Entropy' được dùng để đo lường điều gì?

Câu 17: Khái niệm 'ETL' trong kỹ thuật dữ liệu (Data Engineering) là viết tắt của các bước nào?

Câu 18: Trong kinh tế học số, 'Độ co giãn của cầu theo giá' có thể được ước lượng chính xác nhất qua mô hình nào?

Câu 19: Phân tích giỏ hàng (Market Basket Analysis) sử dụng chỉ số 'Lift' để đo lường điều gì?

Câu 20: Ứng dụng nào sau đây của Xử lý ngôn ngữ tự nhiên (NLP) phổ biến nhất trong phân tích kinh doanh?

Câu 21: Tại sao tính 'Khả năng mở rộng' (Scalability) của điện toán đám mây lại quan trọng đối với Khoa học dữ liệu?

Câu 22: Thuật toán Rừng ngẫu nhiên (Random Forest) hoạt động dựa trên cơ chế nào sau đây?

Câu 23: Trong tối ưu hóa mô hình, thuật toán 'Gradient Descent' thực hiện nhiệm vụ gì?

Câu 24: Giá trị 'P-value' trong kiểm định giả thuyết thống kê có ý nghĩa gì?

Câu 25: Chỉ số 'Giá trị vòng đời khách hàng' (Customer Lifetime Value - CLV) giúp doanh nghiệp quyết định điều gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top