Bộ 15 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong mô hình 5V của Big Data, yếu tố 'Velocity' (Tốc độ) đề cập đến khía cạnh nào sau đây trong kinh doanh?
💡 Lời giải chi tiết:
Theo phân tích phổ biến, Velocity đại diện cho tốc độ dữ liệu được tạo ra và yêu cầu phải được xử lý nhanh chóng để đáp ứng nhu cầu ra quyết định trong thực tế kinh doanh. Kết luận Lý giải Tốc độ dữ liệu được tạo ra và xử lý để đưa ra quyết định kịp thời.
Câu 2:Khi một ngân hàng sử dụng dữ liệu lịch sử về thu nhập và nợ để dự báo khả năng vỡ nợ của khách hàng mới, họ đang áp dụng loại học máy nào?
💡 Lời giải chi tiết:
Học có giám sát được sử dụng khi mô hình được huấn luyện trên dữ liệu đã có nhãn mục tiêu cụ thể, ở đây là trạng thái vỡ nợ hoặc không vỡ nợ của khách hàng. Kết luận Lý giải Học có giám sát (Supervised Learning).
Câu 3:Kỹ thuật nào sau đây phù hợp nhất để một doanh nghiệp bán lẻ tự động phân nhóm khách hàng dựa trên hành vi mua sắm mà không có tiêu chí định trước?
💡 Lời giải chi tiết:
Phân cụm là một phương pháp học không giám sát dùng để nhóm các đối tượng có đặc điểm tương đồng mà không cần nhãn dữ liệu có sẵn. Kết luận Lý giải Phân cụm (Clustering).
Câu 4:Tại sao việc xử lý 'Outliers' (Giá trị ngoại lai) lại là bước cực kỳ quan trọng trong tiền xử lý dữ liệu kinh tế?
💡 Lời giải chi tiết:
Theo nguyên tắc thống kê, các giá trị ngoại lai có thể gây ảnh hưởng nghiêm trọng đến các tham số của mô hình và dẫn đến những kết luận sai lệch về xu hướng chung. Kết luận Lý giải Vì chúng có thể làm sai lệch các chỉ số thống kê như trung bình cộng và gây nhiễu cho mô hình dự báo.
Câu 5:Trong mô hình hồi quy tuyến tính, chỉ số 'R-squared' (Hệ số xác định) mang ý nghĩa gì?
💡 Lời giải chi tiết:
R-squared là một thước đo thống kê cho biết mức độ phù hợp của mô hình bằng cách thể hiện tỷ lệ phần trăm sự biến động của biến mục tiêu được giải thích bởi mô hình. Kết luận Lý giải Tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
Câu 6:Hiện tượng 'Overfitting' (Quá khớp) trong khoa học dữ liệu xảy ra khi nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học quá chi tiết cả những nhiễu trong tập dữ liệu huấn luyện, dẫn đến khả năng tổng quát hóa kém đối với các dữ liệu mà nó chưa từng thấy. Kết luận Lý giải Mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu thực tế mới.
Câu 7:Trong Marketing, kỹ thuật 'A/B Testing' chủ yếu được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
A/B Testing là phương pháp thực nghiệm trong đó hai phiên bản được so sánh để xác định phiên bản nào đạt được mục tiêu kinh doanh tốt hơn. Kết luận Lý giải Để so sánh hiệu quả của hai phiên bản khác nhau của một yếu tố nhằm tối ưu hóa chuyển đổi.
Câu 8:Thuật ngữ 'Churn Prediction' trong kinh doanh dịch vụ đề cập đến bài toán nào?
💡 Lời giải chi tiết:
Dự đoán rời bỏ khách hàng (Churn Prediction) là một bài toán phân lớp quan trọng giúp doanh nghiệp chủ động thực hiện các biện pháp giữ chân khách hàng. Kết luận Lý giải Dự đoán khả năng khách hàng sẽ ngừng sử dụng dịch vụ của doanh nghiệp.
Câu 9:Trong quy trình Khoa học dữ liệu, bước ETL (Extract, Transform, Load) có vai trò chính là gì?
💡 Lời giải chi tiết:
ETL là quy trình nền tảng để chuẩn bị dữ liệu sạch và nhất quán trước khi tiến hành các phân tích chuyên sâu hoặc xây dựng mô hình. Kết luận Lý giải Trích xuất, biến đổi và nạp dữ liệu từ các nguồn khác nhau vào kho lưu trữ để phân tích.
Câu 10:Chỉ số 'Recall' (Độ gợi nhớ) đặc biệt quan trọng hơn 'Accuracy' (Độ chính xác tổng thể) trong tình huống kinh doanh nào sau đây?
💡 Lời giải chi tiết:
Trong phát hiện gian lận, việc bỏ sót một trường hợp gian lận thực tế gây thiệt hại lớn hơn nhiều so với việc kiểm tra nhầm một giao dịch hợp pháp, do đó Recall cần được ưu tiên. Kết luận Lý giải Phát hiện gian lận thẻ tín dụng nhằm tránh bỏ sót các giao dịch nguy hiểm.
Câu 11:Sự khác biệt cốt lõi giữa 'Correlation' (Tương quan) và 'Causation' (Nhân quả) trong phân tích kinh tế là gì?
💡 Lời giải chi tiết:
Một sai lầm phổ biến trong phân tích dữ liệu là đánh đồng việc hai biến biến thiên cùng nhau với việc chúng có quan hệ nguyên nhân - kết quả trực tiếp. Kết luận Lý giải Sự tương quan về số liệu không khẳng định chắc chắn rằng biến này gây ra biến kia.
Câu 12:Ứng dụng nào sau đây là ví dụ điển hình của 'Sentiment Analysis' (Phân tích cảm xúc) trong quản trị trải nghiệm khách hàng?
💡 Lời giải chi tiết:
Phân tích cảm xúc sử dụng xử lý ngôn ngữ tự nhiên để hiểu thái độ và ý kiến của khách hàng từ các dữ liệu văn bản không cấu trúc. Kết luận Lý giải Tự động phân loại đánh giá của khách hàng trên mạng xã hội là tích cực hay tiêu cực.
Câu 13:Trong tiền xử lý dữ liệu, phương pháp 'Imputation' đề cập đến việc gì?
💡 Lời giải chi tiết:
Thay vì loại bỏ dữ liệu quý giá, kỹ thuật Imputation giúp duy trì kích thước mẫu bằng cách điền vào các khoảng trống dữ liệu bằng các ước lượng thống kê. Kết luận Lý giải Thay thế các giá trị bị thiếu bằng các giá trị ước tính hợp lý như trung bình hoặc trung vị.
Câu 14:Lợi ích chính của việc sử dụng 'Random Forest' so với một 'Decision Tree' (Cây quyết định) đơn lẻ là gì?
💡 Lời giải chi tiết:
Random Forest là một phương pháp Ensemble giúp cải thiện độ ổn định và độ chính xác dự báo bằng cách lấy trung bình kết quả từ một tập hợp các cây quyết định độc lập. Kết luận Lý giải Giảm thiểu biến số và tránh hiện tượng quá khớp bằng cách kết hợp nhiều cây quyết định.
Câu 15:Thuật toán 'Apriori' thường được các doanh nghiệp thương mại điện tử sử dụng cho mục đích nào?
💡 Lời giải chi tiết:
Phân tích giỏ hàng (Market Basket Analysis) thông qua thuật toán Apriori giúp doanh nghiệp hiểu được mối liên hệ giữa các mặt hàng để thực hiện chiến lược bán chéo (cross-selling) hiệu quả. Kết luận Lý giải Để tìm ra các quy tắc kết hợp giữa các sản phẩm mà khách hàng thường mua cùng nhau.
Câu 16:Trong bối cảnh Khoa học dữ liệu, 'Feature Engineering' (Kỹ thuật đặc trưng) có ý nghĩa như thế nào?
💡 Lời giải chi tiết:
Kỹ thuật đặc trưng đóng vai trò quyết định đến hiệu suất của mô hình học máy bằng cách cung cấp các thông tin có ý nghĩa hơn từ dữ liệu gốc. Kết luận Lý giải Là việc tạo ra các biến mới từ dữ liệu thô để giúp mô hình học tập hiệu quả hơn.
Câu 17:Quy định bảo vệ dữ liệu chung (GDPR) của Liên minh Châu Âu có ảnh hưởng quan trọng nhất như thế nào đến Khoa học dữ liệu?
💡 Lời giải chi tiết:
GDPR thiết lập khung pháp lý chặt chẽ buộc các nhà khoa học dữ liệu phải cân nhắc kỹ lưỡng về tính tuân thủ pháp luật và đạo đức khi xử lý dữ liệu cá nhân. Kết luận Lý giải Áp đặt các tiêu chuẩn nghiêm ngặt về quyền riêng tư và bảo vệ dữ liệu cá nhân của người dùng.
Câu 18:Sự khác biệt chính giữa 'Data Lake' (Hồ dữ liệu) và 'Data Warehouse' (Kho dữ liệu) là gì?
💡 Lời giải chi tiết:
Hồ dữ liệu cho phép lưu giữ dữ liệu ở trạng thái nguyên bản để linh hoạt trong phân tích sau này, trong khi Kho dữ liệu tối ưu hóa cho các báo cáo có cấu trúc định kỳ. Kết luận Lý giải Data Lake lưu trữ dữ liệu thô ở mọi định dạng, còn Data Warehouse lưu trữ dữ liệu đã được cấu trúc và xử lý.
Câu 19:Loại dữ liệu nào sau đây được coi là 'Unstructured Data' (Dữ liệu không cấu trúc) trong kinh doanh?
💡 Lời giải chi tiết:
Dữ liệu không cấu trúc không có định dạng dòng-cột cứng nhắc, chiếm phần lớn dữ liệu được tạo ra hiện nay và đòi hỏi các kỹ thuật xử lý đặc biệt như NLP hoặc Computer Vision. Kết luận Lý giải Các file ghi âm cuộc gọi chăm sóc khách hàng và các bài đăng trên mạng xã hội.
Câu 20:Trong ma trận nhầm lẫn (Confusion Matrix), trường hợp 'False Positive' (Dương tính giả) có nghĩa là gì?
💡 Lời giải chi tiết:
Dương tính giả xảy ra khi mô hình đưa ra một cảnh báo hoặc dự báo có sự kiện xảy ra trong khi sự kiện đó không hề có trong thực tế. Kết luận Lý giải Mô hình dự báo là có nhưng thực tế lại là không.
Câu 21:Vai trò chính của 'Prescriptive Analytics' (Phân tích kê đơn) trong chuỗi cung ứng là gì?
💡 Lời giải chi tiết:
Phân tích kê đơn vượt xa việc dự báo bằng cách sử dụng các thuật toán tối ưu hóa để chỉ ra hành động tốt nhất mà doanh nghiệp nên thực hiện. Kết luận Lý giải Đưa ra các khuyến nghị hành động cụ thể để tối ưu hóa quy trình và giảm thiểu chi phí.
Câu 22:Kỹ thuật 'Cross-Validation' (Kiểm tra chéo) thường được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
Kiểm tra chéo giúp đảm bảo rằng hiệu suất của mô hình không phải là kết quả của sự may mắn trên một tập dữ liệu cụ thể và đánh giá độ tin cậy của mô hình trên dữ liệu mới. Kết luận Lý giải Để đánh giá khả năng tổng quát hóa của mô hình trên các tập dữ liệu độc lập.
Câu 23:Tại sao các mô hình học máy trong tuyển dụng có thể gây ra định kiến (Bias) đối với một nhóm ứng viên nhất định?
💡 Lời giải chi tiết:
Định kiến trong AI thường phản chiếu những thành kiến đã tồn tại sẵn trong dữ liệu lịch sử mà con người tạo ra và dùng để huấn luyện thuật toán. Kết luận Lý giải Vì dữ liệu lịch sử dùng để huấn luyện mô hình có chứa các quyết định thiên vị trong quá khứ.
Câu 24:Đặc điểm cơ bản của dữ liệu chuỗi thời gian (Time Series) được dùng trong dự báo chứng khoán là gì?
💡 Lời giải chi tiết:
Dữ liệu chuỗi thời gian yêu cầu các kỹ thuật phân tích đặc thù vì thứ tự thời gian của các quan sát chứa đựng thông tin về xu hướng và tính chu kỳ. Kết luận Lý giải Các quan sát được thu thập theo một trình tự thời gian liên tục và có tính phụ thuộc lẫn nhau.
Câu 25:Công cụ nào sau đây thường được sử dụng phổ biến nhất để truy vấn dữ liệu từ các cơ sở dữ liệu quan hệ trong doanh nghiệp?
💡 Lời giải chi tiết:
SQL là ngôn ngữ tiêu chuẩn và thiết yếu nhất để các nhà phân tích tương tác, truy xuất và quản lý dữ liệu trong hầu hết các hệ quản trị cơ sở dữ liệu doanh nghiệp hiện nay. Kết luận Lý giải SQL (Structured Query Language).