Bộ 11 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Giai đoạn nào trong quy trình CRISP-DM tập trung vào việc xác định mục tiêu dự án từ góc độ kinh doanh và chuyển đổi chúng thành các mục tiêu của khoa học dữ liệu?
💡 Lời giải chi tiết:
Theo quy trình tiêu chuẩn CRISP-DM, giai đoạn Business Understanding là bước khởi đầu quan trọng nhất nhằm xác định các yêu cầu và mục tiêu cụ thể từ phía doanh nghiệp trước khi thực hiện các bước kỹ thuật. Kết luận Lý giải: Thấu hiểu kinh doanh (Business Understanding)
Câu 2:Trong mô hình hồi quy tuyến tính bội dùng để dự báo doanh thu, hệ số xác định (R-squared) có ý nghĩa như thế nào?
💡 Lời giải chi tiết:
Hệ số xác định R-squared phản ánh tỷ lệ phần trăm sự biến động của biến mục tiêu (doanh thu) có thể được giải thích bằng các biến đầu vào trong mô hình hồi quy. Kết luận Lý giải: Tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập
Câu 3:Thuật ngữ 'Customer Churn Rate' (Tỷ lệ khách hàng rời bỏ) trong phân tích dữ liệu kinh doanh thường được tính dựa trên tiêu chí nào?
💡 Lời giải chi tiết:
Churn Rate là một chỉ số quan trọng đo lường hiệu quả giữ chân khách hàng bằng cách xác định tỷ lệ người dùng chấm dứt quan hệ kinh doanh với doanh nghiệp trong một khoảng thời gian. Kết luận Lý giải: Tỷ lệ khách hàng ngừng sử dụng sản phẩm hoặc dịch vụ
Câu 4:Trong thương mại điện tử, mục đích chính của việc thực hiện A/B Testing trên giao diện website là gì?
💡 Lời giải chi tiết:
A/B Testing là phương pháp thử nghiệm ngẫu nhiên giúp doanh nghiệp xác định thiết kế hoặc nội dung nào mang lại hiệu quả cao nhất về hành vi khách hàng dựa trên dữ liệu thực tế. Kết luận Lý giải: So sánh hiệu quả của hai phiên bản để tối ưu hóa tỷ lệ chuyển đổi
Câu 5:Vấn đề 'mất cân bằng dữ liệu' (data imbalance) thường gặp trong bài toán chấm điểm tín dụng (Credit Scoring) là do yếu tố nào?
💡 Lời giải chi tiết:
Trong thực tế ngân hàng, tỷ lệ khách hàng vỡ nợ (nợ xấu) thường rất thấp so với nhóm khách hàng trả nợ tốt, gây khó khăn cho các thuật toán học máy trong việc nhận diện đặc điểm của nhóm thiểu số. Kết luận Lý giải: Số lượng hồ sơ nợ xấu ít hơn rất nhiều so với hồ sơ nợ tốt
Câu 6:Kỹ thuật 'Collaborative Filtering' (Lọc cộng tác) trong hệ thống gợi ý sản phẩm dựa trên nguyên lý cốt lõi nào?
💡 Lời giải chi tiết:
Lọc cộng tác phân tích lịch sử tương tác của người dùng để đưa ra gợi ý dựa trên sở thích của những người dùng khác có hành vi tương tự. Kết luận Lý giải: Dựa trên sự tương đồng về hành vi giữa các người dùng
Câu 7:Hiện tượng 'Overfitting' (quá khớp) xảy ra khi nào trong quá trình huấn luyện mô hình kinh doanh?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học cả những nhiễu và chi tiết ngẫu nhiên trong tập huấn luyện, làm mất đi khả năng tổng quát hóa trên các tập dữ liệu chưa từng thấy. Kết luận Lý giải: Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu thực tế mới
Câu 8:Sự khác biệt chính giữa phân tích mô tả (Descriptive Analytics) và phân tích dự báo (Predictive Analytics) trong kinh doanh là gì?
💡 Lời giải chi tiết:
Phân tích mô tả tóm tắt dữ liệu lịch sử để hiểu 'điều gì đã xảy ra', trong khi phân tích dự báo sử dụng các mô hình thống kê để ước tính 'điều gì có thể xảy ra'. Kết luận Lý giải: Phân tích mô tả tập trung vào quá khứ, phân tích dự báo tập trung vào tương lai
Câu 9:Trong phân khúc khách hàng, mô hình RFM sử dụng ba chỉ số chính là gì để đánh giá giá trị khách hàng?
💡 Lời giải chi tiết:
RFM là một kỹ thuật tiếp thị dùng để đánh giá giá trị khách hàng dựa trên thời gian mua gần nhất (Recency), tần suất mua (Frequency) và tổng số tiền chi tiêu (Monetary). Kết luận Lý giải: Recency, Frequency, Monetary
Câu 10:Thuật toán Apriori thường được ứng dụng phổ biến nhất trong bài toán kinh doanh nào dưới đây?
💡 Lời giải chi tiết:
Thuật toán Apriori được sử dụng để khai phá luật kết hợp, giúp doanh nghiệp bán lẻ hiểu được các sản phẩm nào thường được khách hàng mua cùng nhau. Kết luận Lý giải: Phân tích giỏ hàng (Market Basket Analysis)
Câu 11:Trong ma trận nhầm lẫn (Confusion Matrix) của mô hình phân loại, chỉ số 'Precision' (độ chính xác) được hiểu là gì?
💡 Lời giải chi tiết:
Độ chính xác (Precision) đo lường khả năng của mô hình trong việc không gán nhãn tích cực cho một mẫu thực tế là tiêu cực. Kết luận Lý giải: Tỷ lệ các trường hợp dự báo đúng là tích cực trên tổng số dự báo tích cực
Câu 12:Tại sao việc chuẩn hóa dữ liệu (Data Normalization) lại cần thiết trước khi áp dụng thuật toán phân cụm K-Means?
💡 Lời giải chi tiết:
Vì K-Means sử dụng khoảng cách Euclid, các biến có phạm vi giá trị lớn sẽ gây ảnh hưởng áp đảo so với các biến có phạm vi nhỏ nếu không được chuẩn hóa về cùng một thang đo. Kết luận Lý giải: Để các biến có thang đo khác nhau đóng góp bình đẳng vào việc tính toán khoảng cách
Câu 13:'Tính mùa vụ' (Seasonality) trong phân tích chuỗi thời gian kinh tế được định nghĩa là gì?
💡 Lời giải chi tiết:
Tính mùa vụ phản ánh các quy luật thay đổi của dữ liệu (như doanh số bán lẻ tăng vào dịp Giáng sinh) lặp lại đều đặn theo các khoảng thời gian cố định. Kết luận Lý giải: Các biến động lặp lại theo chu kỳ thời gian cố định trong năm
Câu 14:Đặc điểm nhận dạng chính của học có giám sát (Supervised Learning) so với học không giám sát là gì?
💡 Lời giải chi tiết:
Học có giám sát dựa trên việc ánh xạ đầu vào với các đầu ra (nhãn) đã biết trước để huấn luyện mô hình dự đoán cho dữ liệu mới. Kết luận Lý giải: Sử dụng dữ liệu huấn luyện đã được gắn nhãn
Câu 15:Trong mô hình 5V của Big Data, đặc điểm 'Velocity' đề cập đến khía cạnh nào trong kinh doanh dữ liệu?
💡 Lời giải chi tiết:
Velocity trong Big Data nhấn mạnh vào tốc độ dữ liệu được sinh ra liên tục và yêu cầu xử lý gần như thời gian thực để mang lại lợi thế cạnh tranh. Kết luận Lý giải: Tốc độ tạo ra và xử lý dữ liệu
Câu 16:Mục tiêu cốt lõi của quá trình 'Feature Engineering' trong phát triển mô hình khoa học dữ liệu là gì?
💡 Lời giải chi tiết:
Feature Engineering sử dụng kiến thức chuyên môn về dữ liệu để tạo ra các đặc trưng giúp thuật toán học máy hiểu bài toán tốt hơn và dự báo chính xác hơn. Kết luận Lý giải: Tạo ra các thuộc tính mới từ dữ liệu thô để tăng độ chính xác của mô hình
Câu 17:Ưu điểm nổi bật nhất của mô hình Cây quyết định (Decision Tree) giúp nó được ưa chuộng trong quản trị kinh doanh là gì?
💡 Lời giải chi tiết:
Cây quyết định cung cấp sơ đồ logic rõ ràng giúp nhà quản lý hiểu được tại sao mô hình lại đưa ra một dự báo hoặc đề xuất cụ thể. Kết luận Lý giải: Tính trực quan và khả năng giải thích cao cho người ra quyết định
Câu 18:Theo các nguyên tắc về đạo đức AI, 'Sự minh bạch' (Transparency) trong mô hình chấm điểm tín dụng yêu cầu điều gì?
💡 Lời giải chi tiết:
Sự minh bạch yêu cầu doanh nghiệp phải giải thích được logic hoặc các yếu tố ảnh hưởng đến quyết định từ chối hay chấp nhận tín dụng đối với khách hàng. Kết luận Lý giải: Khả năng giải trình cách thức mô hình đưa ra quyết định cụ thể
Câu 19:Điểm khác biệt cơ bản về cách lưu trữ dữ liệu giữa Data Warehouse và Data Lake là gì?
💡 Lời giải chi tiết:
Data Warehouse tập trung vào dữ liệu đã qua xử lý và tối ưu cho báo cáo, trong khi Data Lake giữ dữ liệu ở định dạng gốc để phục vụ phân tích chuyên sâu. Kết luận Lý giải: Data Warehouse lưu dữ liệu đã cấu trúc, Data Lake lưu dữ liệu thô đa dạng
Câu 20:Tại sao hồi quy Logistic lại phù hợp hơn hồi quy tuyến tính cho bài toán dự báo một khách hàng có mua hàng hay không?
💡 Lời giải chi tiết:
Hồi quy Logistic sử dụng hàm Sigmoid để chuyển đổi đầu ra thành xác suất, rất phù hợp cho các bài toán phân loại nhị phân (Có/Không). Kết luận Lý giải: Đầu ra của hồi quy Logistic biểu thị xác suất trong khoảng từ 0 đến 1
Câu 21:Trong phân tích cảm xúc (Sentiment Analysis) khách hàng, bước 'Tokenization' (Mã hóa thực thể) thực hiện nhiệm vụ gì?
💡 Lời giải chi tiết:
Tokenization là kỹ thuật tiền xử lý văn bản bằng cách tách các chuỗi ký tự dài thành các đơn vị có nghĩa để máy tính có thể phân tích. Kết luận Lý giải: Quá trình chia nhỏ văn bản thành các đơn vị cơ bản như từ hoặc cụm từ
Câu 22:Hiện tượng 'Selection Bias' (sai lệch lựa chọn) xảy ra trong thu thập dữ liệu kinh doanh khi nào?
💡 Lời giải chi tiết:
Sai lệch lựa chọn dẫn đến các kết luận sai lầm về thị trường do mẫu dữ liệu được phân tích không phản ánh đúng đặc điểm của toàn bộ đối tượng khách hàng mục tiêu. Kết luận Lý giải: Mẫu dữ liệu không đại diện cho quần thể do phương pháp chọn mẫu
Câu 23:Nguyên tắc thiết kế Dashboard nào sau đây là quan trọng nhất để hỗ trợ cấp quản lý ra quyết định nhanh chóng?
💡 Lời giải chi tiết:
Một Dashboard hiệu quả phải giúp người quản lý nắm bắt ngay các vấn đề trọng yếu thông qua các chỉ số KPIs được trình bày rõ ràng, tinh gọn. Kết luận Lý giải: Tập trung vào các chỉ số hiệu suất cốt lõi (KPIs) quan trọng nhất
Câu 24:Mô hình 'Random Forest' cải thiện kết quả dự báo trong kinh doanh dựa trên cơ chế chính nào?
💡 Lời giải chi tiết:
Random Forest là một thuật toán học tập tập hợp (Ensemble Learning) hoạt động bằng cách xây dựng nhiều cây quyết định và lấy kết quả trung bình hoặc đa số để giảm sai số. Kết luận Lý giải: Kết hợp dự báo từ nhiều cây quyết định độc lập
Câu 25:Mục tiêu chính của 'Quản trị dữ liệu' (Data Governance) trong một doanh nghiệp hiện đại là gì?
💡 Lời giải chi tiết:
Quản trị dữ liệu thiết lập các tiêu chuẩn và quy trình để đảm bảo dữ liệu là tài sản đáng tin cậy, được bảo vệ và sử dụng hiệu quả trong tổ chức. Kết luận Lý giải: Đảm bảo tính chính xác, an toàn và tuân thủ các quy định về dữ liệu