Quay lại danh mục Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Trang chủ
Trắc nghiệm
Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh
Bộ 14 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ 14 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Lưu ý: Nội dung trong bài Bộ 14 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong lĩnh vực khoa học dữ liệu, thành phần nào sau đây đóng vai trò là 'nguyên liệu' đầu vào cốt lõi để tạo ra giá trị kinh doanh?

A. Các thuật toán học máy phức tạp.
B. Hệ thống phần cứng máy tính.
C. Dữ liệu (Data).
D. Kỹ năng lập trình Python.

💡 Lời giải chi tiết:

Dữ liệu được coi là nền tảng và nguyên liệu thô mà từ đó các quy trình khoa học dữ liệu trích xuất tri thức phục vụ ra quyết định trong kinh tế. Kết luận Lý giải Dữ liệu (Data).

Câu 2: Mô hình học máy nào sau đây thường được sử dụng nhất để dự báo một giá trị liên tục, chẳng hạn như doanh thu bán hàng tháng tới?

A. Hồi quy tuyến tính (Linear Regression).
B. Hồi quy Logistic (Logistic Regression).
C. Phân cụm K-means (K-means Clustering).
D. Thuật toán Apriori.

💡 Lời giải chi tiết:

Hồi quy tuyến tính là phương pháp thống kê và học máy cơ bản dùng để dự đoán giá trị của một biến phụ thuộc định lượng dựa trên các biến độc lập. Kết luận Lý giải Hồi quy tuyến tính (Linear Regression).

Câu 3: Trong phân tích khách hàng, kỹ thuật nào giúp doanh nghiệp chia nhóm khách hàng có đặc điểm hành vi tương đồng mà không cần biết trước nhãn nhóm?

A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Hồi quy (Regression).
D. Kiểm định giả thuyết (Hypothesis Testing).

💡 Lời giải chi tiết:

Phân cụm là một kỹ thuật học không giám sát giúp phát hiện các cấu trúc tự nhiên và nhóm các đối tượng tương đồng trong tập dữ liệu. Kết luận Lý giải Phân cụm (Clustering).

Câu 4: Chỉ số 'R-squared' (Hệ số xác định) trong mô hình hồi quy có ý nghĩa chính là gì?

A. Độ chính xác của việc phân loại các nhóm dữ liệu.
B. Xác suất để giả thuyết không (Null hypothesis) là đúng.
C. Tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
D. Mức độ tương quan thuận giữa hai biến bất kỳ.

💡 Lời giải chi tiết:

R-squared đo lường phần trăm sự biến động của biến mục tiêu mà mô hình có thể giải thích được, phản ánh mức độ phù hợp của mô hình với dữ liệu thực tế. Kết luận Lý giải Tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.

Câu 5: Khi xây dựng mô hình dự báo nợ xấu ngân hàng, nếu mô hình hoạt động rất tốt trên tập dữ liệu huấn luyện nhưng rất kém trên dữ liệu thực tế mới, hiện tượng này gọi là gì?

A. Underfitting (Học chưa tới).
B. Overfitting (Quá khớp).
C. Data Cleaning (Làm sạch dữ liệu).
D. Feature Engineering (Kỹ nghệ đặc trưng).

💡 Lời giải chi tiết:

Quá khớp xảy ra khi mô hình học cả những nhiễu trong dữ liệu huấn luyện dẫn đến khả năng tổng quát hóa kém trên dữ liệu mới. Kết luận Lý giải Overfitting (Quá khớp).

Câu 6: Kỹ thuật 'A/B Testing' trong kinh doanh trực tuyến thường được sử dụng nhằm mục đích chính nào?

A. Xác định nhóm khách hàng tiềm năng nhất thông qua phân cụm.
B. So sánh hai phiên bản (A và B) để xác định phiên bản nào mang lại hiệu quả cao hơn dựa trên số liệu thực tế.
C. Dự báo doanh thu dài hạn của doanh nghiệp trong 5 năm tới.
D. Tự động hóa quy trình nhập liệu vào hệ thống kho dữ liệu.

💡 Lời giải chi tiết:

A/B testing là một thử nghiệm ngẫu nhiên có kiểm soát giúp doanh nghiệp đưa ra quyết định dựa trên dữ liệu bằng cách so sánh hiệu suất giữa các phương án. Kết luận Lý giải So sánh hai phiên bản (A và B) để xác định phiên bản nào mang lại hiệu quả cao hơn dựa trên số liệu thực tế.

Câu 7: Trong ma trận nhầm lẫn (Confusion Matrix), 'Precision' (Độ chính xác) được định nghĩa như thế nào?

A. Tỷ lệ số điểm dự báo đúng trên tổng số điểm dữ liệu.
B. Tỷ lệ số trường hợp thực sự tích cực trong số tất cả các trường hợp được dự báo là tích cực.
C. Tỷ lệ số trường hợp thực sự tích cực bị bỏ lỡ bởi mô hình.
D. Khả năng mô hình dự báo đúng các trường hợp tiêu cực.

💡 Lời giải chi tiết:

Độ chính xác (Precision) đo lường chất lượng của các dự báo tích cực, cho biết có bao nhiêu kết quả dự báo đúng trong tổng số kết quả được gắn nhãn tích cực. Kết luận Lý giải Tỷ lệ số trường hợp thực sự tích cực trong số tất cả các trường hợp được dự báo là tích cực.

Câu 8: Dữ liệu nào sau đây được phân loại là dữ liệu phi cấu trúc (Unstructured Data)?

A. Bảng danh sách khách hàng trong cơ sở dữ liệu SQL.
B. Các tệp tin Excel chứa báo cáo tài chính định kỳ.
C. Nội dung các bài đăng và bình luận của khách hàng trên mạng xã hội.
D. Số dư tài khoản ngân hàng của khách hàng.

💡 Lời giải chi tiết:

Dữ liệu phi cấu trúc là dữ liệu không có định dạng hàng và cột cố định, điển hình là văn bản tự do, hình ảnh và âm thanh. Kết luận Lý giải Nội dung các bài đăng và bình luận của khách hàng trên mạng xã hội.

Câu 9: Mục tiêu chính của bước 'Làm sạch dữ liệu' (Data Cleaning) trong quy trình khoa học dữ liệu là gì?

A. Tăng số lượng biến độc lập để mô hình phức tạp hơn.
B. Loại bỏ hoặc xử lý các giá trị thiếu, giá trị ngoại lệ và lỗi để nâng cao chất lượng dữ liệu.
C. Chuyển đổi dữ liệu sang dạng hình ảnh để dễ trình bày.
D. Giảm dung lượng lưu trữ của máy chủ bằng cách nén dữ liệu.

💡 Lời giải chi tiết:

Làm sạch dữ liệu nhằm đảm bảo tính chính xác và nhất quán của dữ liệu đầu vào, từ đó giúp mô hình phân tích đưa ra kết quả tin cậy hơn. Kết luận Lý giải Loại bỏ hoặc xử lý các giá trị thiếu, giá trị ngoại lệ và lỗi để nâng cao chất lượng dữ liệu.

Câu 10: Thuật toán 'Apriori' thường được ứng dụng trong bài toán kinh doanh nào dưới đây?

A. Dự báo giá cổ phiếu theo thời gian.
B. Phân tích giỏ hàng (Market Basket Analysis) để tìm ra các sản phẩm thường được mua cùng nhau.
C. Nhận diện khuôn mặt khách hàng tại cửa hàng.
D. Tối ưu hóa tuyến vận tải cho nhân viên giao hàng.

💡 Lời giải chi tiết:

Thuật toán Apriori được sử dụng để khai thác luật kết hợp, giúp tìm ra mối liên hệ giữa các mặt hàng trong các giao dịch mua sắm. Kết luận Lý giải Phân tích giỏ hàng (Market Basket Analysis) để tìm ra các sản phẩm thường được mua cùng nhau.

Câu 11: Trong kiểm định giả thuyết thống kê, giá trị 'p-value' nhỏ hơn mức ý nghĩa (ví dụ p < 0.05) có nghĩa là gì?

A. Có bằng chứng đủ mạnh để bác bỏ giả thuyết không (Null hypothesis).
B. Dữ liệu thu thập được hoàn toàn không có giá trị phân tích.
C. Mô hình dự báo có sai số quá lớn không thể sử dụng.
D. Giả thuyết không chắc chắn đúng 95%.

💡 Lời giải chi tiết:

Một giá trị p nhỏ cho thấy kết quả quan sát được rất ít khả năng xảy ra do ngẫu nhiên, dẫn đến việc bác bỏ giả thuyết không để ủng hộ giả thuyết đối. Kết luận Lý giải Có bằng chứng đủ mạnh để bác bỏ giả thuyết không (Null hypothesis).

Câu 12: Phương pháp 'K-fold Cross-Validation' được sử dụng chủ yếu để làm gì?

A. Tăng kích thước của tập dữ liệu huấn luyện ban đầu.
B. Đánh giá hiệu suất và khả năng tổng quát hóa của mô hình trên các tập con dữ liệu khác nhau.
C. Mã hóa các biến phân loại thành biến số.
D. Tự động lựa chọn thuật toán học máy tốt nhất.

💡 Lời giải chi tiết:

Kiểm định chéo K-fold chia dữ liệu thành nhiều phần để huấn luyện và kiểm tra lặp lại, giúp đánh giá độ ổn định và khách quan của mô hình. Kết luận Lý giải Đánh giá hiệu suất và khả năng tổng quát hóa của mô hình trên các tập con dữ liệu khác nhau.

Câu 13: Hệ thống gợi ý (Recommendation Systems) sử dụng kỹ thuật 'Collaborative Filtering' dựa trên thông tin nào?

A. Mô tả chi tiết về thuộc tính kỹ thuật của sản phẩm.
B. Hành vi và sở thích tương đồng giữa các người dùng (users).
C. Giá cả của sản phẩm so với đối thủ cạnh tranh.
D. Vị trí địa lý của kho hàng.

💡 Lời giải chi tiết:

Lọc cộng tác (Collaborative Filtering) tìm kiếm sự tương đồng trong lịch sử tương tác của người dùng để đưa ra gợi ý sản phẩm phù hợp. Kết luận Lý giải Hành vi và sở thích tương đồng giữa các người dùng (users).

Câu 14: Sự khác biệt chính giữa 'Kho dữ liệu' (Data Warehouse) và 'Hồ dữ liệu' (Data Lake) là gì?

A. Data Warehouse chỉ chứa dữ liệu cũ, Data Lake chứa dữ liệu mới.
B. Data Warehouse lưu trữ dữ liệu đã được cấu trúc và xử lý, trong khi Data Lake lưu trữ dữ liệu thô ở nhiều định dạng.
C. Data Lake chỉ dành cho doanh nghiệp nhỏ, Data Warehouse cho tập đoàn lớn.
D. Không có sự khác biệt, hai khái niệm này là một.

💡 Lời giải chi tiết:

Kho dữ liệu tập trung vào dữ liệu đã qua xử lý cho mục đích báo cáo, trong khi hồ dữ liệu lưu trữ mọi dạng dữ liệu thô để phân tích sâu hơn sau này. Kết luận Lý giải Data Warehouse lưu trữ dữ liệu đã được cấu trúc và xử lý, trong khi Data Lake lưu trữ dữ liệu thô ở nhiều định dạng.

Câu 15: Trong mô hình cây quyết định (Decision Tree), khái niệm 'Gini Impurity' hoặc 'Entropy' dùng để đo lường điều gì?

A. Tốc độ tính toán của thuật toán.
B. Mức độ hỗn loạn hoặc độ không tinh khiết của thông tin tại một nút.
C. Chiều sâu tối đa mà cây có thể đạt được.
D. Số lượng lá tối thiểu của cây quyết định.

💡 Lời giải chi tiết:

Các chỉ số này giúp xác định cách phân chia tốt nhất tại mỗi nút bằng cách giảm thiểu độ hỗn loạn của các lớp dữ liệu sau khi chia. Kết luận Lý giải Mức độ hỗn loạn hoặc độ không tinh khiết của thông tin tại một nút.

Câu 16: Thuật toán 'Random Forest' cải thiện kết quả so với một 'Decision Tree' đơn lẻ chủ yếu bằng cách nào?

A. Sử dụng cây quyết định có chiều sâu vô hạn.
B. Kết hợp dự báo từ nhiều cây quyết định khác nhau để giảm biến số và lỗi quá khớp.
C. Loại bỏ hoàn toàn các biến độc lập không quan trọng.
D. Chỉ sử dụng tập dữ liệu kiểm tra để huấn luyện.

💡 Lời giải chi tiết:

Random Forest là một phương pháp học kết hợp (ensemble) giúp tăng độ chính xác và ổn định bằng cách tổng hợp kết quả từ nhiều cây độc lập. Kết luận Lý giải Kết hợp dự báo từ nhiều cây quyết định khác nhau để giảm biến số và lỗi quá khớp.

Câu 17: Trong kinh tế học, việc nhầm lẫn giữa 'Tương quan' (Correlation) và 'Nhân quả' (Causation) có thể dẫn đến hệ quả gì?

A. Mô hình luôn có độ chính xác 100%.
B. Đưa ra các quyết định chính sách hoặc kinh doanh sai lầm vì hiểu sai nguồn gốc của vấn đề.
C. Giúp tiết kiệm chi phí thu thập dữ liệu.
D. Làm cho biểu đồ dữ liệu trông đẹp mắt hơn.

💡 Lời giải chi tiết:

Tương quan chỉ cho thấy hai biến biến thiên cùng nhau, nếu coi đó là nhân quả mà không có bằng chứng, doanh nghiệp có thể can thiệp vào các yếu tố không thực sự tạo ra kết quả. Kết luận Lý giải Đưa ra các quyết định chính sách hoặc kinh doanh sai lầm vì hiểu sai nguồn gốc của vấn đề.

Câu 18: Khái niệm 'Bias' (Độ lệch) trong một mô hình học máy mô tả điều gì?

A. Sai số do mô hình quá phức tạp so với dữ liệu.
B. Sai số do những giả định quá đơn giản hóa của mô hình so với thực tế dữ liệu.
C. Tổng thời gian cần thiết để huấn luyện mô hình.
D. Sự khác biệt về kết quả khi huấn luyện trên các máy tính khác nhau.

💡 Lời giải chi tiết:

Độ lệch cao thường dẫn đến hiện tượng học chưa tới (underfitting) vì mô hình không đủ linh hoạt để nắm bắt các quy luật trong dữ liệu. Kết luận Lý giải Sai số do những giả định quá đơn giản hóa của mô hình so với thực tế dữ liệu.

Câu 19: Phân tích cảm xúc (Sentiment Analysis) thường sử dụng kỹ thuật nào trong khoa học dữ liệu để hiểu ý kiến khách hàng?

A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).
B. Phân tích chuỗi thời gian (Time Series Analysis).
C. Giải thuật di truyền (Genetic Algorithms).
D. Quy hoạch tuyến tính (Linear Programming).

💡 Lời giải chi tiết:

NLP cho phép máy tính hiểu, phân tích và trích xuất thông tin định tính như cảm xúc tích cực hay tiêu cực từ văn bản của người dùng. Kết luận Lý giải Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).

Câu 20: Trong bài toán dự đoán khách hàng rời bỏ (Churn Prediction), tại sao chỉ số 'Recall' thường quan trọng hơn 'Accuracy' nếu dữ liệu bị mất cân bằng?

A. Vì Accuracy không bao giờ đo lường được dữ liệu mất cân bằng.
B. Vì doanh nghiệp muốn giảm thiểu tối đa việc bỏ sót những khách hàng thực sự có ý định rời đi.
C. Vì Recall giúp mô hình chạy nhanh hơn trên dữ liệu lớn.
D. Vì Recall đảm bảo mọi dự báo tích cực đều là đúng 100%.

💡 Lời giải chi tiết:

Recall (Độ nhạy) cao đảm bảo mô hình nhận diện được hầu hết các trường hợp mục tiêu (khách hàng rời bỏ), tránh việc bỏ lỡ các rủi ro quan trọng đối với doanh nghiệp. Kết luận Lý giải Vì doanh nghiệp muốn giảm thiểu tối đa việc bỏ sót những khách hàng thực sự có ý định rời đi.

Câu 21: Mô hình ARIMA (AutoRegressive Integrated Moving Average) thường được áp dụng cho loại dữ liệu nào?

A. Dữ liệu hình ảnh không gian.
B. Dữ liệu chuỗi thời gian (Time Series data).
C. Dữ liệu mạng lưới quan hệ xã hội.
D. Dữ liệu khảo sát định tính không có thứ tự thời gian.

💡 Lời giải chi tiết:

ARIMA là mô hình thống kê phổ biến được thiết kế đặc thù để phân tích và dự báo các giá trị tương lai dựa trên các điểm dữ liệu trong quá khứ theo trình tự thời gian. Kết luận Lý giải Dữ liệu chuỗi thời gian (Time Series data).

Câu 22: Vai trò của 'Feature Engineering' (Kỹ nghệ đặc trưng) trong quy trình xây dựng mô hình là gì?

A. Lựa chọn phần cứng máy chủ phù hợp để chạy thuật toán.
B. Chuyển đổi dữ liệu thô thành các đặc trưng có ý nghĩa hơn giúp mô hình học máy đạt hiệu suất cao hơn.
C. Viết tài liệu hướng dẫn sử dụng cho người dùng cuối.
D. Tạo ra các biểu đồ trực quan hóa dữ liệu cho ban giám đốc.

💡 Lời giải chi tiết:

Kỹ nghệ đặc trưng giúp tận dụng kiến thức chuyên môn để tạo ra các biến mới từ dữ liệu gốc, giúp thuật toán dễ dàng nhận diện các quy luật phức tạp. Kết luận Lý giải Chuyển đổi dữ liệu thô thành các đặc trưng có ý nghĩa hơn giúp mô hình học máy đạt hiệu suất cao hơn.

Câu 23: Việc sử dụng 'L1 Regularization' (Lasso) trong hồi quy có tác dụng đặc biệt nào sau đây?

A. Làm cho tất cả các hệ số hồi quy đều bằng 1.
B. Có thể triệt tiêu các hệ số của các biến không quan trọng về bằng 0, giúp lựa chọn đặc trưng.
C. Làm tăng độ phức tạp của mô hình để khớp với dữ liệu nhiễu.
D. Loại bỏ hoàn toàn nhu cầu về dữ liệu huấn luyện.

💡 Lời giải chi tiết:

Lasso regularization thêm một hình phạt dựa trên giá trị tuyệt đối của các hệ số, có khả năng tạo ra các mô hình thưa bằng cách loại bỏ các biến không đóng góp nhiều cho dự báo. Kết luận Lý giải Có thể triệt tiêu các hệ số của các biến không quan trọng về bằng 0, giúp lựa chọn đặc trưng.

Câu 24: Trong phân tích dữ liệu lớn (Big Data), đặc tính 'Velocity' (Tốc độ) đề cập đến điều gì?

A. Số lượng byte dữ liệu được tạo ra mỗi giây.
B. Tốc độ dữ liệu được tạo ra, thu thập và xử lý theo thời gian thực hoặc gần thời gian thực.
C. Tốc độ di chuyển của ổ cứng máy chủ lưu trữ.
D. Thời gian trung bình để một nhà khoa học dữ liệu hoàn thành dự án.

💡 Lời giải chi tiết:

Velocity là một trong những đặc trưng của Big Data, nhấn mạnh yêu cầu về khả năng xử lý dòng dữ liệu phát sinh liên tục trong các hoạt động kinh doanh hiện đại. Kết luận Lý giải Tốc độ dữ liệu được tạo ra, thu thập và xử lý theo thời gian thực hoặc gần thời gian thực.

Câu 25: Khi nói về đạo đức trong khoa học dữ liệu, 'Algorithmic Bias' (Định kiến thuật toán) có thể gây ra vấn đề gì?

A. Làm cho máy tính hoạt động chậm hơn bình thường.
B. Dẫn đến các quyết định phân biệt đối xử không công bằng đối với các nhóm đối tượng nhất định trong xã hội.
C. Tăng chi phí bản quyền phần mềm phân tích.
D. Làm cho dữ liệu trở nên khó đọc hơn đối với con người.

💡 Lời giải chi tiết:

Định kiến thuật toán thường phát sinh từ dữ liệu lịch sử không khách quan, gây ra sự thiếu công bằng trong các lĩnh vực nhạy cảm như tuyển dụng, vay vốn hoặc bảo hiểm. Kết luận Lý giải Dẫn đến các quyết định phân biệt đối xử không công bằng đối với các nhóm đối tượng nhất định trong xã hội.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 15 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 233 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 195 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 212 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 229 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 246 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 263 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Kết quả của bạn:

Câu 1: Trong lĩnh vực khoa học dữ liệu, thành phần nào sau đây đóng vai trò là 'nguyên liệu' đầu vào cốt lõi để tạo ra giá trị kinh doanh?

Câu 2: Mô hình học máy nào sau đây thường được sử dụng nhất để dự báo một giá trị liên tục, chẳng hạn như doanh thu bán hàng tháng tới?

Câu 3: Trong phân tích khách hàng, kỹ thuật nào giúp doanh nghiệp chia nhóm khách hàng có đặc điểm hành vi tương đồng mà không cần biết trước nhãn nhóm?

Câu 4: Chỉ số 'R-squared' (Hệ số xác định) trong mô hình hồi quy có ý nghĩa chính là gì?

Câu 5: Khi xây dựng mô hình dự báo nợ xấu ngân hàng, nếu mô hình hoạt động rất tốt trên tập dữ liệu huấn luyện nhưng rất kém trên dữ liệu thực tế mới, hiện tượng này gọi là gì?

Câu 6: Kỹ thuật 'A/B Testing' trong kinh doanh trực tuyến thường được sử dụng nhằm mục đích chính nào?

Câu 7: Trong ma trận nhầm lẫn (Confusion Matrix), 'Precision' (Độ chính xác) được định nghĩa như thế nào?

Câu 8: Dữ liệu nào sau đây được phân loại là dữ liệu phi cấu trúc (Unstructured Data)?

Câu 9: Mục tiêu chính của bước 'Làm sạch dữ liệu' (Data Cleaning) trong quy trình khoa học dữ liệu là gì?

Câu 10: Thuật toán 'Apriori' thường được ứng dụng trong bài toán kinh doanh nào dưới đây?

Câu 11: Trong kiểm định giả thuyết thống kê, giá trị 'p-value' nhỏ hơn mức ý nghĩa (ví dụ p < 0.05) có nghĩa là gì?

Câu 12: Phương pháp 'K-fold Cross-Validation' được sử dụng chủ yếu để làm gì?

Câu 13: Hệ thống gợi ý (Recommendation Systems) sử dụng kỹ thuật 'Collaborative Filtering' dựa trên thông tin nào?

Câu 14: Sự khác biệt chính giữa 'Kho dữ liệu' (Data Warehouse) và 'Hồ dữ liệu' (Data Lake) là gì?

Câu 15: Trong mô hình cây quyết định (Decision Tree), khái niệm 'Gini Impurity' hoặc 'Entropy' dùng để đo lường điều gì?

Câu 16: Thuật toán 'Random Forest' cải thiện kết quả so với một 'Decision Tree' đơn lẻ chủ yếu bằng cách nào?

Câu 17: Trong kinh tế học, việc nhầm lẫn giữa 'Tương quan' (Correlation) và 'Nhân quả' (Causation) có thể dẫn đến hệ quả gì?

Câu 18: Khái niệm 'Bias' (Độ lệch) trong một mô hình học máy mô tả điều gì?

Câu 19: Phân tích cảm xúc (Sentiment Analysis) thường sử dụng kỹ thuật nào trong khoa học dữ liệu để hiểu ý kiến khách hàng?

Câu 20: Trong bài toán dự đoán khách hàng rời bỏ (Churn Prediction), tại sao chỉ số 'Recall' thường quan trọng hơn 'Accuracy' nếu dữ liệu bị mất cân bằng?

Câu 21: Mô hình ARIMA (AutoRegressive Integrated Moving Average) thường được áp dụng cho loại dữ liệu nào?

Câu 22: Vai trò của 'Feature Engineering' (Kỹ nghệ đặc trưng) trong quy trình xây dựng mô hình là gì?

Câu 23: Việc sử dụng 'L1 Regularization' (Lasso) trong hồi quy có tác dụng đặc biệt nào sau đây?

Câu 24: Trong phân tích dữ liệu lớn (Big Data), đặc tính 'Velocity' (Tốc độ) đề cập đến điều gì?

Câu 25: Khi nói về đạo đức trong khoa học dữ liệu, 'Algorithmic Bias' (Định kiến thuật toán) có thể gây ra vấn đề gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top