Câu 1:
Trong các thang đo dữ liệu, thang đo nào cho phép thực hiện tất cả các phép tính số học bao gồm cả việc xác định tỷ lệ giữa hai giá trị nhờ có điểm 0 tuyệt đối?
💡 Lời giải chi tiết:
Theo lý thuyết thống kê, thang đo tỷ lệ là thang đo cao nhất vì nó sở hữu điểm 0 thực sự, cho phép so sánh tỷ lệ giữa các đại lượng. Kết luận Lý giải Thang đo tỷ lệ (Ratio scale)
Câu 2:
Khi một tập dữ liệu có phân phối lệch phải (skewed to the right), mối quan hệ thông thường giữa các tham số đặc trưng đo lường độ tập trung là gì?
💡 Lời giải chi tiết:
Trong phân phối lệch phải, các giá trị cực lớn kéo giá trị trung bình về phía bên phải làm cho nó lớn hơn trung vị. Kết luận Lý giải Trung bình lớn hơn Trung vị
Câu 3:
Định lý giới hạn trung tâm (Central Limit Theorem) khẳng định rằng khi quy mô mẫu đủ lớn, phân phối xác suất của trung bình mẫu sẽ xấp xỉ phân phối nào?
💡 Lời giải chi tiết:
Định lý giới hạn trung tâm là cơ sở của thống kê suy diễn, chỉ ra rằng tổng hoặc trung bình của các biến độc lập sẽ tiến tới phân phối chuẩn khi mẫu đủ lớn. Kết luận Lý giải Phân phối chuẩn (Normal distribution)
Câu 4:
Yếu tố nào sau đây sẽ làm tăng độ rộng của khoảng tin cậy cho giá trị trung bình của tổng thể khi các yếu tố khác không đổi?
💡 Lời giải chi tiết:
Tăng độ tin cậy đồng nghĩa với việc tăng giá trị tới hạn (Z hoặc t), dẫn đến sai số biên lớn hơn và làm khoảng tin cậy rộng hơn. Kết luận Lý giải Tăng độ tin cậy (ví dụ từ 95% lên 99%)
Câu 5:
Sai lầm loại I (Type I Error) trong kiểm định giả thuyết thống kê xảy ra khi nào?
💡 Lời giải chi tiết:
Sai lầm loại I còn được gọi là mức ý nghĩa alpha, là xác suất bác bỏ một giả thuyết không (H0) đúng. Kết luận Lý giải Bác bỏ giả thuyết H0 trong khi H0 thực sự đúng
Câu 6:
Giá trị p (p-value) trong một bài toán kiểm định giả thuyết được hiểu một cách chính xác nhất là gì?
💡 Lời giải chi tiết:
Giá trị p là thước đo bằng chứng chống lại H0; p càng nhỏ thì bằng chứng chống lại H0 càng mạnh. Kết luận Lý giải Xác suất quan sát được kết quả mẫu cực đoan như kết quả hiện tại hoặc hơn, giả sử H0 đúng
Câu 7:
Chỉ số nào sau đây được dùng để so sánh độ biến thiên của hai tập dữ liệu có đơn vị tính khác nhau hoặc có giá trị trung bình khác xa nhau?
💡 Lời giải chi tiết:
Hệ số biến thiên là chỉ số tương đối (tính bằng tỷ lệ giữa độ lệch chuẩn và trung bình) nên có thể dùng để so sánh các tập dữ liệu không cùng đơn vị. Kết luận Lý giải Hệ số biến thiên (Coefficient of Variation)
Câu 8:
Trong phân phối chuẩn tắc (Standard Normal Distribution), khoảng giá trị từ Z = -2 đến Z = +2 bao phủ khoảng bao nhiêu phần trăm dữ liệu?
💡 Lời giải chi tiết:
Theo quy tắc kinh nghiệm của phân phối chuẩn, khoảng cộng trừ 2 độ lệch chuẩn (Z=2) bao phủ khoảng 95.44% diện tích dưới đường cong. Kết luận Lý giải 95.44%
Câu 9:
Một tham số (Parameter) khác với một số thống kê (Statistic) ở điểm nào sau đây?
💡 Lời giải chi tiết:
Tham số là các giá trị đặc trưng của toàn bộ tổng thể (thường chưa biết), trong khi số thống kê được tính toán từ dữ liệu mẫu thu thập được. Kết luận Lý giải Tham số mô tả đặc điểm của tổng thể, số thống kê mô tả đặc điểm của mẫu
Câu 10:
Phương pháp chọn mẫu nào đảm bảo mọi phần tử trong tổng thể đều có cơ hội được chọn vào mẫu là như nhau và độc lập?
💡 Lời giải chi tiết:
Chọn mẫu ngẫu nhiên đơn giản là nền tảng của các phương pháp chọn mẫu xác suất, loại bỏ sự thiên lệch trong lựa chọn. Kết luận Lý giải Chọn mẫu ngẫu nhiên đơn giản (Simple random sampling)
Câu 11:
Hệ số tương quan tuyến tính Pearson (r) nhận giá trị trong khoảng nào?
💡 Lời giải chi tiết:
Hệ số r đo lường mức độ và chiều hướng của mối quan hệ tuyến tính giữa hai biến định lượng, nằm trong đoạn [-1, 1]. Kết luận Lý giải Từ -1 đến 1
Câu 12:
Trong mô hình hồi quy tuyến tính đơn, hệ số xác định R-bình phương (R-squared) có ý nghĩa gì?
💡 Lời giải chi tiết:
R-squared là một chỉ số đánh giá độ phù hợp của mô hình, cho biết biến độc lập giải thích được bao nhiêu phần sự biến động của biến phụ thuộc. Kết luận Lý giải Đo lường tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi biến độc lập
Câu 13:
Đồ thị Boxplot (biểu đồ hộp) sử dụng giá trị nào sau đây để xác định độ dài của 'hộp'?
💡 Lời giải chi tiết:
Hộp trong đồ thị Boxplot được giới hạn bởi tứ phân vị thứ nhất (Q1) và tứ phân vị thứ ba (Q3), do đó độ dài của nó chính là IQR. Kết luận Lý giải Khoảng trải giữa (Interquartile Range - IQR)
Câu 14:
Khi so sánh trung bình của nhiều hơn hai nhóm độc lập, phương pháp thống kê nào thường được ưu tiên sử dụng thay vì thực hiện nhiều phép kiểm định t-test cặp?
💡 Lời giải chi tiết:
ANOVA được sử dụng để so sánh trung bình của 3 nhóm trở lên nhằm kiểm soát sai lầm loại I có thể tăng lên khi thực hiện nhiều t-test đơn lẻ. Kết luận Lý giải Phân tích biến chứng (ANOVA)
Câu 15:
Trong kiểm định Chi-square về tính độc lập giữa hai biến định danh, giả thuyết không (H0) thường là gì?
💡 Lời giải chi tiết:
Kiểm định Chi-square tính độc lập nhằm xác định xem có sự liên quan giữa hai biến hay không, với giả thuyết mặc định là không có mối liên hệ. Kết luận Lý giải Hai biến độc lập với nhau
Câu 16:
Giá trị Z-score của một quan sát cho biết điều gì?
💡 Lời giải chi tiết:
Z-score chuẩn hóa dữ liệu về cùng một thang đo, đo lường khoảng cách từ một điểm dữ liệu đến trung bình theo đơn vị độ lệch chuẩn. Kết luận Lý giải Số đơn vị độ lệch chuẩn mà quan sát đó nằm cách xa giá trị trung bình
Câu 17:
Chỉ số giá Laspeyres sử dụng quyền số (trọng số) là lượng hàng hóa tiêu dùng ở thời kỳ nào?
💡 Lời giải chi tiết:
Chỉ số Laspeyres cố định lượng hàng hóa ở thời kỳ gốc để theo dõi sự thay đổi giá thuần túy của giỏ hàng đó. Kết luận Lý giải Thời kỳ gốc (Base period)
Câu 18:
Thành phần nào trong dãy số thời gian mô tả những biến động lặp đi lặp lại có tính chu kỳ trong phạm vi một năm?
💡 Lời giải chi tiết:
Biến động thời vụ là những dao động có tính quy luật theo các mùa hoặc các tháng trong năm do các yếu tố tự nhiên hoặc xã hội. Kết luận Lý giải Biến động thời vụ (Seasonal variation)
Câu 19:
Độ nhọn (Kurtosis) của một phân phối đo lường đặc điểm nào của tập dữ liệu?
💡 Lời giải chi tiết:
Kurtosis mô tả hình dạng của phân phối, cụ thể là mức độ tập trung của các giá trị ở đỉnh và ở hai đuôi. Kết luận Lý giải Độ cao của đỉnh và độ dày của đuôi phân phối so với phân phối chuẩn
Câu 20:
Trong kiểm định trung bình hai tổng thể độc lập, khi nào ta nên sử dụng kiểm định t thay vì kiểm định Z?
💡 Lời giải chi tiết:
Kiểm định t được sử dụng khi độ lệch chuẩn tổng thể là chưa biết và phải ước lượng thông qua độ lệch chuẩn mẫu s, đặc biệt quan trọng với mẫu nhỏ. Kết luận Lý giải Khi chưa biết phương sai tổng thể và kích thước mẫu nhỏ
Câu 21:
Một phân phối có hệ số lệch (Skewness) bằng -1.5 được gọi là phân phối gì?
💡 Lời giải chi tiết:
Hệ số lệch âm chỉ ra rằng đuôi của phân phối kéo dài về phía bên trái, nơi các giá trị nhỏ hơn trung tâm. Kết luận Lý giải Phân phối lệch trái
Câu 22:
Tại sao việc lấy mẫu ngẫu nhiên lại quan trọng trong thống kê suy diễn?
💡 Lời giải chi tiết:
Tính ngẫu nhiên giúp loại bỏ thiên kiến lựa chọn, tạo điều kiện để các suy diễn thống kê từ mẫu có giá trị cho cả tổng thể. Kết luận Lý giải Vì nó giúp mẫu đại diện cho tổng thể và cho phép áp dụng các quy luật xác suất
Câu 23:
Nếu biến độc lập X hoàn toàn không có khả năng giải thích cho biến phụ thuộc Y, hệ số tương quan r sẽ bằng bao nhiêu?
💡 Lời giải chi tiết:
Hệ số r bằng 0 chỉ ra rằng không có mối quan hệ tuyến tính nào giữa hai biến đang xét. Kết luận Lý giải 0
Câu 24:
Khi tính trung bình cho một tập dữ liệu có các giá trị cực đoan (outliers), chỉ số nào thường phản ánh trung tâm của dữ liệu ổn định hơn so với số trung bình cộng?
💡 Lời giải chi tiết:
Trung vị không bị ảnh hưởng bởi các giá trị cực đoan vì nó chỉ phụ thuộc vào thứ tự sắp xếp của các quan sát chứ không phụ thuộc vào giá trị đại số của chúng. Kết luận Lý giải Trung vị (Median)
Câu 25:
Sai số chọn mẫu (Sampling error) phát sinh do nguyên nhân chủ yếu nào?
💡 Lời giải chi tiết:
Sai số chọn mẫu là sai số không thể tránh khỏi khi dùng mẫu để suy diễn cho tổng thể, ngay cả khi quá trình thực hiện hoàn hảo. Kết luận Lý giải Sự khác biệt tự nhiên giữa mẫu và tổng thể do việc chỉ chọn một phần để nghiên cứu