Phân phối mẫu là gì? (What Is a Sampling Distribution?)
Phân phối lấy mẫu là một khái niệm được sử dụng trong thống kê. Đó là phân bố xác suất (probability distribution) của một thống kê thu được từ một số lượng lớn hơn các mẫu được lấy từ một quần thể cụ thể (drawn from a specific population). Phân bố lấy mẫu của một tổng thể nhất định ( The sampling distribution of a given population) là phân bố tần suất của một loạt các kết quả khác nhau có thể xảy ra đối với một thống kê của một tổng thể. Điều này cho phép các thực thể như chính phủ và doanh nghiệp đưa ra quyết định sáng suốt hơn (make more well-informed decisions) dựa trên thông tin họ thu thập được. Có một số phương pháp phân phối mẫu được các nhà nghiên cứu sử dụng, bao gồm cả phân phối mẫu của giá trị trung bình.
Điểm chính
- Phân phối mẫu là phân phối xác suất của một thống kê thu được thông qua việc lấy mẫu lặp lại của một tổng thể cụ thể.
- Nó mô tả một loạt các kết quả có thể xảy ra đối với một thống kê, chẳng hạn như giá trị trung bình hoặc mốt của một số biến, của tổng thể (quần thể) (such as the mean or mode of some variable, of a population).
- Phần lớn dữ liệu được các nhà nghiên cứu phân tích thực chất là mẫu chứ không phải quần thể (samples, not populations).
Cách phân phối mẫu hoạt động (How Sampling Distributions Work)
Dữ liệu cho phép các nhà thống kê, nhà nghiên cứu, nhà tiếp thị, nhà phân tích và học giả đưa ra kết luận quan trọng về các chủ đề và thông tin cụ thể. Nó có thể giúp các doanh nghiệp đưa ra quyết định về tương lai và nâng cao hiệu quả hoạt động của họ hoặc có thể giúp chính phủ lập kế hoạch cung cấp các dịch vụ cần thiết cho một nhóm người.
Rất nhiều dữ liệu được rút ra và sử dụng thực sự là mẫu chứ không phải là quần thể. Một mẫu là một tập hợp con của một quần thể. Nói một cách đơn giản, mẫu là một phần nhỏ hơn của một nhóm lớn hơn. Như vậy, phần nhỏ hơn này có nghĩa là đại diện cho toàn bộ tổng thể.
Phân phối mẫu (hoặc phân phối dữ liệu) là số liệu thống kê xác định liệu một sự kiện hoặc kết quả nhất định có diễn ra hay không. Sự phân bổ này phụ thuộc vào một số yếu tố khác nhau, bao gồm cỡ mẫu, quy trình lấy mẫu có liên quan và tổng thể. Có một số bước liên quan đến việc phân phối mẫu. Bao gồm các:
- Chọn một mẫu ngẫu nhiên từ tổng thể (Choosing a random sample from the overall population)
- Xác định một thống kê nhất định từ nhóm đó, có thể là độ lệch chuẩn, trung vị hoặc trung bình (Determine a certain statistic from that group, which could be the standard deviation, median, or mean)
- Thiết lập phân bố tần số của từng mẫu (Establishing a frequency distribution of each sample)
- Lập bản đồ phân phối trên biểu đồ (Mapping out the distribution on a graph)
Sau khi thông tin được thu thập, vẽ và phân tích, các nhà nghiên cứu có thể đưa ra suy luận và kết luận. Điều này có thể giúp họ đưa ra quyết định về những gì sẽ xảy ra trong tương lai. Ví dụ: chính phủ có thể đầu tư vào các dự án cơ sở hạ tầng dựa trên nhu cầu của một cộng đồng nhất định hoặc một công ty có thể quyết định tiến hành một dự án kinh doanh mới nếu việc phân phối mẫu cho thấy kết quả tích cực.
Mỗi mẫu có giá trị trung bình mẫu riêng và sự phân bố của giá trị trung bình mẫu được gọi là phân phối mẫu.
Những cân nhắc đặc biệt (Special Considerations)
Số lượng quan sát trong một tổng thể, số lượng quan sát trong một mẫu và quy trình được sử dụng để rút ra các tập hợp mẫu xác định độ biến thiên của phân bố mẫu. Độ lệch chuẩn của phân phối lấy mẫu được gọi là sai số chuẩn .
Mặc dù giá trị trung bình của phân phối mẫu bằng giá trị trung bình của tổng thể, nhưng sai số chuẩn phụ thuộc vào độ lệch chuẩn của tổng thể, kích thước của tổng thể và kích thước của mẫu.
Biết mức độ chênh lệch giữa giá trị trung bình của từng tập hợp mẫu với nhau và với giá trị trung bình của tổng thể sẽ cho thấy mức độ gần nhau của giá trị trung bình mẫu với giá trị trung bình của tổng thể. Sai số chuẩn của phân phối mẫu giảm khi cỡ mẫu tăng.
Xác định phân phối mẫu (Determining a Sampling Distribution)
Giả sử một nhà nghiên cứu y học muốn so sánh cân nặng trung bình của tất cả trẻ sơ sinh sinh ra ở Bắc Mỹ từ năm 1995 đến năm 2005 với những trẻ sinh ra ở Nam Mỹ trong cùng khoảng thời gian. Vì họ không thể thu thập dữ liệu cho toàn bộ dân số trong một khoảng thời gian hợp lý nên họ sẽ chỉ sử dụng 100 trẻ sơ sinh ở mỗi lục địa để đưa ra kết luận. Dữ liệu được sử dụng là mẫu và trọng lượng trung bình được tính là giá trị trung bình của mẫu .
Bây giờ, giả sử họ lấy các mẫu ngẫu nhiên lặp đi lặp lại từ tổng thể chung và tính giá trị trung bình mẫu cho từng nhóm mẫu. Vì vậy, đối với Bắc Mỹ, họ lấy dữ liệu về 100 cân nặng trẻ sơ sinh được ghi nhận ở Mỹ, Canada và Mexico như sau:
- Bốn 100 mẫu từ các bệnh viện chọn lọc ở Hoa Kỳ
- Năm 70 mẫu từ Canada
- Ba kỷ lục 150 từ Mexico
Cuối cùng, nhà nghiên cứu thu được tổng cộng 1.200 cân nặng của trẻ sơ sinh được nhóm thành 12 bộ. Họ cũng thu thập dữ liệu mẫu của 100 cân nặng trẻ sơ sinh từ 12 quốc gia ở Nam Mỹ.
Trọng số trung bình được tính cho mỗi bộ mẫu là phân bố lấy mẫu của giá trị trung bình. Không chỉ giá trị trung bình có thể được tính từ một mẫu. Các số liệu thống kê khác , chẳng hạn như độ lệch chuẩn, phương sai, tỷ lệ và phạm vi có thể được tính toán từ dữ liệu mẫu. Độ lệch chuẩn và phương sai đo lường độ biến thiên của phân bố lấy mẫu.
Các loại phân phối mẫu (Types of Sampling Distributions)
Dưới đây là mô tả ngắn gọn về các loại phân phối lấy mẫu:
- Phân phối mẫu của giá trị trung bình (Sampling Distribution of the Mean): Phương pháp này cho thấy phân phối bình thường trong đó phần giữa là giá trị trung bình của phân phối lấy mẫu. Như vậy, nó đại diện cho giá trị trung bình của tổng thể. Để đi đến điểm này, nhà nghiên cứu phải tìm ra giá trị trung bình của từng nhóm mẫu và vạch ra dữ liệu riêng lẻ.
- Phân phối mẫu theo tỷ lệ (Sampling Distribution of Proportion): Phương pháp này liên quan đến việc chọn một tập hợp mẫu từ tổng thể để có được tỷ lệ của mẫu. Giá trị trung bình của các tỷ lệ cuối cùng trở thành tỷ lệ của nhóm lớn hơn.
- Phân phối T (T-Distribution): Kiểu phân phối mẫu này phổ biến trong trường hợp cỡ mẫu nhỏ. Nó cũng có thể được sử dụng khi có rất ít thông tin về toàn bộ dân số. Phân phối T được sử dụng để ước tính giá trị trung bình và các điểm thống kê khác.
Vẽ biểu đồ phân phối mẫu (Plotting Sampling Distributions)
Một tổng thể hoặc một tập hợp số mẫu sẽ có phân phối chuẩn. Tuy nhiên, vì phân phối lấy mẫu bao gồm nhiều tập hợp quan sát nên nó không nhất thiết phải có dạng cong hình chuông (a bell-curved shape) .
Theo ví dụ của chúng tôi, cân nặng trung bình của trẻ sơ sinh ở Bắc Mỹ và Nam Mỹ có phân phối bình thường vì một số trẻ sẽ bị thiếu cân (dưới mức trung bình) hoặc thừa cân (trên mức trung bình), trong đó hầu hết trẻ sơ sinh rơi vào khoảng giữa (xung quanh mức trung bình). Nếu cân nặng trung bình của trẻ sơ sinh ở Bắc Mỹ là 7 pound thì trọng lượng trung bình của mỗi mẫu trong số 12 bộ quan sát mẫu được ghi lại ở Bắc Mỹ cũng sẽ gần bằng 7 pound.
Nhưng nếu bạn vẽ biểu đồ cho từng mức trung bình được tính toán trong mỗi nhóm trong số 1.200 nhóm mẫu, thì hình dạng thu được có thể dẫn đến sự phân bố đồng đều, nhưng rất khó để dự đoán chắc chắn hình dạng thực tế sẽ như thế nào. Nhà nghiên cứu càng sử dụng nhiều mẫu từ dân số có trọng lượng hơn một triệu thì biểu đồ sẽ bắt đầu hình thành phân phối chuẩn càng nhiều.
Tại sao lấy mẫu được sử dụng để thu thập dữ liệu tổng thể? (Why Is Sampling Used to Gather Population Data?)
Lấy mẫu là một cách để thu thập và phân tích thông tin về một nhóm lớn hơn. Nó được thực hiện bởi vì các nhà nghiên cứu không thể nghiên cứu toàn bộ quần thể do số lượng đối tượng liên quan quá lớn. Do đó, không phải tất cả mọi người trong nhóm lớn hơn đều có thể được đưa vào vì có thể mất quá nhiều thời gian để nghiên cứu và phân tích dữ liệu. Nó cho phép các thực thể như chính phủ và doanh nghiệp đưa ra những quyết định quan trọng về tương lai, cho dù điều đó có nghĩa là đầu tư vào một dự án cơ sở hạ tầng, chương trình dịch vụ xã hội hay sản phẩm mới.
Tại sao phân phối mẫu được sử dụng? (Why Are Sampling Distributions Used?)
Phân phối mẫu được sử dụng trong thống kê và nghiên cứu. Chúng nêu bật cơ hội hoặc xác suất của một sự kiện có thể xảy ra. Điều này dựa trên một tập hợp dữ liệu được thu thập từ một nhóm nhỏ trong một quần thể lớn hơn.
Giá trị trung bình là gì? (What Is a Mean?)
Giá trị trung bình là thước đo được sử dụng trong thống kê và nghiên cứu. Đó là trung bình cộng của ít nhất hai số. Giá trị trung bình có thể được xác định bằng cách cộng tất cả các số và chia kết quả cho số các số trong tập hợp đó. Điều này được gọi là trung bình số học. Bạn có thể xác định giá trị trung bình hình học bằng cách nhân các giá trị của một tập dữ liệu và lấy căn của tổng bằng số giá trị trong tập dữ liệu đó.
Điểm mấu chốt (The Bottom Line)
Các nhà nghiên cứu không thể đưa ra kết luận về các nhóm rất lớn vì số lượng đối tượng tham gia. Đó là lý do tại sao họ sử dụng lấy mẫu. Việc lấy mẫu cho phép họ lấy một nhóm nhỏ từ một quần thể lớn và phân tích dữ liệu. Sau khi dữ liệu đó được thu thập, các nhà nghiên cứu có thể vẽ ra các phân bố lấy mẫu, cho phép họ xác định liệu một sự kiện có thể diễn ra trong một quần thể nhất định hay không. Điều này có thể bao gồm tăng trưởng kinh doanh hoặc xu hướng dân số, có thể giúp các doanh nghiệp, chính phủ và các tổ chức khác đưa ra quyết định tốt hơn cho tương lai.
Nguồn từ https://www.investopedia.com/terms/s/sampling-distribution.asp I Hiệu đính bởi Alex 18Oct2023

:max_bytes(150000):strip_icc():format(webp)/Terms-s-sampling-distribution-resized-484f7bd60d624729b426ac9f68a80912.jpg)

