Phương pháp lấy mẫu
Trước khi đi vào chi tiết về phương pháp lấy mẫu, cần hiểu các định nghĩa có liên quan đến phương pháp, trình bày trong Bảng 5.1.
Bảng 5.1 Các định nghĩa có liên quan đến phương pháp lấy mẫu
Quần thể(population) |
Một tập hợp các đối tượng khảo sát (người, cá thể, nhân vật, sinh vật,…) và chứa các đặc tính cần nghiên cứu hay khảo sát. |
Quần thể mục tiêu(target population) |
Mang đặc tính nào đó và được đánh giá qua mẫu; hoặc mang các đặc tính cần nghiên cứu và đại diện cho toàn quần thể. Thí dụ, khi nghiên cứu về việc sử dụng các bếp lò nấu ăn, thì quần thể mục tiêu hầu hết là người phụ nữ. |
Mẫu (sample) |
Một phần hoặc tập hợp nhỏ cá thể của quần thể mục tiêu được chọn đại diện cho quần thể để khảo sát nghiên cứu. |
Mẫu không xác suất (non-probability sample) |
Phương pháp trong đó việc chọn mẫu không có xác suất đồng đều hay các cá thể trong quần thể không có cơ hội được chọn như nhau. |
Mẫu xác suất (probability sample) |
Phương pháp chọn mẫu trong đó mỗi cá thể có một xác suất đặc trưng của mẫu và thường bằng nhau. Hầu hết việc lấy mẫu xác suất sử dụng cách lấy mẫu ngẫu nhiên để tạo ra mỗi cá thể trong quần thể có cơ hội được chọn như nhau. |
Mục đích của tất cả các phương pháp lấy mẫu là đạt được mẫu đại diện cho cả quần thể nghiên cứu. Khi chọn phương pháp lấy mẫu thì cần hiểu rõ các đặc tính của quần thể nghiên cứu để xác định cỡ mẫu quan sát đại diện và để đánh giá tương đối chính xác quần thể.
Trong nghiên cứu, không thể quan sát hết toàn bộ các cá thể trong quần thể, mà chỉ chọn một số lượng đủ các cá thể đại diện hay còn gọi là mẫu thí nghiệm. Phương pháp chọn mẫu thí nghiệm rất quan trọng, bởi vì có liên quan tới sự biến động hay độ đồng đều của mẫu. Có hai phương pháp chọn mẫu: (1) Chọn mẫu không xác suất (không chú ý tới độ đồng đều) và (2) chọn mẫu xác suất (đề cập tới độ đồng đều).
* Chọn mẫu không có xác suất
Phương pháp chọn mẫu không xác suất là cách lấy mẫu trong đó các cá thể của mẫu được chọn không ngẫu nhiên hay không có xác suất lựa chọn giống nhau. Điều này thể hiện trong cách chọn mẫu như sau:
- Các đơn vị mẫu được tự lựa chọn mà không có phương pháp.
- Các đơn vị mẫu rất dễ dàng đạt được hoặc dễ dàng tiếp cận. Thí dụ chọn những hộ trên những con đường dễ đi.
- Các đơn vị mẫu được chọn theo lý do kinh tế, thí dụ trả tiền cho sự tham dự.
- Các đơn vị mẫu được quan tâm bởi người nghiên cứu trong cách “điển hình” của quần thể mục tiêu. Thí dụ người nghiên cứu chỉ quan tâm đến các nhân vật điển hình trong quần thể nghiên cứu, để so sánh với các nhân vật khác.
- Các đơn vị mẫu được chọn mà không có sự thiết kế rõ ràng (thí dụ: chọn 50 người đầu tiên đến buổi sáng).
Phương pháp chọn mẫu không có xác suất thường có độ tin cậy thấp. Mức độ chính xác của cách chọn mẫu không xác suất tùy thuộc vào sự phán đoán, cách nhìn, kinh nghiệm của người nghiên cứu, sự may mắn hoặc dễ dàng và không có cơ sở thống kê trong việc chọn mẫu.
* Chọn mẫu xác suất
Cơ bản của việc chọn mẫu xác suất là cách lấy mẫu trong đó việc chọn các cá thể của mẫu sao cho mỗi cá thể có cơ hội lựa chọn như nhau, nếu như có một số cá thể có cơ hội xuất hiện nhiều hơn thì sự lựa chọn không phải là ngẫu nhiên. Để tối ưu hóa mức độ chính xác, người nghiên cứu thường sử dụng phương pháp lấy mẫu ngẫu nhiên.
* Các phương pháp chọn mẫu ngẫu nhiên
- Chọn mẫu ngẫu nhiên đơn giản (simple random)
Cách đơn giản nhất của việc chọn các cá thể của mẫu trong cách chọn mẫu ngẫu nhiên là sử dụng xác suất. Việc lựa chọn n các cá thể từ một quần thể sao cho các cá thể có cơ hội bằng nhau hay một xác suất bằng nhau trong phương pháp nầy. Thí dụ: Một trường học có 1.000 sinh viên, người nghiên cứu muốn chọn ra 100 sinh viên để nghiên cứu về tình trạng sức khỏe trong số 1.000 sinh viên. Theo cách chọn mẫu đơn giản thì chỉ cần viết tên 1.000 sinh viên vào trong mẫu giấy nhỏ, sau đó bỏ tất cả vào trong một cái thùng và rồi rút ngẫu nhiên ra 100 mẫu giấy. Như vậy, mỗi sinh viên có một cơ hội lựa chọn như nhau và xác suất chọn ngẫu nhiên một sinh viên trên dễ dàng được tính. Thí dụ trên ta có quần thể N = 1.000 sinh viên và cỡ mẫu n = 100 sinh viên. Như vậy, sinh viên của trường được chọn trong cách lấy mẫu ngẫu nhiên sẽ có xác suất là n/(N x 100) hay 100/(1000 x 100) = 10%.
Một cách chọn mẫu ngẫu nhiên khác là sử dụng bảng số ngẫu nhiên trong sách thống kê phép thí nghiệm hoặc cách chọn số ngẫu nhiên bằng các chương trình thống kê trên máy tính.
Phương pháp chọn mẫu ngẫu nhiên trong các thí nghiệm lấy mẫu trong thực tế được thể hiện trong hình 5.1.
Hình 5.1 Phương pháp chọn mẫu ngẫu nhiên trong thực tế
- Chọn mẫu phân lớp (stratified samples)
Chọn mẫu phân lớp được thực hiện khi quần thể mục tiêu được chia thành các nhóm hay phân lớp. Trong phương pháp lấy mẫu phân lớp, tổng quần thể (N) đầu tiên được chia ra thành L lớp của các quần thể phụ N1, N2 … NL, như vậy:
Để áp dụng kỹ thuật chọn mẫu phân lớp thì trước tiên người nghiên cứu cần nắm các thông tin và các số liệu nghiên cứu trước đây có liên quan đến cách lấy mẫu phân lớp. Sau đó, người nghiên cứu sẽ xác định cỡ mẫu và chọn ngẫu nhiên các cá thể trong mỗi lớp.
Thí dụ: khi nghiên cứu về mức độ giàu nghèo của một vùng nghiên cứu có 4 huyện (4 phân lớp), mỗi huyện có số hộ gia đình khác nhau được biết trong Bảng 5.2. Người nghiên cứu muốn thực hiện 200 cuộc phỏng vấn hộ gia đình trong vùng nghiên cứu, như vậy cỡ mẫu của mỗi huyện sẽ được tính theo tỷ lệ phần trăm trong Bảng 5.2 như sau:
Bảng Thí dụ về cách chọn mẫu phân lớp
Huyện |
Số hộ trong mỗi lớp |
Tỷ lệ hộ trong mỗi lớp (%) |
Cỡ mẫu phỏng vấn ỡ mỗi lớp |
A |
250 |
25 |
50 |
B |
150 |
15 |
30 |
C |
400 |
40 |
80 |
D |
200 |
20 |
40 |
|
1000 |
100 |
200 |
Nếu như số hộ của 4 huyện gần như nhau, người nghiên cứu chỉ cần chọn 50 cuộc phỏng vấn trong mỗi huyện và sau đó chọn mẫu ngẫu nhiên trong mỗi lớp.
Cũng trong nghiên cứu trên, nếu người nghiên cứu không phân chia các huyện ra thành các lớp, thì phương pháp lấy mẫu ngẫu nhiên phỏng vấn hộ gia đình trong vùng nghiên cứu sẽ sai và số liệu thu thập sẽ không đại diện cho vùng nghiên cứu, do mẫu có thể tập trung ở một huyện nào đó.
Một số nghiên cứu thường được chia lớp trong quần thể mục tiêu gồm:
- Phân lớp quần thể mục tiêu là các thành phố, tỉnh, huyện;
- phân lớp theo vùng sinh thái khác nhau;
- phân lớp quần thể mục tiêu là các hộ gia đình theo mức độ giàu nghèo, trình độ học vấn, …;
- …
Trong phương pháp chọn mẫu phân lớp, các quần thể phụ là các vùng chia phụ hay các lô được chia trong Hình 5.2 khi đã xác định các yếu tố như loại đất, dạng đời sống thực vật hoặc dạng địa hình, … Các điểm được chọn ngẫu nhiên trong mỗi vùng phụ được thể hiện trong Hình 5.2.
Hình 5.2 Phương pháp chọn mẫu phân lớp
- Chọn mẫu hệ thống (systematic samples)
Đôi khi cách chọn đơn vị mẫu ngẫu nhiên không tốt hơn cách chọn mẫu hệ thống. Trong chọn mẫu hệ thống, cỡ mẫu n được chọn (có phương pháp tính xác suất tương tự) từ một quần thể N. Cách lấy mẫu hệ thống là khung mẫu giống như là 1 “hàng” của các đơn vị mẫu, và mẫu như là một chuổi liên tiếp của các điểm số có khoảng cách bằng nhau theo hàng dọc.
Thí dụ chọn mẫu hệ thống như sau: muốn nghiên cứu 1 thành viên trong mỗi nhóm có 10 cá thể, quần thể có 10 nhóm (tổng cá thể của quần thể là 100), đánh số cá thể từ 1-100. Lúc này nhóm 1 được đánh số từ 1-10; nhóm 2 từ 11-20; nhóm 3 từ 21-30; …nhóm 10 từ 91-100.
Trước tiên cần sắp xếp thứ tự các đơn vị mẫu (thí dụ theo thứ tự gia tăng trong trường hợp này). Sau đó chọn điểm đầu tiên bất kỳ có giá trị < 10 (thí dụ chọn ngẫu nhiên một số trong khoảng từ 1-10 là 7. Số cá thể tiếp theo sẽ cộng thêm là 10. Như vậy các thành viên được chọn sẽ có số thứ tự là 7, 17, 27, 37, 47,… 97.
Nhóm 1:
1. 93535459
2. 93781078
3. 93732085
4. 93763450
5. 93763450
6. 94407382
7. 94409687 <== (cá thể được chọn có số thứ tự là 7)
8. 94552345
9. 94768091
10. 94556321
Nhóm 2 :
11. 94562119
12. 94127845
13. 94675420
14. 94562119
15. 94127846
16. 94675442
17. 94675411 < ==== (cá thể được chọn có số thứ tự là 17)
18. 94675420
19. 94675422
20. 94675416
Phương pháp chọn mẫu hệ thống tạo ra các ô có các điểm có khoảng cách đều nhau với các ô có cấu trúc khác nhau như hình vuông (Hình 5.3), chữ nhật, …
Hình 5.3 Phương pháp chọn mẫu hệ thống
- Chọn mẫu chỉ tiêu (quota sampling)
Trong cách chọn mẫu chỉ tiêu, quần thể nghiên cứu được phân nhóm hoặc phân lớp như cách chọn mẫu phân lớp. Các đối tượng nghiên cứu trong mỗi nhóm được lấy mẫu theo tỷ lệ đã biết và sau đó tiến hành phương pháp chọn mẫu không sác xuất. Để thiết lập mẫu chỉ tiêu thì người nghiên cứu cần phải biết ít nhất các số liệu, thông tin trong quần thể mục tiêu để phân chia các chỉ tiêu muốn kiểm soát. Thí dụ, một cuộc phỏng vấn để biết được hoạt động hoặc lý do khách du lịch đến Cần thơ. Dựa trên số liệu nghiên cứu trước đây hoặc số liệu điều tra dân số cho biết lý do khách du lịch tới Cần thơ như sau: 60% với lý do đi nghĩ mát, vui chơi; 20% lý do thăm bạn bè, gia đình; 15% lý do kinh doanh và 5% lý do hội họp. Người nghiên cứu dự tính cỡ mẫu muốn phỏng vấn 500 khách du lịch, và chọn những nơi có nhiều khách du lịch như khách sạn, nơi hội họp, khu vui chơi giải trí,… Như vậy tỷ lệ mẫu để muốn phỏng vấn đạt được cho mỗi lý do (chỉ tiêu) nêu trên sẽ tương ứng tỷ lệ là 300, 100, 75 và 25 khách du lịch. Nếu như chỉ tiêu 300 khách du lịch đến với lý do vui chơi, giải trí được trả lời chưa đủ thì phải tiếp tục phỏng vấn cho tới khi đạt được đủ chỉ tiêu.
Thuận lợi của lấy mẫu chỉ tiêu áp dụng trong một vài nghiên cứu là chi phí thực hiện nghiên cứu tương đối rẽ và dễ (do không cần phải thiết lập khung mẫu). Bất lợi của việc chọn mẫu chỉ tiêu là không đại diện toàn bộ quần thể, do lấy mẫu không xác suất như chọn ưu tiên phỏng vấn khách du lịch đến trước, chọn nơi có nhiều khách lui tới, khách ở khách sạn, ... và vì vậy mức độ tin cậy phụ thuộc vào kinh nghiệm hay sự phán đoán của người nghiên cứu và sự nhiệt tình của người trả lời phỏng vấn.
Để tăng mức độ tin cậy, người nghiên cứu cần thực hiện cuộc phỏng vấn bước đầu để kiểm tra người trả lời có rơi vào các chỉ tiêu hay không. Chọn mẫu chỉ tiêu ít được áp dụng trong các nghiên cứu phát triển, nhưng đôi khi đựoc sử dụng trong một vài nghiên cứu nhỏ mang các đặc tính quan sát.
* Chọn mẫu không gian (spatial sampling)
Người nghiên cứu có thể sử dụng cách lấy mẫu nầy khi hiện tượng, sự vật được quan sát có sự phân bố mẫu theo không gian (các đối tượng khảo sát trong khung mẫu có vị trí không gian 2 hoặc 3 chiều). Thí dụ lấy mẫu nước ở sông, đất ở sườn đồi, hoặc không khí trong phòng. Cách chọn mẫu như vậy thường gặp trong các nghiên cứu sinh học, địa chất, địa lý.
Lấy mẫu theo sự phân bố này yêu cầu có sự giống nhau về không gian qua các phương pháp ngẫu nhiên, hệ thống và phân lớp. Kết quả của một mẫu chọn có thể được biểu diễn như một loạt các điểm trong không gian hai chiều, giống như là bản đồ.
Xác định cỡ mẫu
Mục đích của việc xác định cỡ mẫu là để giảm đi công lao động và chi phí làm thí nghiệm và điều quan trọng là chọn cỡ mẫu như thế nào mà không làm mất đi các đặc tính của mẫu và độ tin cậy của số liệu đại diện cho quần thể.
Việc xác định cỡ mẫu là một cách lấy thống kê theo độ ý nghĩa, nhưng đôi khi quá trình này cũng được bỏ qua và người nghiên cứu chỉ lấy cỡ mẫu có tỷ lệ ấn định (như cỡ mẫu 10% của quần thể mẫu). Dĩ nhiên, đối với quần thể tương đối lớn, thì việc chọn cỡ mẫu có tỷ lệ như vậy tương đối chính xác đủ để đại diện cho quần thể. Việc tính toán là làm sao xác định một kích cỡ mẫu tối thiểu mà vẫn đánh giá được tương đối chính xác quần thể. Chọn cỡ mẫu quá lớn hoặc lớn hơn mức tối thiểu thì tốn kém còn chọn cở mẫu dưới mức tối thiểu lại ít chính xác.
Trước khi xác định cỡ mẫu, phải thừa nhận mẫu cần xác định từ quần thể có sự phân phối bình thường. Để xác định cỡ mẫu tối thiểu cần phải đánh giá trung bình quần thể μ. Khi chúng ta thu thập số liệu từ mẫu và tính trung bình mẫu. Trung bình mẫu này thì khác với trung bình quần thể μ. Sự khác nhau giữa mẫu và quần thể được xem là sai số. Sai số biên (The margin of error) d thể hiện sự khác nhau giữa trung bình mẫu quan sát và giá trị trung bình của quần thể μ được tính như sau:
d : sai số biên mong muốn
Zα/2: giá trị ngưỡng của phân bố chuẩn
n : cỡ mẫu
σ: độ lệch chuẩn quần thể
Sau đó chúng ta có thể tính cỡ mẫu cần thiết dựa trên khoảng tin cậy và sai số biên. Cỡ mẫu được tính qua chuyển đổi công thức trên là:
Để tính được n thì phải biết σ , xác định khoảng tin cậy
và giá trị trung bình μ trong khoảng ±d. Giá trị Zα/2 được tính qua Bảng 5.3.
Bảng Giá trị Zα/2
1- α |
0,80 |
0,85 |
0,90 |
0,95 |
0,99 |
Z α /2 |
1,28 |
1,44 |
1,645 |
1,96 |
2,85 |
Theo qui luật, nếu như cỡ mẫu n < 30, chúng ta có thể tính σ từ độ lệch chuẩn mẫu S theo công thức. Ngoài ra chúng ta củng có thể tính σ từ những quần thể tương tự hoặc từ cuộc thử nghiệm thí điểm, hoặc phỏng đoán.
Thí dụ: Một người nghiên cứu muốn đánh giá hàm lượng trung bình của phosphorus trong một ao hồ. Một nghiên cứu trong nhiều năm trườc đây có một độ lệch chuẩn quần thể σ có giá trị là 1,5 gram/lít. Bao nhiêu mẫu nước sẽ được lấy để đo hàm lượng phosphorus chính xác mà 95% mẫu có có sai số không vượt quá 0,1 gram.
Áp dụng công thức tính cỡ mẫu:
Thay các tham số trên ta có:
Như vậy, người nghiên cứu chỉ cần lấy 10 mẫu nước để phân tích hàm lượng trung bình của phosphorus trong ao hồ.
Đánh giá sự biến động của quần thể
Thậm chí khi chúng ta thật sự không biết sự biến động của quần thể, có một vài phương pháp tìm giá trị biến động:
- Có thể ước lượng Sdựa trên các mẫu trước đây đã chọn có cùng quần thể nghiên cứu giống nhau.
- Có thể phỏng đoán dựa trên các kinh nghiệm trước đây có cùng quần thể nghiên cứu giống nhau.
- Tiến hành nghiên cứu thí điểm để tính giá trị của S.