RSD LÀ GÌ

  -  

Trả lời câu hỏi bài tập quản lý chất lượng khi nào dùng độ lệch chuẩn và độ lệch tương đối: độ lệch biểu diễn độ biến thiên của giá trị đo mẫu so với giá trị trung bình. Độ lệch tương đối có thể đánh giá được độ biến thiên của các giá trị không cùng đơn vị mà độ lệch chuẩn không làm được.

Bạn đang xem: Rsd là gì

Trả lời sau khi đọc bài viết:

Độ lệch chuẩn hay sai số chuẩn?


Trong vài năm qua, tôi nhận khá nhiều email hỏi về những vấn đề căn bản trong thống kê sinh học và phương pháp dịch tễ học. Tôi có ý định mở mục Lâm sàng thống kê (Statistical Clinic) để trao đổi với bạn đọc về các vấn đề mà tôi thấy quan trọng này. Tôi hân hoan chào đón các câu hỏi của bạn đọc để có cảm hứng trả lời.Trong hàng trăm thư hỏi và tham vấn trong thời gian 3 năm qua, tôi đếm có đến 5 thư hỏi về vấn đề mà tôi lấy làm tựa đề cho bài viết này. Chẳng hạn như một bạn đọc ở Hà Nội viết email đến tôi hỏi: “Thưa thầy! Em đọc thấy trong các tập san y học người ta thường hay trình bày số trung bình kèm theo SEM, nhưng cũng có bài báo trình bày số trung bình kèm theo SD. Xin hỏi Thầy cách trình bày nào đúng?”Đây là một câu hỏi đơn giản nhưng tôi thấy có ý nghĩa ứng dụng khá rộng, nên muốn nhân cột báo Lâm sàng thống kê để trả lời bạn đọc.Trong các tập san y học, chúng ta thường thấy những cột số dưới hình thức x ± y, trong đó x là số trung bình, còn y thì có khi là độ lệch chuẩn (standard deviation – SD) hay sai số chuẩn (standard error – SE). Cũng có tác giả viết SEM (viết tắt từ cụm từ standard error of the mean). Cách trình bày như thế thông dụng đến nỗi một số chuyên gia và các ban biên tập tập san y học phải lên tiếng khuyến cáo. Theo khuyến cáo chung và cũng là qui ước nghiên cứu y học: để mô tả một biến số lâm sàng tuân theo luật phân phối chuẩn, các nhà nghiên cứu nên cách trình bày số trung bình và kèm độ lệch chuẩn (không phải sai số chuẩn; để mô tả một biến số lâm sàng không tuân theo luật phân phối chuẩn, nên trình bày số trung vị và số ở vị trí 25% và 75% (tức là interquartile range).

Xem thêm: Love At First Sight Là Gì ? Love At First Sight Nghĩa Là Gì

Để hiểu qui ước này, chúng ta cần phải tìm hiểu ý nghĩa của độ lệch chuẩn và sai số chuẩn. Tôi thấy điều này cần thiết, bởi vì hầu hết sách giáo khoa thống kê (ngay cả sách giáo khoa do người Tây phương viết) đều không giải rõ những khác biệt về ý nghĩa của hai chỉ số thống kê này.Mô tả một biến số theo luật phân phối chuẩn Xin nhắc lại thuật ngữ: cụm từ “phân phối chuẩn” ở đây chính là “Normal distribution” (hay có sách còn gọi là “Gaussian distribution”, lấy từ tên của nhà toán học vĩ đại người Đức Frederick Gauss). Một biến số tuân theo luật phân phối chuẩn, khi vẽ bằng biểu đồ, giống như hình một cái chuông cân đối (Biểu đồ 1). Phân phối này được xác định bằng hai thông số: số trung bình và độ lệch chuẩn. Để tiết kiệm chữ nghĩa, tôi sẽ lấy kí hiệu m thể hiện số trung bình, và s thể hiện độ lệch chuẩn.

Xem thêm: Quan Vân Trường Cưỡi Ngựa Xích Thố, Ngựa Xích Thố

Tại sao chúng ta cần độ lệch chuẩn? Để trả lời câu hỏi này, chúng ta thử xem qua ví dụ sau đây:Ví dụ 1. Một biến số phản ảnh tình trạng của một bệnh trong hai nhóm bệnh nhân (nhóm A gồm 6 bệnh nhân, và nhóm B gồm 4 bệnh nhân) như sau:Nhóm A: 6, 7, 8, 4, 5, 6Nhóm B: 10, 2, 3, 9Có thể dễ dàng thấy rằng số trung bình của nhóm A là 6, bằng với số trung bình của nhóm B. Tuy có cùng số trung bình, chúng ta khó có thể kết luận hai nhóm này tương đương nhau, bởi vì độ khác biệt trong nhóm B cao hơn trong nhóm A. Thật vậy, độ khác biệt giữa số lớn nhất và số nhỏ nhất trong nhóm B là 8 (tức 10 trừ cho 2) gấp hai lần so với nhóm A với độ khác biệt là 4 (lấy 8 trừ cho 4).Chúng ta cần một chỉ số để phản ảnh sự khác biệt giữa các bệnh nhân (hay nói theo thuật ngữ là biến thiên). Cách làm hiển nhiên nhất là lấy kết quả của từng bệnh nhân trừ cho số trung bình và cộng chung lại. Gọi chỉ số này là D, và để phân biệt hai nhóm A và B, chúng ta dùng kí hiệu dưới dòng (subscript):Nhóm A:
*
= (6-6
) + (7-6) + (8-6) + (4-6) + (5-6) + (6-6) = 0Nhóm B:
*
= (10-6
) + (2-6) + (3-6) + (9-6) = 0Như thấy trên, vấn đề ở đây là tổng số khác biệtD là 0. Như vậy D vẫn chưa phản ảnh được độ biến thiên mà chúng ta muốn. Một cách làm cho D có “hồn” hơn là chúng ta lấy bình phương của từng cá nhân và cộng số bình phương lại với nhau. Gọi chỉ số mới này là
*
, chúng ta có:Nhóm A:
*
= (6-6
)2 + (7-6)2 + (8-6)2 + (4-6)2 + (5-6)2 + (6-6)2 = 10Nhóm B:
*
= (10-6
)2 + (2-6)2 + (3-6)2 + (9-6)2 = 50Bây giờ thì
*
rõ ràng cho thấy nhóm B có độ biến thiên cao hơn nhóm A. Nhưng còn một vấn đề, vì
*
là tổng số, tức là chịu ảnh hưởng cỡ mẫu trong từng nhóm. Một cách điều chỉnh hợp lí nhất là chia
*
cho số cỡ mẫu. Gọi chỉ số mới này là S2, chúng ta có:Nhóm A:
*
= 10 / 6 = 1.67Nhóm B:
*
= 50 / 4 = 12.5Nhưng để khách quan hơn nữa, chúng ta còn phải điều chỉnh cho số thông số sử dụng trong tính toán. Chú ý rằng khi tính
*
hay S2 , chúng ta trừ kết quả mỗi bệnh nhân cho số trung bình (tức là tốn một thông số). Vì thế, thay vì chia cho số cỡ mẫu, chúng ta phải chia cho số cỡ mẫu trừ 1. Gọi chỉ số mới nhất là s2, chúng ta có:
*

*

Chỉ số s2 ở đây chính là phương sai.Nhưng còn một vấn đề nhỏ nữa: bởi vì đơn vị phương sai là bình phương, khác với đơn vị của số trung bình. Vì thế, cách hoán chuyển tốt nhất là chuyển giá trị của phương sai sao cho có cùng đơn vị với số trung bình bằng cách lấy căn số bậc hai, và đây chính là độ lệch chuẩn (kí hiệu s).
*
Đến đây, chúng ta có thể thấy nhóm B có độ biến thiên cao hơn nhóm A. Một cách để định lượng hóa độ lệch chuẩn tương quan với số trung bình là lấy độ lệch chuẩn chia cho số trung bình (và nếu cần, nhân cho 100). Kết quả của tính toán này có tên là hệ số biến thiên (coefficient of variation – CV):Nhóm A: CVA = 1.41 / 6 × 100 = 23.5%Nhóm B: CVB = 4.08 / 6 × 100 = 68.3%Lợi thế của hệ số biến thiên là nó cho chúng ta một phép so sánh các biến số không có cùng đơn vị. Chẳng hạn như chúng ta có thể so sánh độ biến thiên của áp suất máu và độ cholesterol trong một quần thể, vì hệ số biến thiên có cùng đơn vị phần trăm.Đến đây, chúng ta có thể tóm lược sự phân phối của hai nhóm bệnh nhân bằng bẳng sau đây: