Powered By Blogger

Chủ Nhật, 1 tháng 4, 2012

Phân bố bình thường

 

Bản để inEmail
Normal DistributionPhân bố bình thường còn gọi là phân bố (phối) chuẩn là một phân bố then chốt trong thống kê, xin trích dịch bài báo Statistics Notes: Normal Distribution của  Douglas G Altman, J Martin Bland trong BJM nói về phân bố này để các bạn tiện tham khảo.
Khi chúng ta đo lường một đại lượng trong một số lớn các cá thể chúng ta gọi kiểu hình (pattern) của các giá trị thu được là một phân bố. Ví dụ, hình 1 cho thấy sự phân bố của nồng độ albumin huyết thanh trong một mẫu của mốt số người trưởng thành trình bày dưới dạng một biểu đồ. Đây là một phân bố thực nghiệm. Cũng có các phân bố lí thuyết, trong đó nổi tiếng nhất là phân bố bình thường (đôi khi được gọi là phân bố Gauss), được cho thấy như trong hình 2. Mặc dù được tham chiếu rộng rãi trong thống kê, phân bố bình thường vẫn còn là một khái niệm bí ẩn đối với nhiều người. Ở đây chúng tôi cố gắng giải thích nó là gì và tại sao nó là quan trọng.

Hình 1 (trái)- giá trị albumin huyết thanh ở 248 người lớn Hình 2 (phải)- Phân bố bình thường với cùng trung bình và độ lệch chuẩn như các giá trị albumin huyết thanh
Trong ngữ cảnh này tên "bình thường" gây ra nhiều nhầm lẫn. Trong thống kê nó chỉ là một cái tên; các nhà thống kê thường viết với chữ N hoa (Normal / trong tiếng Việt là B hoa cho tên “Bình thường” -ND[i]) để nhấn mạnh điều này và làm rõ lên rằng Bình thường không nhất thiết phải có hàm ý là sự bình thường.Thật vậy, trong một số chuyên ngành phân bố bình thường rất hiếm gặp.
Nhiều phương pháp phân tích giả định về “tính bình thường”, bao gồm cả  tương quan, hồi quy, kiểm nghiệm t, và phân tích phương sai. Thật ra, phân bố của các dữ liệu quan sát được không nhất thiết phải bình thường mà là các giá trị mẫu cần phải tương thích với quần thể (mà chúng đại diện) có phân bố bình thường.Thật ra, các mẫu lấy từ một dân số có phân bố thật sự là bình thường sẽ không nhất thiết tự chúng phải trông có vẻ bình thường, đặc biệt là khi mẫu nhỏ. Hình 3 cho thấy phân bố của các mẫu với các cỡ khác nhau lấy ra một cách ngẫu nhiên từ phân bố bình thường, một ít trong số các mẫu nhỏ trông giống như một phân bố bình thường, nhưng sự tương tự sẽ tăng lên khi cỡ mẫu tăng lên.

Hình 3 Mẫu ngẫu nhiên từ các phân bố bình thường- năm mẫu có cỡ 20, 50, 100, và 500
Mặc dù một vài phương pháp thống kê, chẳng hạn như kiểm nghiệm t, không nhạy với các tách rời vừa phải so với phân bố bình thường, nên thường tốt hơn là không nên dựa vào đặc điểm này. Kiểm tra phân bố bằng mắt có thể gợi thấy liệu các giả định về bình thường là hợp lí hay không nhưng (như hình 3 cho thấy) phương pháp này là không đáng tin cậy. Các kiểm nghiệm ý nghĩa và việc vẽ đồ thị bình thường có thể được sử dụng để đánh giá chính thức liệu dữ liệu mẫu có là một mẫu có nhiều khả năng lấy từ một quần thể một bình thường hay không. Khi dữ liệu không có phân bố bình thường chúng ta có thể chuyển đổi dữ liệu (ví dụ, bằng cách lấy logarit…) hoặc dùng phương pháp không yêu cầu dữ liệu phải phân bố bình thường.
Phân bố bình thường có một vị trí thiết yếu khác trong thống kê. Các mẫu riêng biệt được chọn ngẫu nhiên từ cùng một quần thể thường khác lẫn nhau (hình 3), tương tự như thế các thống kê tính được từ đó, chẳng hạn như huyết áp trung bình cũng thường sẽ không bằng nhau. Chúng ta có thể nghĩ đến là các trung bình từ nhiều mẫu như chính chúng cũng có một phân bố. Một kết quả quan trọng về mặt lí thuyết, được gọi là định lý giới hạn trung tâm, cơ sở cho nhiều phương pháp phân tích. Định lí này nói rằng các trung bình của các mẫu ngẫu nhiên từ bất kì phân bố nào tự chúng sẽ có một phân bố bình thường. Như một hệ quả, khi chúng ta có các mẫu với hàng trăm quan sát thường chúng ta có thể không cần để ý đến phân bố của dữ liệu. Tuy nhiên, vì hầu hết các nghiên cứu lâm sàng có cỡ khiêm tốn nên việc chuyển đổi dữ liệu không bình thường là điều nên làm, đặc biệt là khi gặp phân bố đối xứng lệch (skewed).
Chúng ta có thể xem xét các thuộc tính nhị phân theo cùng một cách. Ví dụ, tỉ lệ các cá thể bị hen suyễn sẽ thay đổi từ mẫu này sang mẫu khác. Nếu có bệnh hen suyễn được biểu thị bằng 1 và không có bệnh hen suyễn biểu thị bằng 0 thì trung bình của các giá trị này là tỉ lệ của các cá nhân bị suyễn (p=x̅ ) trong mẫu. Vì vậy, tỉ lệ cũng là một trung bình và sẽ tuân theo phân bố bình thường. Phương pháp này không có giá trị cho các mẫu nhỏ - người ta có thể sử dụng một vài phương pháp "chính xác" khác. Bình luận tương tự cũng đúng đối với một số thống kê khác, chẳng hạn như các hệ số hồi quy hoặc các tỉ lệ tử vong chuẩn hóa, nhưng với tỉ lệ tử vong cỡ mẫu có thể phải thật sự rất lớn.
Một trong những ứng dụng quan trọng nhất của các kết quả này là trong việc tính toán khoảng tin cậy. Phương pháp chung là dựa trên ý tưởng rằng thống kê đang quan tâm (chẳng hạn như hiệu của hai trung bình hoặc hai tỉ lệ) sẽ có một phân bố bình thường trong các mẫu có lặp lại.

Không có nhận xét nào:

Đăng nhận xét