Powered By Blogger

Thứ Năm, 29 tháng 3, 2012

Ứng dụng thống kê: Nhận diện các địa phương "siêu thành tích"


Bệnh hình thức trong giáo dục có thể hiểu như là tình trạng thành tựu giáo dục được nâng cao hơn khả năng thực tế một cách có hệ thống (nhằm đáp ứng yêu cầu hay áp lực chính trị).

Biểu đồ 1: Tỉ lệ tốt nghiệp THPT toàn quốc 2006 - 2010

Bảng 1 : Tỉ lệ (%) tốt nghiệp THPT tính từng vùng trong thời gian 2007-2010
Vùng
2006
2007
2008
2009
2010
Đông Bắc
93,8
44,0
65,1
79,0
92,7
Tây Bắc
88,6
37,9
62,3
69,5
87,5
ĐBSH
99,0
78,5
85,8
91,1
97,8
Bắc Trung bộ
95,8
60,0
71,8
84,4
97,7
Nam Trung bộ
92,9
72,3
75,4
81,4
93,5
Tây Nguyên
87,7
59,2
67,5
80,7
85,9
Đông Nam bộ
91,4
72,3
74,8
80,2
86,2
ĐBSCL
85,8
69,4
75,2
74,8
82,3
Toàn quốc
91,97
63,4
73,3
80,4
90,2
Độ lệch chuẩn
6,28
17,75
12,06
10,92
8,69

Biểu đồ 2: Tỉ lệ tốt nghiệp THPT toàn quốc 2006 - 2010 của 63 tỉnh thành (mỗi đường biểu thị cho một tỉnh)

Biểu đồ 3: Hệ số tương quan về tỉ lệ tốt nghiệp THPT năm 2006 - 2010 Cách đọc: Những ô trong cột thứ 5 (tính từ trái sang phải) thể hiện mối tương quan giữa tỉ lệ tốt nghiệp năm 2010 với các năm 2006 - 2009. Chẳng hạn như hệ số tương quan giữa tỷ lệ tốt nghiệp năm 2010 và 2009 là 0,59, giữa 2010 và 2008 là 0,26 (tức rất thấp), giữa 2010 và 2007 là 0,11 (không có ý nghĩa thống kê). Nhưng giữa năm 2010 và 2006 là 0,70 (tức cao nhất so với các năm khác). Cách đọc tương tự có thể áp dụng cho năm 2009 ở cột số 4.

Biểu đồ 4 : Tỉ lệ tốt nghiệp THPT trong 5 năm 2006 - 2010 thuộc 3 miền Bắc, Trung và Nam. Chú ý trục tung có cùng đơn vị để dễ so sánh độ dao động giữa 3 miền

Bảng 2 : Các tỉnh thành có hệ số biến thiên trên 30% (tức có dấu hiệu "bệnh thành tích")
TỉnhTỉ lệ (%) tốt nghiệp THPT nămHệ số biến thiên
(CV; %)
20062007200820092010
Quảng Trị96,1882,7761,7046,4098,9029,3
Nghệ An98,0087,3561,5045,2096,8030,1
Hà Giang95,5675,9054,6034,8087,6035,6
Hòa Bình95,3780,8457,4033,0096,6037,5
Yên Bái98,5172,7452,4027,0096,8043,7
Cao Bằng89,6564,2440,6027,8086,8044,4
Bắc Kạn70,0060,9543,2020,3091,2047,1
Tuyên Quang96,4381,4859,9014,2095,6049,3
Sơn La91,4339,0754,6024,3088,9050,0

Biểu đồ 5 : Nhận dạng các địa phương có dấu hiệu bệnh thành tích qua so sánh tỉ lệ tốt nghiệp THPT năm 2010. Trục hoành là mức độ khác biệt giữa tỉ lệ tốt nghiệp thực tế của năm 2010 và tỉ lệ dự báo dựa vào mô hình hồi qui tuyến tính cho năm 2010. Mức độ khác biệt càng lớn (các tỉnh màu đỏ, vượt qua ngưỡng 10%) có nghĩa là tín hiệu cho thấy khả năng "bệnh thành tích" càng cao.


Vài nhận xét
Kết quả phân tích chúng tôi trình bày trên đây cho thấy tỉ lệ tốt nghiệp THPT dao động rất lớn giữa các tỉnh thành trong cùng một vùng, và giữa các năm trong cùng một địa phương. Mức độ khác biệt giữa tỉnh có tỉ lệ tốt nghiệp cao nhất (Nam Định, 99,8%) và thấp nhất (Ninh Thuận, 69,1%) là 30,7%, một mức độ rất lớn so với các năm trước.
Nhưng điểm quan trọng hơn là ngay trong cùng một tỉnh, mức độ biến chuyển về tỉ lệ tốt nghiệp còn cao hơn cả mức độ khác biệt giữa các tỉnh thành. Qua phân tích thống kê, chúng tôi nhận thấy phương sai của tỉ lệ tốt nghiệp giữa các tỉnh, thành là 30,6, nhưng phương sai trong mỗi tỉnh thành là 221,2, cao hơn 7 lần so với phương sai giữa các tỉnh.
Đây là một điểm bất bình thường, bởi vì chúng ta kì vọng rằng mức độ khác biệt về tỉ lệ tốt nghiệp giữa các tỉnh, thành phải cao hơn so với độ dao động trong mỗi tỉnh, thành do điều kiện học hành khác nhau rất lớn giữa các địa phương.
Tại sao mức độ biến chuyển trong mỗi địa phương cao hơn so với mức độ khác biệt giữa các điạ phương? Chúng tôi nghĩ đến 4 giải thích khả dĩ như sau: (a) Trình độ học sinh cao hơn trong thời gian qua. (b) Trình độ giáo viên đã được cải thiện. (c) Đề thi trở nên dễ hơn. (d) Tác động từ những "yếu tố ngoại tại".
Theo nhận xét của chúng tôi, trình độ học sinh có thể cải thiện trong thời gian 5 năm qua, nhưng chưa có bằng chứng trực tiếp nào để công nhận như thế, và cũng rất khó có một sự biến chuyển về trình độ trong một thời gian ngắn. Nói một cách khác, yếu tố học sinh gần như là yếu tố biến đổi rất ít trong cùng một thế hệ. Tương tự, vì sự bổ nhiệm nhân sự trong các trường học, nên trình độ giáo viên cũng không thể nâng cao nhanh trong một vài năm được. Hơn nữa, lực lượng giáo viên trong cùng một tỉnh cũng gần như rất ít thay đổi với một khoảng thời gian ngắn.
Trong khi đó, có nhiều bằng chứng cho thấy đề thi năm nay dễ hơn năm ngoái và các năm trước. Như vậy, thực chất, sự biến chuyển lớn về tỉ lệ tốt nghiệp trong 5 năm qua, và nhất là năm 2010, không thể nào do trình độ học sinh và giáo viên được cải thiện nhanh, mà rất có thể là do yếu tố đề thi và yếu tố ngoại tại mà chúng ta khó có thể định lượng một cách trực tiếp và chính xác.
Ngoài ra, các kết quả trình bày trong bài này còn cho thấy bệnh thành tích giáo dục có xu hướng tái phát nhanh. Tỉ lệ tốt nghiệp năm 2010 (90%) tương đương với tỉ lệ tốt nghiệp năm 2006 (92%). Ngay sau khi nhậm chức, Bộ trưởng Giáo dục và Đào tạo phát động phong trào "Hai không", và tỉ lệ tốt nghiệp năm 2007 đột nhiên giảm xuống chỉ còn 63% (tức giảm 29% so với năm 2006). Nhưng ngay sau thời điểm đó, tỉ lệ tốt nghiệp liên tục tăng một cách nhanh chóng theo đường thẳng, gần 9% mỗi năm!
Quan trọng hơn, như đã trình bày ở trên, các tỉnh thành có tỉ lệ tốt nghiệp cao hay rất cao năm 2006 cũng chính là những tỉnh thành có tỉ lệ tốt nghiệp cao năm 2010. Độ tương quan giữa tỉ lệ năm 2010 và năm 2006 lên mức cao nhất so với những năm khác. Đây chính là một tín hiệu rõ ràng nhất cho thấy bệnh thành tích đang tái phát, và lần này, tốc độ tái phát rất nhanh.
Vậy, làm sao chúng ta có thể tin tưởng rằng có trường chỉ mấy năm trước đây có tỉ lệ tốt nghiệp 0%, mà nay thì tăng lên 90%? Nếu đó không phải là triệu chứng của bệnh thành tích, thì rất khó giải thích bằng một lí giải khác logic hơn!
Do đó, trái lại với cách diễn giải của Phó TT, cựu Bộ trưởng Nguyễn Thiện Nhân rằng "Chất lượng  học sinh tốt nghiệp phổ thông tăng", chúng tôi nghĩ rằng những biến chuyển về con số tỉ lệ tốt nghiệp không phản ảnh chất lượng giáo dục tăng, mà chỉ phản ảnh bệnh thành tích đang tăng.
Một trong những "phát hiện" thú vị của phân tích này là các tỉnh phía Bắc có tín hiệu bệnh thành tích cao hơn các tỉnh phía Nam. Dù sử dụng bất cứ thước đo thống kê nào, các địa phương có tín hiệu về bệnh thành tích thường là các tỉnh phía Bắc, nhất là Đông Bắc và Tây Bắc. Trong cả hai phương pháp định lượng, Sơn La là tỉnh có độ dao động về tỉ lệ tốt nghiệp bất thường nhất.
Năm 2006, tỉ lệ tốt nghiệp THPT ở Sơn La là 91%, nhưng giảm xuống chỉ còn 39% trong năm 2007, tăng lên 55% vào năm 2008, rồi lại giảm xuống còn 24% trong năm 2009, và nay thì tăng lên 89%. Thật khó có thể tưởng tượng ra một yếu tố nào khác gây ra một sự biến chuyển bất thường như thế, nếu không do bệnh thành tích!
Ngược lại với những gì Phó TT Nguyễn Thiện Nhân và Thứ trưởng Trần Quang Quý nhận xét về tình hình giáo dục theo chiều hướng tích cực, các kết quả phân tích này cho thấy tình hình giáo dục đang tiếp tục biến chuyển theo chiều hướng tiêu cực. Phong trào "Hai không" mà cựu Bộ trưởng Nguyễn Thiện Nhân phát động trong thời gian đầu nhậm chức xem ra chỉ có kết quả ngay sau đó, nhưng nay thì căn bệnh thành tích đã tái phát, và mức độ tái phát đã tương đương với thời điểm ông mới nhậm chức.
Có lẽ bài học ở đây là chúng ta không cần những phong trào với chữ "không" mà cần những thay đổi về tư duy một cách triệt để, và một trong những tư duy cần xóa bỏ ngay là tư duy bệnh thành tích, bất kể tư duy này xuất phát từ áp lực chính trị hay mặc cảm địa phương.

Ghi chú:
Phương pháp tính toán của chúng tôi dựa vào mô hình đa tầng (hierarchical model). Theo mô hình này, chúng tôi giả định rằng tỉ lệ tốt nghiệp của mỗi tỉnh thành i (i = 1, 2, 3...63 tỉnh thành) trong năm j (j = 2007 đến 2010) tuân theo hàm số đa thức bậc 2 với ảnh hưởng của vùng. Nói cách khác, hàm số này có 4 thông số a, b, c và d như sau: TLTN(ij) = a(i) + b(j)*T(ij) c(j)*T(ij)^2 + E(ij).  Chúng tôi giả định thêm rằng, thông số a(i) là tổng số của một thông số quần thể a, ảnh hưởng của vùng, và sai số U(i) cho tỉnh thành i. Tương tự, tỉ lệ tăng trưởng b(i) cũng bằng một thông số chung b cộng với một sai số liên quan đến tỉnh thành i. Nói cách khác, a(i) = a + k(vùng) + U(i) và b(i) = b + l(vùng) + V(i). Trong đó U(i) phân phối theo luật phân phối chuẩn với trung bình 0 và phương sai varV, tức U(i) ~ N(0, varV; tương tự, V(i) ~ N(0, varV), và E(ij) ~ (0, varE). Vấn đề đặt ra là phải ước tính các thông số trên. Chúng tôi dùng software R để ước tính các thông số đó, và kết quả được trình bày trong bảng số liệu dưới đây:

Thông số (parameter)Ý nghĩa của thông sốƯớc số (estimate)Sai số chuẩn (standard error)
ATỉ lệ tốt nghiệp trung bình năm 200763,682,17
BTốc độ tăng TLTN mỗi năm8,760,80
Phương sai
VarUĐộ khác biệt về tỉ lệ tốt nghiệp giữa các tỉnh272,6952,89
Cov U(i) và V(i)Tương quan giữa tốc độ tăng và tỉ lệ tốt nghiệp năm 2007-86,4218,45
VarVĐộ khác biệt giữa các tỉnh về tốc độ tăng tỉ lệ tốt nghiệp34,287,29
VarEĐộ khác biệt trong mỗi tỉnh thành30,593,85


Chỉ số thứ hai: So sánh ước tính tỉ lệ tốt nghiệp thực tế và tỉ lệ dự báo
Biểu đồ tỉ lệ tốt nghiệp trong 5 năm cho thấy từ năm 2006 - 2010, xu hướng chung là tỉ lệ tốt nghiệp gần như tăng theo một hàm số của phương trình bậc 2. Qua so sánh thì mô hình hồi qui đa tầng (multilevel regression) phản ánh xu hướng tỉ lệ tốt nghiệp chung và cho từng tỉnh tốt hơn so với mô hình đường thẳng (kết quả không trình bày ở đây). Nên mô hình này được áp dụng để đánh giá bệnh thành tích.
Qua khảo sát các mô hình khả dĩ, mô hình ước tính tỉ lệ tốt nghiệp cho mỗi tỉnh tối ưu nhất là một hàm số mà thời gian tuân theo mô hình đa thức bậc 2, và phụ thuộc vào yếu tố vùng: TLTN = a + b*năm  + c*năm^2 + d*vùng + e (1); trong đó TLTN là tỉ lệ tốt nghiệp, a là thông số ước lượng tỉ lệ tốt nghiệp chung cho năm 2006, bc là thông số phản ảnh tốc độ tăng trưởng của TLTN, d là thông số phản ánh mức độ TLTN thay đổi theo vùng địa dư, và e là yếu tố ngẫu nhiên.
Từ đó, chúng tôi ước tính và nhận dạng địa phương có tín hiệu bệnh thành tích qua 2 bước như sau :
(a) Dùng mô hình (1) để ước tính các thông số cần thiết cho 4 năm 2006 đến 2009, và dùng thông số đó để ước tính tỉ lệ tốt nghiệp cho năm 2010.
(b) Lấy tỉ lệ tốt nghiệp thực tế trong năm 2010 trừ cho tỉ lệ tốt nghiệp dự báo dựa vào mô hình trong bước (a), và gọi kết quả là D; D chính là một thước đo về bệnh thành tích.
Nếu địa phương nào có D là số dương, thì điều này có nghĩa là địa phương đó có tỉ lệ tốt nghiệp tăng cao hơn so với xu hướng trong 4 năm qua. Tuy nhiên, bởi vì mô hình hồi qui vẫn còn có sai số, cho nên vấn đề là cần phải một ngưỡng của D để nhận dạng địa phương "có vấn đề".
Bởi vì tỉ lệ tăng trung bình là 8,8% mỗi năm với sai số chuẩn là 0,8%, cho nên chúng tôi chọn ngưỡng D, được tính bằng một trị số trung bình (8,8) ± 2*sai số chuẩn (khoảng 10%) để nhận dạng địa phương có tỉ lệ tăng trưởng cao một cách "bất thường".

Diện mạo các tỉnh có tín hiệu "bệnh" rõ rệt
Dựa vào cách tính và ngưỡng trên, chúng tôi nhận ra 17 địa phương sau đây có sai lệch đáng chú ý, tức là một tín hiệu của "bệnh thành tích" (Biểu đồ 5): Bắc Cạn, Thừa Thiên, Lạng Sơn, Bắc Giang, Thái Bình, Kon Tum, Thanh Hóa, Lai Châu, Quảng Trị, Phú Thọ, Nghệ An, Hà Giang, Hòa Bình, Cao Bằng, Tuyên Quang, Yên Bái, và Sơn La.
Trong số này, có đến 12 tỉnh thuộc vùng Đông Bắc và Tây Bắc! Những tỉnh thành này cũng nằm trong kết quả khi phân tích bằng hệ số biến thiên ở phần trên. Như vậy, có sự nhất quán giữa hai kết quả phân tích, và điều này cho thấy rằng các tỉnh thành vùng Đông Bắc và Tây Bắc quả thật có tín hiệu bệnh thành tích rất đáng chú ý.

Do đó, vấn đề đặt ra là cần phải có một chỉ số thống kê định lượng, cụ thể hơn để đánh giá độ dao động, độ khác biệt giữa các năm trong một địa phương. Chỉ số đó là độ lệch chuẩn (standard deviation, SD). Theo định nghĩa, CV được tính bằng cách lấy SD chia cho số trung bình (average).  Bởi vì SD và số trung bình có cùng một đơn vị đo lường (trong trường hợp tỉ lệ tốt nghiệp, thì đơn vị đo lường là phần trăm). Cho nên với CV, là một tỷ số, có thể sử dụng để so sánh giữa các địa phương một cách dễ dàng. Thí dụ:
Tỉ lệ tốt nghiệp THPT của TP. Hồ Chí Minh trong thời gian 5 năm 2006 - 2010 lần lượt là 96,1 ; 95,1 ; 93,3 ; 94,6 ; và 94,6%. Như vậy, tính trung bình, tỉ lệ tốt nghiệp của TPHCM (%) là 94,7 ; và SD = 1,01. Do đó, chỉ số biến thiên CV =  0,0107 hay 1,07%, tức là rất thấp.
Ở Cao Bằng, tỉ lệ tốt nghiệp THPT trong cùng thời gian trên là 86,8% (2006), xuống còn 27,8% (2007), và nhanh chóng tăng lên 40,6% (2008), 64,2% (2009), đạt đỉnh 89,65% (2010). Do đó, tỉ lệ trung bình của 5 năm qua là 61,8%, nhưng với độ dao động rất lớn vì SD = 27,4%.  Nói cách khác độ lệch chuẩn cao 44% (CV = 44%) so với chỉ số trung bình.
Hai ví dụ trên cho chúng ta thấy rõ ràng rằng chỉ số CV có thể là một thước đo có ích để nhận ra các địa phương có tín hiệu bệnh thành tích. Nhưng bản thân chỉ số CV cũng dao động giữa các tỉnh thành, do đó, chúng tôi cần một ngưỡng (cut-off level) để đánh giá bệnh thành tích.
Gọi số trung bình CV của 63 tỉnh thành là aCV, và độ lệch chuẩn của độ biến thiên trong 63 tỉnh thành là sdCV, chúng ta có thể phát biểu rằng những tỉnh thành nào có CV cao hơn aCV + sdCV là địa phương có thể xem là "bất thường".
Qua phân tích thực tế, chúng tôi thấy chỉ số biến thiên trung bình cho toàn bộ 63 tỉnh thành là aCV = 17%, với độ lệch chuẩn sdCV = 11%.  Do đó, chúng tôi chọn ngưỡng CV trên 30% để nhận dạng các địa phương có thể "có bệnh thành tích".  Kết quả trình bày trong Bảng 2 cho thấy các tỉnh sau đây có CV trên 30%.



"Bệnh thành tích" hay áp lực chính trị ?
Để định lượng bệnh thành tích, chúng ta cần một định nghĩa khả dĩ. Thật ra, cho đến nay, chúng ta chỉ hiểu ngầm bệnh thành tích, chứ chưa có ai định nghĩa nó như thế nào. Có tác giả như Huỳnh Bảo Sơn chẳng hạn, xem bệnh thành tích là một hậu quả của chủ nghĩa hình thức.
Theo tác giả này "Bệnh thành tích là hậu quả của chủ nghĩa hình thức và chính nó là mẹ đẻ của bệnh sao chép, học thuộc lòng và hiện tượng đào tạo hình ống của hệ thống đại học ở nước ta." Nhưng đó vẫn chưa phải là một định nghĩa của bệnh, mà chỉ là căn nguyên của bệnh.
Theo chúng tôi, bệnh hình thức trong giáo dục có thể hiểu như là tình trạng thành tựu giáo dục được nâng cao hơn khả năng thực tế một cách có hệ thống (nhằm đáp ứng yêu cầu hay áp lực chính trị). Chẳng hạn như, một trường trung học vùng sâu vùng xa, dù thiếu khả năng và phương tiện để nâng cao trình độ học sinh bằng các trường ở thành phố, nhưng vì địa phương (tỉnh) cần con số đẹp để báo cáo lên trung ương, nên phải gây áp lực cho giáo viên và hiệu trưởng nâng cao điểm cho học sinh sao cho tương đương với điểm của học sinh thành phố.
Chiếu theo định nghĩa trên, có ba vế: Thứ nhất là thành tựu giáo dục. Thứ hai là khả năng thực tế. Thứ ba là dùng cơ chế để đạt được thành tích ảo. Nếu dựa theo đó, chúng tôi có thể định lượng bệnh thành tích bằng các chỉ số cụ thể. Để định lượng bệnh, chúng ta cần một vài chỉ số thống kê để đo lường qui mô và xu hướng phát sinh của bệnh thành tích.
Trong bài phân tích này, chúng tôi sử dụng tỉ lệ tốt nghiệp như là một chỉ số đo lường một "thành tựu" giáo dục, bởi vì con số này phản ảnh tình hình chung liên quan đến đầu ra của một địa phương. Nói đến xu hướng là nói đến thời gian, cho nên chúng ta cần phải xem xét đến tỉ lệ tốt nghiệp THPT trong thời gian qua.
Vì số liệu không đầy đủ, nên chúng tôi phải tạm sử dụng số liệu đã được qua "chế biến", hiểu theo nghĩa các tỉ lệ tốt nghiệp của mỗi tỉnh đã được tính toán từ con số thí sinh dự thi và số thí sinh tốt nghiệp. Tuy nhiên, vì số học sinh dự thi thường cao (trên 1.000) nên những con số tỉ lệ tốt nghiệp cũng không chịu sự chi phối của các yếu tố mẫu và nhiễu.

Hai phương pháp đo lường bệnh thành tích
Về mặt phương pháp, 2 phương pháp để đo lường bệnh thành tích là: Hệ số biến thiên (coefficient of variatio, tức CV) và so sánh tỉ lệ tốt nghiệp trên thực tế với tỉ lệ dự báo thu được bằng phân tích hồi qui đa tầng (hierarchical model).
Chỉ số thứ nhất: Hệ số biến thiên
Nếu địa phương có triệu chứng bệnh thành tích, thì chúng ta có thể đoán rằng độ dao động về tỉ lệ tốt nghiệp của địa phương đó ắt phải cao một cách bất thường. Biểu đồ 4 dưới đây cho thấy một sự khác biệt rất rõ nét về độ dao động của tỉ lệ tốt nghiệp giữa 3 miền đất nước. Nói chung, các tỉnh miền Bắc có tỉ lệ dao động (giữa các năm) lớn nhất, kế đến là các tỉnh miền Trung. Riêng các tỉnh, thành miền Nam có tỉ lệ tốt nghiệp khác biệt thấp nhất.


Căn bệnh luôn tái phát
Một cách có thể dùng để thẩm định xu hướng "bệnh thành tích" có tái phát hay không là xem xét đến mối tương quan về tỉ lệ tốt nghiệp giữa các năm, mà thước đo là hệ số tương quan (coefficient of correlation). Hệ số tương quan là một chỉ số đo sự tương đồng giữa hai biến số, hay trong trường hợp này là tỉ lệ tốt nghiệp giữa 2 năm.
Hệ số này dao động từ 0 (tức hoàn toàn không có liên quan) đến 1 (tức hoàn toàn tương quan). Khi hệ số tương quan giữa năm tt+1 gần bằng 1, điều đó có nghĩa là tỉ lệ tốt nghiệp của năm t+1 có thể tiên đoán từ tỉ lệ tốt nghiệp của năm t. Áp dụng khái niệm đó, chúng tôi đã phân tích tỉ lệ tốt nghiệp của tất cả các năm 2006 - 2010 (Biểu đồ 3)
Phân tích cho thấy một xu hướng rất thú vị và cũng có ý nghĩa. Mối tương quan giữa tỉ lệ tốt nghiệp của năm 2010 với các năm 2009, 2008, 2007 giảm dần. Tỉ lệ tốt nghiệp giữa năm 2010 và 2009 là 0,59, giữa năm 2010 và 2008 là 0,26 ; và giữa năm 2010 và 2007 chỉ còn 0,11, thậm chí không có ý nghĩa thống kê.
Tuy nhiên, điểm đáng chú ý là tỉ lệ tốt nghiệp năm 2010 và năm 2006 là cao nhất (r = 0,70). Kết quả này cho biết, những tỉnh có tỉ lệ tốt nghiệp cao trong năm 2006 cũng chính là những tỉnh có tỉ lệ tốt nghiệp cao trong năm 2010. Thật vậy, tỉ lệ năm 2006 có thể tiên đoán khoảng 50% độ dao động về tỉ lệ tốt nghiệp năm 2010!


Một đặc điểm đáng chú ý khác là mức độ dao động về tỉ lệ tốt nghiệp trong mỗi tỉnh thành trong thời gian 2006 - 2010 rất cao. Biểu đồ 2 dưới đây trình bày tỉ lệ tốt nghiệp trung bình cho 63 tỉnh thành. Có một số tỉnh (chủ yếu là vùng Đông Bắc và Tây Bắc) có tỉ lệ tốt nghiệp giảm rất nhanh giữa năm 2006 và 2007 (từ 90% năm 2006 xuống dưới 20% vào năm 2007), nhưng sau đó thì cũng tăng rất nhanh.
Trong khi đó, độ khác biệt giữa các tỉnh cho từng năm thì có xu hướng giảm theo thời gian. Điều này nói lên một nghịch lí là mức độ biến chuyển tỉ lệ tốt nghiệp trong mỗi tỉnh cao hơn mức độ khác biệt giữa các tỉnh!


Tuy nhiên, tỉ lệ tốt nghiệp năm 2010, cũng như các năm trước dao động rất lớn giữa các tỉnh thành và vùng (Bảng 1). Năm 2010, tỉ lệ tốt nghiệp THPT được ghi nhận cao nhất ở các tỉnh thành đồng bằng sông Hồng (97,8%) và vùng Bắc Trung Bộ (97,7%). Các tỉnh thành thuộc vùng đồng bằng sông Cửu Long, có tỉ lệ thấp nhất (82,3%).

Trong vài năm gần đây, hầu như bất cứ một kì thi tốt nghiệp trung học phổ thông nào cũng để lại nhiều dấu hỏi trong công chúng. Kì thi năm nay, 2010, cũng không phải ngoại lệ, với nhiều ý kiến cho rằng tỉ lệ tốt nghiệp năm nay quá cao, và có lẽ bệnh thành tích trong giáo dục đang có nguy cơ quay lại hay đang tái phát.
Tuy nhiên, chưa ai tìm ra cách định lượng bệnh thành tích, và cũng chưa ai chỉ ra những địa phương nào có bệnh thành tích. Bài viết này sử dụng các số liệu về tỉ lệ tốt nghiệp THPT hệ giáo dục thường xuyên trong các năm từ 2006 đến 2010 (số liệu trích từ các nguồn: Tổng cục Thống kê, Bộ GD và ĐT, Báo VietNamNet, và Báo Dân trí 18/06/2010) để nhận ra những địa phương có dấu hiệu bệnh thành tích.
Tỉ lệ tốt nghiệp THPT năm 2010 có gì đáng chú ý?
Theo phân tích của chúng tôi, có 3 điểm đáng chú ý trong tỉ lệ tốt nghiệp năm 2010: Tỉ lệ tăng nhanh từ năm 2007, độ dao động trong mỗi tỉnh cao hơn mức độ khác biệt giữa các tỉnh, và mối tương quan về kết quả của năm 2010 với tỉ lệ tốt nghiệp năm 2006 (năm được cho là đỉnh cao về bệnh thành tích).
Tỉ lệ tốt nghiệp THPT năm nay xấp xỉ tỉ lệ tốt nghiệp năm 2006. Theo số liệu mới nhất mà chúng tôi thu thập được (có thể tham khảo ở đây), thì tỉ lệ tốt nghiệp trung bình trên toàn quốc năm 2010 là 90,2%. Tỉ lệ này tương đương với tỉ lệ năm 2006 ( ~92%), nhưng cao hơn hẳn so với các năm 2009 đến gần 10%, năm 2008 khoảng 17%, và năm 2007 đến 27% (Biểu đồ số 1 và 2). Nếu lấy thời điểm 2007 làm điểm khởi đầu, thì số liệu năm 2010 có nghĩa là tỉ lệ tốt nghiệp tăng trung bình khoảng 9% mỗi năm trong thời gian 4 năm qua.

Thứ Tư, 28 tháng 3, 2012

Phan tich phuong sai cua gia vang

TRIEULUAN
13-08-08, 11:07 AM
Tình hình như vầy:

Triệu Luân đang tìm cách tình tương quan và tìm ra hàm số của 1 số biến như sau :

y = f(X)

y(Gold) = f ( x1=EUR, x2=AUD, x3= GBP..., x6=OIL)

Dữ liệu đầu vào :

Triệu Luân có 1 bảng số liệu giá của các loại GOLD, EUR, AUD,CAD,GBP,OIL theo USD theo ngày

Tính được tương quan của các cặp dữ liệu.

Yêu cầu đầu ra :

Có cách nào tìm ra được hàm sô tuyến tính của gold thông qua các biến là các ngoại tệ khác không, vui lòng chỉ cách làm dùm

giông như phân tích nhân tố ấy giá vằng tăng 1 đơn vị là do GBP tăng 0.003, CAD tăng 0.006... v...v

haind
13-08-08, 01:54 PM
Luân & sachvang ....... chúng ta có thể hồi quy để có được một hàm số tương quang giữa GOLD và một rổ ngoại tệ khác à ?!?!?!?!?!?!?! Mình đã test thử mối tương quan của các ngoại tệ với nhau và phát hiện chúng ........ chẳng liên quan gì đến nhau. Với một lô các tỷ giá không liên quan gì đến nhau (có nghĩa là chúng di chuyển vô hướng) thì làm sao có thể có hàm số:

y =f(x) = x1 x USD + x2 x AUD + x3 x CAD + x4 ...... + x0

Hàm số trên có dạng là gì với n biến di chuyển cùng một lúc ?!?!?!

Phân tích tương quan:
EUR vs.GBP - correlation: 0.96
GBP vs.CAD - correlation: 0.91
CAD vs.SFR - correlation: -0.44
SFR vs.JPY - correlation: 0.17
JPY vs.AUD - correlation: -0.34

Rõ ràng là thấy chúng chẳng liên quan gì đến nhau, nếu Luân muốn tìm hàm số liên quan giữa GOLD va 1 loại ngoại tệ thì được (hoặc quy tất cả về 1 loại ngoại tệ "chung" nào đó). Cái này mình dùng Excel đấy, không phải SPSS:

Gold vs. EUR - Correlation: 0.533
y = 0.0405 x EUR - 272.2547
Gold vs. GBP - Correlation: 0.513
y = 0.0406 x GBP+ 65.9581
Gold vs. CAD - Correlation: 0.337
y = 0.0405 x CAD+ 711.9257
Gold vs. SFR - Correlation: -0.3
y = 0.0405 x SFR+ 1200.8695
Gold vs. JPY - Correlation: -0.573
y = 0.0404 x JPY+ 1487.0774
Gold vs. AUD - Correlation: 0.514
y = 0.0405 x AUD+ 662.5301

(Số liệu của L có vấn đề gì với SFR không?)
Không biết cách xây dựng hàm hồi quy với 5 biến thay đổi cùng lúc, chờ sachvang chia sẻ kinh nghiệm để học hỏi vậy :).

pat
13-08-08, 03:14 PM
Lập luận của haind rất chính xác.

Về lý thuyết, muốn xây dựng hàm hồi quy dạng:

y =f(x) = x1 x USD + x2 x AUD + x3 x CAD + x4 ...... + x0

thì đòi hỏi các biến độc lập cũng phải có mối tương quan nhất định.

Theo tính toán của pat, đầu tiên là cần kiểm định độ tin cậy của thang đo bằng Cronbach's Anpha, kết quả như sau:

****** Method 2 (covariance matrix) will be used for this analysis ******




R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)


Mean Std Dev Cases

1. GOLD 875.6000 71.0636 20.0
2. EUR 1.2305 .0406 20.0
3. GBP 1.7118 .0771 20.0
4. CAD .8124 .1190 20.0
5. SFR .8099 .0531 20.0
6. JPY .0075 .0005 20.0
7. AUD .6900 .1183 20.0
8. OIL 128.9500 11.0476 20.0


Correlation Matrix

GOLD EUR GBP CAD SFR

GOLD 1.0000
EUR .5329 1.0000
GBP .5130 .9625 1.0000
CAD .3374 .9095 .9057 1.0000
SFR -.2998 -.4625 -.5301 -.4416 1.0000
JPY -.5733 -.3165 -.3541 -.2188 .1699
AUD .5141 .9638 .9965 .9068 -.4737
OIL -.1279 -.1197 -.1976 -.0913 -.4031


JPY AUD OIL

JPY 1.0000
AUD -.3380 1.0000
OIL -.0395 -.2621 1.0000



* * * Warning * * * Determinant of matrix is close to zero: 7.405E-19

Statistics based on inverse matrix for scale ALPHA
are meaningless and printed as .

N of Cases = 20.0

N of
Statistics for Mean Variance Std Dev Variables
Scale 1009.8120 4990.2171 70.6415 8




R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)


Item-total Statistics

Scale Scale Corrected
Mean Variance Item- Squared Alpha
if Item if Item Total Multiple if Item
Deleted Deleted Correlation Correlation Deleted

GOLD 134.2120 120.3129 -.1156 . -.0172
EUR 1008.5815 4987.2260 .5214 . -.0433
GBP 1008.1002 4984.8917 .4888 . -.0438
CAD 1008.9997 4984.6903 .3280 . -.0439
SFR 1009.0022 4992.9656 -.3670 . -.0419
JPY 1009.8046 4990.2581 -.5842 . -.0425
AUD 1009.1220 4982.1950 .4794 . -.0445
OIL 880.8620 5070.8934 -.1288 . .0048



Reliability Coefficients 8 items

Alpha = -.0417 Standardized item alpha = .4355



Kết quả cho thấy, việc tính toán các hệ số tương quan từng cặp giữa các biến và hệ số tương quan giữa gold và các biến còn lại của haind là chính xác. Tuy nhiên, kết quả cũng cho thấy Alpha = -.0417 chứng tỏ thang đo này không thể sử dụng được ở độ tin cậy 95%.

Thứ 2, chúng ta dễ dàng nhận ra việc lấy số liệu của bác Luân là theo chuỗi thời gian nhưng thời gian quá ngắn, chỉ có 20 mẫu, rất nhỏ để có thể thấy xu thế biến thiên.

Thứ 3, về phương pháp, hết bước thứ 1 là có thể dừng lại, khỏi cần phải mất công đi tìm hàm số hồi quy cho mất công. Tuy nhiên, để làm vui lòng bác Luân, và cho thấy các hàm số do bác haind tính toán chưa chính xác, em quyết định đánh liều chạy hồi quy cho tất cả các biến tác động lên gold. Kết quả như sau:

Bằng phương pháp stepwise, SPSS đã tự động loại tất cả những biến không có tác động đến gold. Chỉ còn lại duy nhất biến JPY là có tác động đến gold mà thôi. R square đã hiệu chỉnh bằng 0.291 cho thấy mô hình chỉ giải thích được 29,1% biến gold. Sig của kiểm định F =0.008 cho thấy mô hình có ý nghĩa ở độ tin cậy 95%. Hàm số hồi quy như sau:

GOLD = 1487.077 - 81994.127 JPY

Sig của kiểm định T của hệ số Beta bằng 0.008 cho thấy hệ số này có ý nghĩa trong mô hình ở độ tin cậy 95%

Tất cả những biến còn lại đều không có tác động nào đến GOLD với độ tin cậy 95% do có sig của các kiểm định đều lớn hơn 0.05.

Như vậy, hàm của bác haind y = 0.0404 x JPY+ 1487.0774 là chưa chính xác.

Vài ngu kiến cùng anh em, mong bác nào có góp ý thêm, đặc biệt là sachvang với tuyên bố làm nức lòng người hâm mộ: Ôi trời, dễ òm, her her

PS: Sorry các bác, do copy bảng output từ SPSS qua, nên số nhảy tùm lum, bác nào cần thì em add thêm cái file output luôn. :uongruou:

haind
13-08-08, 03:52 PM
Cám ơn pat, mình sử dụng nhầm hàm số trong Excel nên ra kết quả sai rồi. (sử dụng nhầm hàm trong Excel nên tính toán độ dốc hàm số tương quan trật rồi) pat hoàn toàn chính xác, đây mới là đúng đây:

Gold vs. EUR - Correlation: 0.533
y = 932.8 x EUR+ -272.2547
Gold vs. GBP - Correlation: 0.513
y = 472.97 x GBP+ 65.9581
Gold vs. CAD - Correlation: 0.337
y = 201.48 x CAD+ 711.9257
Gold vs. SFR - Correlation: -0.3
y = -401.64 x SFR+ 1200.8695
Gold vs. JPY - Correlation: -0.573
y = -81994.13 x JPY+ 1487.0774
Gold vs. AUD - Correlation: 0.514
y = 308.8 x AUD+ 662.5301

Chạy hồi quy thử tất cả mấy cái đồng tiền trên rồi Lower95% lẫn Upper95% đều không đáng tin cậy :) các số liệu thống kê chưa đại diện được mẫu hoặc mấy cái đại lượng này đang tuân theo quy luật phân phối ......... "không theo quy luật nào cả :D :D "

Have fun !
P/S: không xài rành SPSS lắm, toàn sử dụng Analysis & các hàm số trong Excel cả thôi.

Cá Heo
13-08-08, 04:18 PM
03 chiều, mới ngủ dậy, đang loay hoay cài SPSS , đọc các bài viết của các bác, muốn choáng luôn, từ từ đã nào chemieng

Em không dám múa rìu qua mắt thợ, nhất là bác Pat, được đại sư phụ PGS.TS Nguyễn Đình Thọ hướng dẫn luận văn - được trùm sư tổ hướng dẫn thì thật sự em không dám lên tiếng

Em chỉ dám nói đôi điều với bác Triệu Luân thôi

Về nguyên tắc, muốn xây dựng hàm hồi quy giữa 01 biến phụ thuộc với các biến độc lập, bác Triệu Luân nhớ phải xem xét giữa các biến độc lập có mối tương quan với nhau không, nếu có mối tương quan với nhau trong trường hợp của bác thì không thể xây dựng hàm hồi quy được , vì sẽ xảy ra hiện tượng đa cộng tuyến . Hiện tượng đa cộng tuyến rất đáng sợ và cũng rất ít học viên chịu khó để ý khi làm luận văn, cứ thấy các biến định lượng là múc vào, xào để ra được cái hàm rồi bảo là : "Kính thưa các thầy, luận văn của em đã xây dựng được hàm hồi quy .....". Hi, nếu mà các thầy bên lĩnh vực Kinh Tế Lượng như thầy Khánh Duy thì luận văn chỉ có mà < 5 điểm

Để kiểm tra hiện tượng đa cộng tuyến trước hết, hình như bác haind làm đúng là kiểm tra mối tương quan giữa các biến với nhau thông qua Hệ Số Tương Quan Correlations

Hệ số tương quan xem 02 biến có quan hệ với nhau không r
Không có quan hệ nhân quả, không phân biệt cái nào là nguyên nhân của cái nào
Kết quả của phân tích tương quan là tính được hệ số tương quan cho biết chặt hay không chặt

-1 =< r =< 1
r > 0 : Thuận
r < 1 : Nghịch
r = 0 : không có quan hệ tuyến tính
|r| à 1 : càng chặt : Các điểm nằm gần đường thẳng
|r| à 0 : càng yếu
>= 0.6 : chặt ( khối KHXH)
< 0.3 : lỏng


Hiện tượng đa cộng tuyến : người ta quan tâm tới hiện tượng đa cộng tuyến
Y = f ( X1 , X2 , X3)

Là hiện tượng các biến này có quan hệ chặt chẽ với nhau
Hòan hảo : I1 X1 + I2 X2 + I3 X3 = 0

Không hòan hảo : I1 X1 + I2 X2 + I3 X3 + v = 0

Nếu rơi vào hiện tượng đa cộng tuyến thì hàm của chúng ta không bị tốt


à Βi không chệch

Se ( Βi) chệch lớn

| t | = Βi / SE (Βi)

Ta mong muốn | t | > 2 để biến số có ý nghĩa thống kê
Nhưng khi xảy ra hiện tượng đa cộng tuyến thì làm cho Se ( Βi) chệch lớn
à giá trị | t | càng nhỏ

Một số triệu chứng phát hiện hiện tượng đa cộng tuyến


VIF > 10 : bị đa cộng tuyến
| r Xi Xj | > 0.8




Còn những cái khác, bác Pat phân tích khá chính xác, em chưa chạy được SPSS nên chưa kiểm tra, hic hic

letientien
03-09-08, 11:43 AM
Theo tôi không nên sử dụng hệ số Alpha (Cronbach) hoặc phân tích nhân tố trong trường hợp này (các phương pháp (chỉ số) trên chỉ sử dụng trong trường hợp biến tiềm ẩn (nói nôm na là khi sử dụng Likert, Stapel...) để đo lường một biến.

Trong trường hợp này chỉ kiểm tra hệ số correlation của các biến độc lập, đồng thời, khi phân tích (nên dùng stepwise) cho tất cả các biến số thì nên kích vào các option để kiểm tra hệ số VIF và hệ số D (Dublin) là ok, các tiêu chuẩn để kiểm tra như bạn gì gì đấy nói ở trên.

TRIEULUAN
03-09-08, 02:30 PM
Xin cảm ơn tất cả bài viết cuả các bác. quả thật nhiều cao thủ quá nhỉ. TRIEULUAN đọc cũng hiểu đc rồi. còn về thủ thuật tính toán thì phải về xem sách cuả thầy Hoàng Trọng thêm mới đc, kết 2 cuốn sách cuả thầy giới thiệu rồi phải mua về tìm hiểu thêm.

Các bác tính toán dùng Luân luôn và kết luận không có tương quan á. Như vậy Vàng và rổ tiền tệ "bước đi ngẫu nhiên" RANDOM WALK à. Vậy bó tay rùi. Em sẽ thử mẫu lơn hơn đầy đủ hơn thử xem (mà kết quả cũng ngẫu nhiên như vậy thì em từ bỏ đầu tư vàng thui....bước đi ngẫu nhiên thì nó đi đường nó em đi đường em )

Cá Heo
07-10-08, 07:53 AM
Dạo này cái món PPNCKH khá lên đô, do cũng đam mê cái món này, nên tiếp tục góp ý với bác Luân và bác Pat

Về cơ bản cách làm của mọi người là ổn, tuy nhiên trong bài trả lời của anh Pat có 01 số trục trặc
Theo tính toán của pat, đầu tiên là cần kiểm định độ tin cậy của thang đo bằng Cronbach's Anpha, kết quả như sau:với các biến đó thì không cần phải chạy Cronbach's Apha vì nó là các biến thực, chứ không phải là các biến quan sát để đo lường một khái niệm tiềm ẩn nào. Nếu có nhiều biến quan sát để đo lường các khái niệm nào đó thì mới chạy Cronbach's Alpha để xem xét xem các biến quan sát có tạo thành một thang đo có đủ độ tin cậy để đo lường từng khái niệm hay không

Thứ 2 : Việc chạy hồi quy, nếu cứ thấy số liệu mà đưa vào chạy thì cũng chạy được và cách làm của anh Pat bằng stepwise như thế là ổn

Nhưng, điều trước tiên là cần tìm hiểu về mặt lý thuyết các nghiên cứu trước đây để xem những yếu tố nào tác động đến giá vàng, sau khi đã xác định được về mặt lý thuyết như vậy thì mới xem xét mình có thể thu thập được những dữ liệu nào và lúc đó mới bắt đầu chạy hồi quy giống cách thức mà anh Pat đã làm

Thứ 3 : Chú ý, trong mô hình hồi quy bội cần xem xét môi hình có bị vi phạm hiện tượng đa cộng tuyến hay không, có bị vi phạm hiện tượng phương sai của sai số thay đổi hay không , sai số của mô hình có tuân theo phân phối chuẩn hay không

Người nào cẩn thận hơn nữa, họ sẽ kiểm định thêm về dạng hàm xem có phù hợp hay không, nếu tất cả đều Ok, thì mô hình đó có thể sử dụng được để gợi ý chinh sách và dự báo

Và chú ý rằng, có nhiều cách kiểm định đa cộng tuyến, 2 cách mà Sachvang trình bày là 02 cách dễ nhất, nhưng để ý rằng hệ số tương quan tính giữa các biến độc lập chỉ sử dụng được khi 02 biến độc lập đó là biến định lượng

Trong hàm hồi quy tuyến tính, các biến độc lập càng không có quan hệ tuyến tính thì càng tốt, nếu quan hệ tuyến tính đó mà quá chặt sẽ dẫn đến hiện tượng đa cộng tuyến

Góp ý với anh Triệu Luân là : việc trước tiên cần tìm hiểu về mặt lý thuyết, xem về mặt lý thuyết thì các yếu tố nào ảnh hưởng đến giá vàng, sau đó mới làm các bước khác

Gợi ý 1 từ khóa để tìm trên mạng : determinant of gold price (các yếu tố tác động đến giá vàng)


Tổng Hợp Kiến Thức từ các thầy cô

hominhsanh
07-10-08, 09:25 AM
Mình đồng ý với bạn Letientien
[QUOTE=letientien;18031]Theo tôi không nên sử dụng hệ số Alpha (Cronbach) hoặc phân tích nhân tố trong trường hợp này (các phương pháp (chỉ số) trên chỉ sử dụng trong trường hợp biến tiềm ẩn (nói nôm na là khi sử dụng Likert, Stapel...) để đo lường một biến.

Trong trường hợp này không cần thiết phải sử dụng Cronbach Alpha và EFA, chỉ cần sử dụng Tương quan chéo mà thôi. Khi ta thấy hệ số tương quan nghịch tức là hai biến này nghịch nhau và ngược lại (chú ý rằng X tương quan với X là 1).
Hiện tượng đa công tuyến ở đây cũng không cần e ngại, vì số liệu là các con số thống kê thực tế ( không ảnh hưởng đến tânm lý chủ quan của con người như thang đo Likert).
Tuy nhiên cũng xin chú ý thêm dữ liệu của Triệu Luân cung câp có dung lượng mẫu nhỏ quá (n=20), chưa đạt đến độ chuẩn, nên khi phân tích và đánh giá dễ dẫn đến kết quả thiếu tính chính xác ( theo mình n>= số biến x5, trong trường hợp này n>=50 thì hay hơn).
Kế quả mình chạy tương quan xin xem file đính kèm.

huynhanhkiet
07-10-08, 09:30 AM
Trời. Hôm nay mới đọc cái thread này lần đầu tiên. Các bác phải để ở ngoài tiêu đề thread là chỉ dành cho dân định lượng. Nếu không vô đọc một chút là choáng váng. :sick:
Cho em hỏi bác Luân chút nhé. Tự nhiên sao bác có ý tương này dzậy. :D

haind
07-10-08, 09:56 AM
@SV: cái topic này đâu có gì nổi trội hơn mấy cái khác đâu mà bầu chọn cho nó là bài viết xuất sắc trong tháng ?!?!?!? :D :D :D Cũng là thảo luận bình thường như mọi ý kiến khác thôi mà, đâu có gì mới mẻ ?!?!?!

huynhanhkiet
07-10-08, 10:03 AM
Đồng ý với bác hải. Cái topic này hơi bị chọn lọc thành viên tham gia. Không thể là bài viết của tháng được. :spam:

ducchanh
07-10-08, 04:39 PM
Mình có 3 ý kiến:
1/ Không thể nào áp dụng hồi quy để dự báo giá vàng dựa vào các tỷ giá hối đoái vì đây là hàm phi tuyến tính
2/ Không thể áp dụng phân tích nhân tố vì các tỷ giá ko phải là biến quan sát của giá vàng
3/ Giá vàng, tỷ giá hối đoái được liệt kê theo dãy số thời gian, trong đó biến động tỷ giá lần n ảnh hưởng bởi lần n-1, n-2.... gọi là khoảng dừng. VÌ vậy chỉ có thể áp dụng mô hình dự báo thời gian ARIMA để khảo sát giá vàng cũng như tỷ giá hối đoái các loại biến động theo thời gian mà thôi. Vi ko thể nào dự báo giá vàng theo tỷ giá hối đoái, lý do:
-Giả sử xác định được các tham số hàm phi tuyến tíinh thì cũng đúng trong 1 thời điểm quan sát các biến( vì giá vàng, tỷ giá cũng biến đổi theo thời gian). Do đó, ko thể áp dụng hàm phi tuyến này cho dự báo ở thời điểm khác.
-Mặt khác, dự báo giá vàng theo dãy số thời gian sẽ bị nhược điểm (nhươc điểm thế nào các bạn tự hiểu^^), khi sử dụng mô hình Holt-Winter, hay ARIMA thì cũng đều như nhau.
Suy ra, không thể nào tìm được 1 hàm chính xác dự báo giá vàng theo tỷ giá hối đoái, nếu ko mình đã tìm ra từ lâu và canh me tỷ giá các loại để đoán giá vàng lên xuống mà hốt bạc hehe
Vài thiển ý khi đọc các comment của các bạn.

NXL
18-10-08, 01:14 PM
Đồng ý hoàn toàn với bạn! Sự biến thiên của vàng phụ thuộc vào rất nhiều yếu tố tác động.

meoconueh
23-06-09, 03:13 AM
Theo bài nghiên cứu của thầy Hoài thì mình thấy có thể dùng hồi quy với giá vàng là biến phụ thuộc, biến độc lập là tỷ giá và giá vàng thế giới. tuy nhiên mình mình chưa xem có hiện tượng hồi quy giả mạo hay không, cái này ai rảnh nghiên cứu hen ^^

Cá Heo
23-06-09, 11:09 AM
Kính gửi quý độc giả Forum đề tài :


Phân tích các nhân tố tác động và dự báo giá vàng Việt Nam năm 2009 ( đề tài NCKH của các em sinh viên UEH_KTPT_K32)


Kết Luận :


Giá vàng trong giai đoạn năm 2001 – 2009 chịu ảnh hưởng bới nhiều nhân tố như: giá vàng thế giới; chỉ số giá tiêu dùng của Việt Nam và Mỹ; thị trường chứng khoán; giá dầu thô thế giới; tỷ giá hối đoái; giá vàng trong quá khứ và các yếu tố chính trị -xã hội chính sách…
Trong giai đoạn sắp tới giá vàng có xu hướng tăng

dinhbang
29-06-09, 06:58 PM
theo tôi thì do tâm lí của người dân lo sợ lạm phát nên tích trử vàng(đối với thị trường trong nước)mong được chia sẻ

lecatluong
27-08-09, 12:26 PM
Nghiệm thấy rằng với kết quả của nhóm nghiên cứu vẫn là để nghiên cứu hehehe....

Hôm nay đọc toppic được giải tháng này mới thấy hay:
Giá vàng ngày hôm nay: 20.247 --> đến 20.300. Một khoảng cách dự đoán quá xa so với file.ppt: thấp nhất cũng tối thiếu 21.xxx ????
Thôi cứ phân tích kỹ thuật là hay nhất các pác ah!

hoainam2022
10-09-09, 10:27 PM
Thật sự bạn xây dựng mô hình, nhưng bạn không hiểu về mô hình bạn đang xây dựng. mình khuyên bạn tốt nhất hãy làm mô hình khác. Bạn muốn nghiên cứu giá vàng việt nam hay giá vàng thế giới?

nguyenquanghuy
11-09-09, 09:47 AM
mình cũng đồng ý với ý kiến bạn ducchanh, mình đang công tác trong lĩnh vực kinh doanh ngoại hối, ngồi nhòm giá vàng và ngoại tệ suốt ngày. Ngay cả đối với USD index, có lúc nghịch biến có lúc đồng biến... và nếu ngcứu cả đống tỷ giá như EUR, GBP, CAD,AUD,... thì impossible rồi...

LuongLan88
06-12-09, 05:08 PM
Minh la hoc vien cao hoc dang nghien cuu ve du bao gia vang VN, khong biet ban bao co bo du lieu gia vang VN khong? cho minh xin.
Chan thanh cam on

Chủ Nhật, 25 tháng 3, 2012

Lấy người mình yêu và định lý Birkoff

 

Khi bé, bạn đi nhà trẻ. Lớn lên, bạn phải lấy vợ. Kiểu gì cũng không tránh được, trừ các vĩ nhân.
Chuyện lấy vợ ngày xưa rất đơn giản. Một ngày đẹp trời, bố khề khà nói với…mẹ “Tôi xem con Sứt con ông phó cối đầu ngõ chăm chỉ đáo để….” Thế là vài tháng sau bạn sẽ là chồng của cô Sứt, và ngày ngày đóng cối….
Chuyên bây giờ không đơn giản như thế nữa. Bạn có tự do, có quyền theo đuổi tình yêu, chắp cánh bay xa, vv. Phải lấy người mình yêu, chà !
Trớ trêu, người bạn yêu (như Angelina Jolie) thì vô số bạn khác cũng yêu. Thế mới cáu. Nhưng không sao, chuyện này các ông Tây cũng đã nghĩ tới, chẳng phải vì cô Angelina là Tây, mà ở bên Tây luật một vợ một chồng có sớm hơn ta, nên các bác ấy phải đi trước một bước, âu cũng là cực chẳng đã.
Các ông Tây giải quyết vấn đề như sau: Thay vì mỗi Angelina, mỗi ông lên một danh sách gồm các cô có thể đưa vào tầm ngắm. Danh sách này sẽ ngắn dài gầy béo tùy theo khả năng và sở thích mối người. Câu hỏi đặt ra là: Khi nào bạn có thể lấy được một
người trong danh sách của bạn mà không dẫn đến một cuộc đọ súng đọ kiếm hay đọ một cái gì với các bạn khác ?
Điều kiện cần của bài toán tương đối dễ xác định. Tưởng tượng cô Mít và cô Đào rất “hot”, và là ý trung nhân của các anh Mai, Thuổng và Xẻng. Thế là hai thục nữ nhưng những ba anh hùng, kiếu gì cũng không ổn. Nói tổng quát, nếu danh sách của k chàng tổng cộng lại chỉ có \le k-1 nàng, thì thế nào cũng dẫn đến mâu thuẫn khó giải quyết. Vậy điều kiện cần của bài toán Lấy (một trong những) Người Mình Yêu là:
(1) Vơi mọi k, danh sách của bât kỳ k chàng trai nào tổng cộng lai phải có ít nhất k cô gái.
Định lý Lấy Người Mình Yêu của Hall (Hall Marriage’s thẻoem) nói rằng đây cũng là điều kiện đủ.
Định lý Hall (1) là điều kiện đủ.
Đjinh lý này có thể phảt biểu dươi dạng đồ thị. Ta biểu diễn các chàng trai bằng chấm màu đỏ và các cô gái bằng chấm màu xanh. Đồ thị G có các cạnh giữa chấm xanh và chấm đỏ, A nối với B nếu nàng B ở trong danh sách của chàng A. Một “perfect matching” là một tập các cạnh không dính nhau phủ hết các đỉnh đỏ.
Định lý Hall. G có perfect matching khi và chỉ khi vơi mọi k, với mọi tập đỏ S với k phần tử, số đỉnh xanh nối vởi S ít nhất là k.
Định lý Hall chứng minh không khó, bạn có thể thử dưới dạng bài tập. Trong phần còn lại của bài, ta sẽ dùng định lý Hall để chứng minh một trong những định lý quan trọng nhất trong đại số tuyến tính: định lý Birkoff. Để phát biếu định lý này, ta cần một khái niệm. Một ma trận n \times n được gọi là doubly stochastic nếu các phần tử là số không âm và tổng mối hàng và mỗi cột là một. Nếu ta biếu diễn ma trận đưới dạng một điểm trong không gian R^{n^2} thì các ma trận DS tạo thành một tập lồi; chính xác hơn, một đa diện lồi S. Câu hỏi đặt ra là: tìm đỉnh của đa diện này. Câu hỏi này quan trọng, vì trong rất nhiều bài toán cực trị, giá trị cực trị được đạt được trên các đỉnh.
Birkoff tìm ra câu trả lời rất đẹp cho câu hỏi này. Một ma trận DS được gọi là “permutation matrix” nếu mỗi hàng và mỗi cột có chính xác một số một (còn lại là không). Bạn có thể dễ dàng thấy rằng mối PM tương đương với một phần tử \sigma của nhóm giao hoán S_n. Bạn cũng có thể dễ dàng chứng minh các PM là đỉnh của đa diện S. Birkoff chứng minh rằng ngoài ra không còn đỉnh nào khác.
Định lý Birkoff. Tập PM là các đỉnh duy nhất của đa diện S.
Giả sử A là một ma trận với phần tử a_{ij}. Với mỗi giao hoán \sigma, ta gọi dãy a_{1 \sigma (1)}, \dot, a_{n \sigma n} là một diagonal của A. Bạn có thể dùng định lý Hall để chứng minh bổ đề sau
{ Bổ đề.} Nếu mỗi diagonal của A có ít nhất một số 0 thì A có một k \times l ma trận con với các phần tử đều bằng 0k+l > n.
Chứng minh định lý Birkoff. Giả sử A là một điểm trong S. Ta sẽ chứng minh A có thể viết đưới dạng \sum_{i=1}^m \lambda_i M_i, với \sum_I \lambda_i=1, \lambda_i \ge 0M_i là PM. Ta qui nạp theo số phần tử dương của A. Nếu An phần tử dương thì nó là một PM. Giả sử Am \ge n+1 phần tử dương. Bạn có thể dễ dàng kiểm tra là một ma trận DS không thể có một ma trận con như trong bổ đề (bài tập). Như vậy, ta có một diagonal gồm toàn số dương. Diagonal này gắn với một phép giao hoán \sigma, và qua đó, một PM P. Gọi a là giá trị (dương) nhỏ nhất trong diagonal trên và B: = \frac{A- aP}{1-a}.
B cũng là một DS matrix. Ngoài ra sồ phần tử dương của nó \le m-1. Vậy B có thể biểu diến dưới dạng \sum_{i=1}^m \lambda_i M_i. Nhưng, A = (1-a) B + aP. QED

Homework for combinatorics 1 (part 2)

(1) Let S be a set of at least n+2 points in R^n. Prove that S can be partitioned into two subsets whose convex hulls intersect.
(2) Let C_1, \dots, C_m be convex sets in R^n such that any n+1 of them intersect. Prove that all of them intersect.
(3) Let p be a fixed prime. Construct a family of \Omega (n^3) subsets of \{1, \dots, n \} such that each has cardinality p^3 but any two has intersection
either 0, 1, p or p^2.
(4)* Let F be a family of subsets of \{1, \dots, n \} such that the intersection of any three is even. Prove that for all sufficiently large n, |F| \le 2^{n/2}.
(*) is a bonus problem, it does not count if you cannot do it, but if you can, I am willing to hear the solution.