Tôi đã có lần đề cập đến Benford's law trên blog này. Mấy hôm nay giới blogosphere lại bàn tán sôi nổi về đề tài này sau một bài viết của Jialan Wang, một giáo sư tài chính tại Washington University. Với những ai chưa biết Benford's law có thể tóm tắt qui luật này như sau: các con số (hệ thập phân) trong tự nhiên (vd độ dài một con sông, chiều cao một tòa nhà, lợi nhuận một công ty...) có một tính chất kỳ lạ là first digit có một distribution không đồng đều mà tuân thủ theo qui luật giảm dần, số 1 có xác suất xuất hiện khoảng 30%, số 2 khoảng 17.6%,... số 9 khoảng 4.5%:
(Nguồn Wikipedia)
Qui luật này trái ngược với intuition của nhiều người (cho rằng các con số có xác suất xuất hiện như nhau) cho nên nó có một ứng dụng rất thú vị là dùng để điều tra khả năng các con số được làm giả hoặc bị hiệu chỉnh. Một người khi làm giả/hiệu chỉnh số liệu sẽ có xu hướng đưa ra những con số có first digit tuân thủ theo uniform distribution, do đó có thể bị phát hiện nếu những con số làm giả được phân tích để so sánh với phân bố theo Benford's law. Jialan Wang đã làm đúng như vậy với số liệu về asset và revenue của 20000 công ty Mỹ, so sánh xác suất phân bổ các số thập phân của first digit với Benford's law và tính sum of square (SS) cho tất cả các sai số này. Nếu SS lớn thì sai lệch so với Benfords' law cao và nhiều khả năng số liệu đã được hiệu chỉnh. Kết quả của Wang cho thấy một xu hướng "làm giả" số liệu khá rõ, tăng liên tục trong suốt 50 năm qua.
(Nguồn: Jialan Wang)
Tim Harford cách đây không lâu cũng chỉ ra một nghiên cứu của một nhóm tác giả Đức dùng phương pháp này để kiểm tra mức độ "trung thực" của số liệu thống kê kinh tế của Hi lạp. Kết luận của nhóm nghiên cứu này là số liệu của Hi lạp cách biệt với Benford's law nhiều nhất so với số liệu của các thành viên khác trong EMU, dấu hiệu cho thấy Hi lạp đã sửa số liệu thống kê cho "đẹp" để được tham gia vào liên minh Euro. Tương tự như vậy một nhóm nghiên cứu của IMF cũng dùng phương pháp này để đánh giá chất lượng các thống kê kinh tế mà các nước nộp cho IMF (mặc dù một nghiên cứu khác cho rằng phương pháp này chưa chắc đã chính xác). Đến đây chắc bạn sẽ đặt câu hỏi vậy số liệu thống kê của TCTK VN thì sao, liệu có cách quá xa Benford's law hay không?
Ở 5% confidence level Chi-square stat có giá trị là 15.51, nghĩa là nếu statistic tính được nhỏ hơn con số này thì không thể phân biệt được empirical distribution với theoretical Benfords' law. Ngược lại nếu số statistic lớn hơn 15.51 thì số liệu thống kê có khác biệt đáng kể so với Benfords'. Dưới đây là kết quả tôi tính toán được với số statistic của mỗi trường hợp trong ngoặc đơn trên title của đồ thị:
Như vậy có thể thấy số liệu nominal GDP (chia theo nhóm ngành) và số retail sales (chia theo ownership và nhóm ngành) tuân thủ khá tốt Benfords' law (statistic <15), trong khi những nhóm khác (money supply, SBV balance sheet, current/capital accounts, industrial outputs) có kết quả khác rất xa lý thuyết. Tất nhiên sai lệch so với Benfords' law không có nghĩa là số liệu không chính xác, cần tìm hiểu kỹ thêm tính chất của nhóm số liệu trước khi "kết tội" TCTK. Nhưng đây là dấu hiệu đầu tiên cảnh báo các nhà nghiên cứu phải thận trọng khi sử dụng những số liệu này, TCTK cũng nên xem xét lại qui trình thu thập và compile số liệu của mình.
Không có nhận xét nào:
Đăng nhận xét