Hiện tượng đa cộng tuyến là gì? Hiện tượng phương sai sai số thay đổi là gì? Làm thế nào để nhận dạng?

Đa cộng tuyến trong hàm tương quan

  • Hiện tượng đa cộng tuyến xuất hiện khi giữa các biến độc lập có sự tương quan cao với nhau.
  • Để kiểm tra hiện tượng đa cộng tuyến, chỉ số thường dùng là hệ số phóng đại phương sai VIF(Variance Inflation Factor). Thông thường nếu VIF > 10 -> xuất hiện đa cộng tuyến
  • Giả sử trong một hàm tương quan đa biến trong đó biến y là biến phụ thuộc, X1 và X2 là hai biến độc lập, nếu X1 có mối quan hệ tương quan cao với X2 như vậy β1 sẽ có tác động đến sự thay đổi của X2.
  • Điều này sẽ làm việc giải thích các hệ số của hàm tương quan không chính xác.

Đa cộng tuyến hòan hảo và không hòan hảo

  • Đa cộng tuyến hoàn hảo xuất hiện khi có một biến độc lập có quan hệ tương quan rất cao với biến phụ thuộc do đó nó bao trùm tác động đến các biến khác độc lập khác
  • Đa cộng tuyến không hoàn hảo: xuất hiện khi có mối quan hệ tương quan cao giửa các biến độc lập vì vậy nó tác động đến tính chất ước lượng của mô hình

Hiện tượng phương sai thay đổi

  • Heteroskedasticity: xuất hiện khi vi phạm giả thuyết: “sai lệch của hàm tương quan phải có phương sai không đổi”.
  • Nguyên nhân gây ra hiện tượng này?
    • 1. Có sự khác biệt đáng kể của biến phụ thuộc trong các đơn vị chọn mẩu.
    • 2. Đối tượng điều tra ngày càng có kinh nghiệm.
    • 3. Có sự cải tiến và điều chỉnh việc thu thập thông tin
    • 4. Xuất hiện outliers

Hiện tượng Heteroskedasticity thuần túy

  • Giả định của hàm tương quan: cần có Homeoskedasticity
    • 1. var(ei) = σ2 = a (hằng số)
    • 2. Nếu giả định này bị vi phạm thì var(ei) = σi2
  • Điều này có nghĩa phương sai của các sai lệch biến thiên theo giá trị của biến độc lập.
  • Hiện tượng Heteroskedasticity thuần túy xuất hiện khi phương sai của các sai lệch thay đổi theo một tỷ trọng theo một yếu tố z nào đó (proportionality factor z)
  • Có nghĩa là var(ei) = σ2Zi

Kiểm tra hiện tượng heteroskedasdivity

1. Mô hình có những sai lệch đặc thù hay không?

2. Trong vấn đề nghiên cứu nêu trên, từ trước đến nay có xuất hiện hiện tượng heteroskedasticity hay không?

3. Dùng sơ đồ phân phối các điểm (scatter plot) thể hiện mối quan hệ giữa các sai lệch (phần dư) theo giá trị của biến Xi để kiểm tra hiệc tượng heteroskedasticity

4. Dùng Park test

  • 1. Ước lượng các giá trị của hàm tương quan và sao lưu dữ liệu về sai lệch/phần dư (error term).
  • 2. Lấy log của bình phương các phần dư và lập hàm tương quan của nó theo log của biến tỷ lệ Z.
  • 3. Sử dụng t-test để kiểm tra độ tin cậy thống kê của biến tỷ lệ z

5. White- test

  • 1. Ước lượng các giá trị của hàm tương quan và sao lưu dữ liệu về sai lệch/phần dư (error term).
  • 2. Bình phương phần dư và lập hàm tương quan của nó theo biến X, X2, và biến tương tác giữa X và các biến độc lập còn lại.
  • 3. Sử dụng chi-square test để kiểm định mức ý nghĩa thống kê của hàm tương quan. Giá trị kiểm định chính là N*R2. N chính là cở mẩu còn R2 là hệ số xác định đã được điều chỉnh. Bậc tự do bằng với số lượng biến trong hàm tương quan này.
  • 4. Nếu giá trị kiểm định này lớn hơn giá trị tiêu chuẩn, chúng ta sẽ từ chối giả thuyết H0 ( phương sai của phần dư không biến đổi) và chấp nhận rằng hiện tượng phương sai phần dư biếb đổi là có thực.