Sunday, 27 August 2017

Sas Moving Average Regression


Kode contoh pada tab Kode Penuh mengilustrasikan bagaimana menghitung rata-rata bergerak suatu variabel melalui keseluruhan kumpulan data, melebihi pengamatan N terakhir dalam kumpulan data, atau pengamatan N terakhir dalam kelompok BY. Sampel sampel ini dan Contoh kode disediakan oleh SAS Institute Inc tanpa jaminan apapun, baik tersurat maupun tersirat, termasuk namun tidak terbatas pada jaminan tersirat tentang kelayakan jual dan kesesuaian untuk tujuan tertentu Penerima mengakui dan menyetujui bahwa Institut SAS tidak bertanggung jawab atas Kerusakan apapun yang timbul dari penggunaan material ini Selain itu, SAS Institute tidak akan memberikan dukungan untuk bahan yang terkandung di sini. Sampel sampel dan contoh kode ini disediakan oleh SAS Institute Inc tanpa jaminan apapun, baik tersurat maupun tersirat, Termasuk namun tidak terbatas pada jaminan tersirat tentang kelayakan jual dan kesesuaian untuk tujuan tertentu Penerima mengetahui dan menyetujui bahwa Institut SAS tidak akan liabl E untuk kerusakan apa pun yang timbul dari penggunaan material ini Sebagai tambahan, SAS Institute tidak akan memberikan dukungan untuk materi yang tercakup di sini mengenai rata-rata pergerakan variabel melalui keseluruhan kumpulan data, selama pengamatan N terakhir dalam kumpulan data, atau Selama pengamatan N terakhir dalam kesalahan BY-group. Autoregressive moving-average memproses kesalahan ARMA dan model lainnya yang melibatkan keterlambatan kesalahan dapat diperkirakan dengan menggunakan pernyataan FIT dan simulasi atau perkiraan dengan menggunakan pernyataan SOLVE model ARMA untuk proses kesalahannya. Sering digunakan untuk model dengan residu autokorelasi AR makro dapat digunakan untuk menentukan model dengan proses kesalahan autoregresif Makro MA dapat digunakan untuk menentukan model dengan proses kesalahan rata-rata bergerak. Kesalahan Analogressif. Model dengan kesalahan autoregresif orde pertama, AR 1 , Memiliki bentuknya. setiap proses kesalahan AR 2 memiliki form. and sebagainya untuk proses orde tinggi Perhatikan bahwa s independen dan terdistribusi secara identik dan Memiliki nilai yang diharapkan dari 0. Contoh model dengan komponen AR 2. Dan sebagainya untuk proses orde tinggi. Misalnya, Anda bisa menulis model regresi linier sederhana dengan MA 2 moving-average error as. where MA1 Dan MA2 adalah parameter rata-rata bergerak. Perhatikan bahwa RESID Y secara otomatis didefinisikan oleh MODEL PROC as. Perhatikan bahwa RESID Y adalah negatif. Fungsi ZLAG harus digunakan untuk model MA untuk memotong rekursi lags Hal ini memastikan bahwa tertinggal Kesalahan dimulai pada nol pada fase lag-priming dan tidak menyebarkan nilai yang hilang saat variabel periode lag-priming hilang, dan memastikan kesalahan masa depan nol daripada hilang selama simulasi atau peramalan Untuk rincian tentang fungsi lag, lihat Bagian Lag Logic. Model ini ditulis dengan menggunakan makro MA sebagai berikut. Bentuk Umum untuk model ARMA. Proses ARMA umum p, q memiliki bentuk berikut. Model ARMA p, q dapat ditentukan sebagai berikut. Dimana AR i dan MA J mewakili autoregresif dan movin Parameter g-rata untuk berbagai kelambanan Anda dapat menggunakan nama yang Anda inginkan untuk variabel-variabel ini, dan ada banyak cara yang setara sehingga spesifikasi dapat ditulis. Proses ARMA vektor juga dapat diestimasi dengan MODEL PROC Misalnya, variabel dua variabel 1 proses untuk kesalahan dari dua variabel endogen Y1 dan Y2 dapat ditentukan sebagai berikut. Masalah Konvergensi dengan model ARMA Modem. ARMA dapat sulit diperkirakan Jika perkiraan parameter tidak sesuai dengan kisaran, residu model rata-rata bergerak Istilah tumbuh secara eksponensial Residu yang dihitung untuk pengamatan selanjutnya bisa sangat besar atau dapat meluap Hal ini dapat terjadi baik karena nilai awal yang tidak tepat digunakan atau karena iterasi menjauh dari nilai yang wajar. Cawan harus digunakan untuk memilih nilai awal parameter ARMA. 0 001 untuk parameter ARMA biasanya bekerja jika model sesuai dengan data dengan baik dan masalahnya berkinerja baik Perhatikan bahwa model MA dapat sering dilakukan Ximated oleh model AR high-order, dan sebaliknya ini dapat mengakibatkan collinearity yang tinggi pada model ARMA campuran, yang pada gilirannya dapat menyebabkan gangguan serius dalam perhitungan dan ketidakstabilan perkiraan parameter. Jika Anda memiliki masalah konvergensi sambil memperkirakan Model dengan proses kesalahan ARMA, coba perkirakan dalam langkah-langkah Pertama, gunakan pernyataan FIT untuk memperkirakan hanya parameter struktural dengan parameter ARMA yang dimiliki hingga nol atau perkiraan wajar sebelumnya jika tersedia Selanjutnya, gunakan pernyataan FIT lain untuk memperkirakan parameter ARMA saja, Menggunakan nilai parameter struktural dari tahap pertama Karena nilai parameter struktural cenderung mendekati perkiraan akhir, perkiraan parameter ARMA sekarang mungkin akan bertemu Akhirnya, gunakan pernyataan FIT lain untuk menghasilkan perkiraan simultan semua parameter Sejak awal Nilai parameter sekarang mungkin mendekati perkiraan akhir mereka, perkiraan harus disimpulkan dengan cepat jika mo Del sesuai untuk data. AR Kondisi Awal. Kelambatan awal dari istilah kesalahan model AR p dapat dimodelkan dengan cara yang berbeda Metode startup kesalahan autoregresif yang didukung oleh prosedur SAS ETS adalah berikut. Prosedur ARIMA dan MODEL minimum kuadrat. Dasar tak bersyarat minimal AUTOREG, ARIMA, dan prosedur MODEL. Kemungkinan besar prosedur AUTOREG, ARIMA, dan MODEL. Yule-Walker AUTOREG saja. Hildreth-Lu, yang menghapus pengamatan p pertama hanya prosedur MODEL. Lihat Bab 8, Prosedur AUTOREG, Untuk penjelasan dan pembahasan tentang berbagai metode AR p startup. Inisialisasi CLS, ULS, ML, dan HL dapat dilakukan oleh PROC MODEL Untuk kesalahan AR 1, inisialisasi ini dapat diproduksi seperti yang ditunjukkan pada Tabel 18 2 Metode ini adalah Ekuivalen dalam sampel besar. Tabel 18 2 Inisialisasi yang Dilakukan oleh PROC MODEL AR 1 KESALAHAN Kelemahan awal dari persyaratan kesalahan model MA q juga dapat dimodelkan dengan cara yang berbeda Berikut adalah pergerakan-av Paradigma start-up error erage didukung oleh prosedur ARIMA dan MODEL. unconditional least squares. conditional least squares. Metode kuadrat terkecil bersyarat untuk memperkirakan rata-rata error moving average tidak optimal karena mengabaikan masalah start up. Hal ini mengurangi efisiensi Dari perkiraan, meskipun mereka tetap tidak bias Residu tertinggal awal, yang berlanjut sebelum dimulainya data, diasumsikan 0, nilai harapan tak terbatas mereka Hal ini memperkenalkan perbedaan antara residu ini dan residu kuadrat generalized untuk kovariansi rata-rata bergerak , Yang, tidak seperti model autoregresif, bertahan melalui kumpulan data Biasanya perbedaan ini menyatu dengan cepat ke 0, namun untuk proses rata-rata bergerak yang hampir tidak dapat diubah konvergensi cukup lambat Untuk meminimalkan masalah ini, Anda harus memiliki banyak data, dan pergerakan - Perkiraan parameter rata-rata harus berada dalam kisaran yang dapat dibalik. Masalah ini dapat diperbaiki dengan mengorbankan tulisan Ga program yang lebih kompleks Perkiraan kuadrat terkecil tanpa syarat untuk proses MA 1 dapat diproduksi dengan menentukan model sebagai berikut. Kesalahan rata-rata mungkin sulit diperkirakan. Anda harus mempertimbangkan untuk menggunakan pendekatan AR p terhadap proses rata-rata bergerak Rata-rata bergerak Proses biasanya dapat didekati dengan baik oleh proses autoregresif jika data belum diratakan atau dibedakan. AR Macro. SAS macro AR menghasilkan pernyataan pemrograman untuk PROC MODEL untuk model autoregresif AR macro adalah bagian dari perangkat lunak SAS ETS, dan tidak ada Pilihan khusus perlu diatur untuk menggunakan makro Proses autoregresif dapat diterapkan pada persamaan persamaan struktural atau rangkaian endogen sendiri. Makro AR dapat digunakan untuk jenis autoregression berikut. Vektor autoregresi yang tidak layak. Vektor autoregresi yang tidak terpakai. Univariat Autoregression. Untuk memodelkan istilah kesalahan persamaan sebagai proses autoregresif, gunakan pernyataan berikut setelah persamaan. Misalnya Cukup, anggaplah bahwa Y adalah fungsi linier dari X1, X2, dan kesalahan AR 2 Anda akan menulis model ini sebagai berikut. Panggilan ke AR harus mengikuti semua persamaan yang prosesnya berlaku untuk. Permintaan makro sebelumnya, AR Y, 2, menghasilkan pernyataan yang ditunjukkan pada output LIST pada Gambar 18 58. Gambar 18 58 DAFTAR Opsi Output untuk Model AR 2. Variabel prefixed PRED adalah variabel program sementara yang digunakan sehingga kelambatan residu adalah residu yang benar dan Bukan yang didefinisikan ulang oleh persamaan ini Perhatikan bahwa ini setara dengan pernyataan yang secara eksplisit ditulis di bagian Formulir Umum untuk Model ARMA. Anda juga dapat membatasi parameter autoregresif menjadi nol pada kelambatan yang dipilih Misalnya, jika Anda menginginkan parameter autoregresif pada kelambatan 1, 12, dan 13, Anda dapat menggunakan pernyataan berikut. Pernyataan ini menghasilkan keluaran yang ditunjukkan pada Gambar 18 59. Gambar 18 59 DAFTAR Opsi Output untuk Model AR dengan Lags pada 1, 12, dan 13. Prosedur MODEL. Telah disusun Program Co De. Statement sebagai Parsed. PRED yab x1 c x2.RESID y PRED y - ACTUAL y. ERROR y PRED y - y. OLDPRED y PRED y yl1 ZLAG1 y - perdy yl12 ZLAG12 y - perdy yl13 ZLAG13 y - PREDY. RESID y PRED Y - ACTUAL y. ERROR y PRED y - y. Ada variasi pada metode kuadrat bersyarat minimum, tergantung pada apakah pengamatan pada awal rangkaian digunakan untuk menghangatkan proses AR Secara default, metode kuadrat terkecil menggunakan AR Semua pengamatan dan mengasumsikan angka nol untuk kelambatan awal istilah autoregresif Dengan menggunakan opsi M, Anda dapat meminta agar AR menggunakan ULS tanpa syarat tanpa syarat atau metode ML maksimum-likelihood Sebagai gantinya. Diskusi metode ini diberikan di bagian AR Kondisi Awal Dengan menggunakan opsi M CLS n, Anda dapat meminta agar n pengamatan pertama digunakan untuk menghitung perkiraan kelambatan autoregressif awal. Dalam kasus ini, analisis dimulai dengan observasi n 1 Misalnya, Anda dapat menggunakan makro AR untuk Menerapkan model autoregresif ke Variabel endogen, bukan ke istilah kesalahan, dengan menggunakan opsi JENIS V Sebagai contoh, jika Anda ingin menambahkan lima lintasan terakhir Y ke persamaan pada contoh sebelumnya, Anda dapat menggunakan AR untuk menghasilkan parameter dan tertinggal dengan menggunakan Pernyataan berikut. Pernyataan sebelumnya menghasilkan output yang ditunjukkan pada Gambar 18 60. Gambar 18 60 DAFTAR Opsi Output untuk model AR Y. Todem ini memprediksi Y sebagai kombinasi linear X1, X2, intercept, dan nilai Y Dalam lima periode terakhir. Autoregression Vector tidak terukur. Memodelkan istilah kesalahan dari seperangkat persamaan sebagai proses autoregresif vektor, gunakan bentuk makro AR berikut setelah persamaan. Nilai processname adalah nama yang Anda berikan untuk AR Untuk digunakan dalam membuat nama untuk parameter autoregresif Anda dapat menggunakan makro AR untuk memodelkan beberapa proses AR yang berbeda untuk rangkaian persamaan yang berbeda dengan menggunakan nama proses yang berbeda untuk setiap rangkaian Nama proses memastikan bahwa nama variabel yang digunakan adalah uni Que Gunakan nilai processname pendek untuk proses jika estimasi parameter ditulis ke kumpulan data output AR macro mencoba untuk membuat nama parameter kurang dari atau sama dengan delapan karakter, namun hal ini dibatasi oleh panjang nama proses yang digunakan sebagai Sebuah awalan untuk nama parameter AR. Nilai variablelist adalah daftar variabel endogen untuk persamaan. Misalnya, anggap bahwa kesalahan untuk persamaan Y1, Y2, dan Y3 dihasilkan oleh proses autoregresif vektor orde kedua Anda dapat menggunakan yang berikut Statement. which menghasilkan berikut untuk Y1 dan kode serupa untuk Y2 dan Y3.Hanya metode kuadrat bersyarat minimum M CLS atau M CLS n dapat digunakan untuk proses vektor. Anda juga dapat menggunakan bentuk yang sama dengan batasan bahwa matriks koefisiennya adalah 0 Pada kelambatan yang dipilih Misalnya, pernyataan berikut menerapkan proses vektor orde ketiga ke persamaan kesalahan dengan semua koefisien pada lag 2 dibatasi sampai 0 dan dengan koefisien pada lags 1 dan 3 tidak dibatasi. Anda dapat memodelkan tiga seri Y1 Y3 sebagai proses autoregresif vektor dalam variabel dan bukan pada kesalahan dengan menggunakan opsi JENIS V Jika Anda ingin membuat model Y1 Y3 sebagai fungsi nilai masa lalu Y1 Y3 dan beberapa variabel atau konstanta eksogen , Anda dapat menggunakan AR untuk menghasilkan pernyataan untuk istilah lag Tuliskan sebuah persamaan untuk setiap variabel untuk komponen nonautoregresif dari model, lalu panggillah AR dengan opsi JENIS V Sebagai contoh. Bagian model yang tidak penting dapat menjadi fungsi dari Variabel eksogen, atau dapat mencegat parameter Jika tidak ada komponen eksogen terhadap model autoregression vektor, termasuk tidak ada penyadapan, maka berikan nol pada masing-masing variabel Harus ada penugasan pada masing-masing variabel sebelum AR disebut. Contoh ini Model vektor Y Y1 Y2 Y3 sebagai fungsi linier hanya nilainya dalam dua periode sebelumnya dan vektor kesalahan noise putih Model ini memiliki parameter 3 3 3 3 3. Sintaks dari AR Macro. Ada dua kasus sy Ntax dari AR macro Ketika pembatasan pada proses AR vektor tidak diperlukan, sintaks dari AR macro memiliki bentuk umum. Tetapkan awalan AR untuk digunakan dalam membangun nama variabel yang diperlukan untuk menentukan proses AR Jika endolist tidak Ditentukan, daftar endogen default ke nama yang harus menjadi nama persamaan dimana proses kesalahan AR akan diterapkan Nilai nama tidak boleh melebihi 32 karakter. Ini adalah urutan proses AR. Menentukan daftar persamaan yang digunakan. Proses AR harus diterapkan Jika lebih dari satu nama diberikan, proses vektor yang tidak terbatas dibuat dengan residu struktural dari semua persamaan yang disertakan sebagai regresor pada masing-masing persamaan. Jika tidak ditentukan, default endolist untuk diberi nama. spesifikasi daftar lags Di mana istilah AR akan ditambahkan Koefisien dari syarat pada lag tidak terdaftar ditetapkan ke 0 Semua lags yang tercantum harus kurang dari atau sama dengan nlag dan tidak boleh ada duplikat Jika tidak ditentukan, deflasi laglist Ts ke semua lags 1 sampai nlag. specifies metode estimasi untuk menerapkan nilai M yang valid adalah perkiraan minimum kuadrat CLS, taksiran kuadrat terkecil tanpa syarat, dan perkiraan kemungkinan ML maksimum M CLS adalah default Only M CLS diperbolehkan bila lebih dari satu Persamaan ditentukan Metode ULS dan ML tidak didukung untuk model AR vektor oleh AR. spesifikasikan bahwa proses AR harus diterapkan pada variabel endogen sendiri dan bukan pada residu struktural dari persamaan. Prediksi Vector Autoregression. Anda dapat mengendalikan mana Parameter disertakan dalam proses, membatasi ke 0 parameter yang tidak Anda sertakan Pertama, gunakan AR dengan opsi DEFER untuk menyatakan daftar variabel dan menentukan dimensi proses Kemudian, gunakan panggilan AR tambahan untuk menghasilkan istilah untuk persamaan yang dipilih dengan Variabel terpilih pada kelambatan yang dipilih Sebagai contoh, persamaan kesalahan yang dihasilkan adalah sebagai berikut. Model ini menyatakan bahwa kesalahan untuk Y1 bergantung pada kesalahan Dari keduanya Y1 dan Y2 tapi tidak Y3 pada kedua lag 1 dan 2, dan bahwa kesalahan untuk Y2 dan Y3 bergantung pada kesalahan sebelumnya untuk ketiga variabel, namun hanya pada lag 1. AR Macro Syntax for Restricted Vector AR. An penggunaan alternatif Dari AR diperbolehkan untuk memberlakukan pembatasan pada proses AR vektor dengan memanggil AR beberapa kali untuk menentukan persyaratan AR yang berbeda dan lag untuk persamaan yang berbeda. Panggilan pertama memiliki bentuk umum. Tetapkan awalan untuk digunakan AR dalam membuat nama variabel yang diperlukan untuk Tentukan proses AR vektor. Tentukan urutan proses AR. Tentukan daftar persamaan yang digunakan untuk menentukan AR. Beri nilai AR untuk tidak menghasilkan proses AR tapi tunggu informasi lebih lanjut yang ditentukan di AR berikutnya. Panggilan untuk nilai nama yang sama. Panggilan berikutnya memiliki bentuk umum. Sama seperti pada panggilan pertama. Tentukan daftar persamaan yang menjadi spesifikasi dalam panggilan AR ini untuk diterapkan Hanya nama yang ditentukan dalam nilai endoliti dari Kal pertama L untuk nilai nama dapat muncul dalam daftar persamaan di eqlist. spesifikasi daftar persamaan yang residu struktural tertinggal harus disertakan sebagai regresor dalam persamaan di eqlist Hanya nama di endolist dari panggilan pertama untuk nilai nama yang dapat muncul Di varlist Jika tidak ditentukan, varlist default ke endolist. specifies daftar lags dimana persyaratan AR akan ditambahkan Koefisien dari syarat pada lags yang tidak terdaftar ditetapkan ke 0 Semua lag yang tercantum harus kurang dari atau sama dengan Nilai nlag dan tidak boleh ada duplikat Jika tidak ditentukan, default laglist untuk semua kelambatan 1 sampai nlag. MA Makro. Makro SAS SAS menghasilkan pernyataan pemrograman untuk Model PROC untuk model rata-rata bergerak Makro MA adalah bagian dari SAS ETS Perangkat lunak, dan tidak ada pilihan khusus yang diperlukan untuk menggunakan makro Proses kesalahan rata-rata bergerak dapat diterapkan pada kesalahan persamaan struktural Sintaks makro MA sama dengan makro AR kecuali tidak ada argumen TIPE. Ketika Anda adalah kita Dengan kombinasi makro MA dan AR, makro MA harus mengikuti makro AR Pernyataan SAS IML berikut menghasilkan proses kesalahan ARMA 1, 1 3 dan menyimpannya di kumpulan data MADAT2. Pernyataan PROC MODEL berikut digunakan untuk memperkirakan parameter Dari model ini dengan menggunakan struktur kesalahan likelihood maksimum. Perkiraan parameter yang dihasilkan oleh langkah ini ditunjukkan pada Gambar 18 61. Gambar 18 61 Perkiraan dari Proses ARMA 1, 1 3. Ada dua kasus sintaks untuk makro MA Ketika pembatasan pada proses MA vektor tidak diperlukan, sintaks makro MA memiliki bentuk umum. specifies awalan untuk digunakan oleh MA dalam membangun nama variabel yang diperlukan untuk menentukan proses MA dan merupakan endolist default. adalah urutan Proses MA. specifies persamaan dimana proses MA akan diterapkan Jika lebih dari satu nama diberikan, estimasi CLS digunakan untuk proses vektor. Tetapkan kelambatan dimana syarat MA ditambahkan Semua lag yang tercantum Harus kurang dari atau sama Al ke nlag dan tidak boleh ada duplikat Jika tidak ditentukan, laglist default untuk semua kelambatan 1 sampai nlag. specifies metode estimasi untuk menerapkan nilai M yang valid adalah perkiraan minimum kuadrat CLS, taksiran kuadrat terkecil tanpa syarat, dan kemungkinan maksimum ML Perkiraan M CLS adalah default Only M CLS yang diperbolehkan bila lebih dari satu persamaan ditentukan dalam endolist. MA Macro Syntax for Restricted Vector Moving-Average. Penggunaan MA yang lain diperbolehkan untuk menerapkan pembatasan pada proses MA vektor dengan menghubungi MA beberapa kali untuk menentukan persyaratan MA dan lag yang berbeda untuk persamaan yang berbeda. Panggilan pertama memiliki bentuk umum. Sebuah awalan untuk MA untuk digunakan dalam membangun nama variabel yang diperlukan untuk menentukan proses MA vektor. Tentukan urutan proses MA. Tentukan daftar persamaan yang harus diterapkan MA. spesifikasikan bahwa MA bukan untuk menghasilkan Proses MA tapi menunggu informasi lebih lanjut yang ditentukan di kemudian MA memanggil nilai nama yang sama. Panggilan berikutnya memiliki form umum. Sama seperti pada panggilan pertama. Daftarkan daftar persamaan yang menjadi spesifikasi dalam panggilan MA ini. Yang akan diterapkan. Menentukan daftar persamaan yang residu struktural tertinggal harus dimasukkan sebagai regresor dalam persamaan di eqlist. spesifikasi daftar kelambatan di mana istilah MA harus ditambahkan. Regresi dengan SAS Bab 2 Diagnosa Regresi 2 Bab 2 Diagnosa Regresi 2 0 Diagnosa Regresi 2 1 Data yang Tidak Biasa dan Berpengaruh 2 2 Pengujian Normalitas Residu 2 3 Pengujian Kesalahan Nonkonstan Varians 2 4 Pengujian pada Multikolinearitas 2 5 Pengujian pada Nonlinier 2 6 Spesifikasi Model 2 7 Isu Kemerdekaan 2 8 Ringkasan 2 9 Untuk informasi lebih lanjut.2 0 Diagnosa Regresi Pada bab terakhir, kita belajar bagaimana melakukan regresi linier biasa dengan SAS, yang dilengkapi dengan metode untuk memeriksa distribusi variabel untuk memeriksa variabel yang tidak terdistribusi secara normal sebagai Pandangan pertama untuk memeriksa asumsi dalam regresi Tanpa memverifikasi bahwa data Anda telah memenuhi asumsi regresi, hasil Anda mungkin salah. Bab ini akan membahas bagaimana Anda dapat menggunakan SAS untuk menguji apakah data Anda memenuhi asumsi regresi linier Secara khusus, kami akan mempertimbangkan Asumsi berikut ini. Kenali hubungan antara prediktor dan variabel hasil harus linier. Kenalkan kesalahannya Harus terdistribusi secara normal normal secara teknis diperlukan hanya untuk uji t yang valid, estimasi koefisien hanya mensyaratkan bahwa kesalahan terdistribusi secara identik dan independen. Homogenitas varians homoscedasticity varians kesalahan harus konstan. Ketergantungan kesalahan yang terkait dengan satu Observasi tidak berkorelasi dengan kesalahan pengamatan lainnya. Kesalahan dalam variabel prediktor variabel diukur tanpa kesalahan, kita akan membahas hal ini di Bab 4.Model spesifikasi model harus ditentukan secara tepat termasuk semua variabel yang relevan, dan tidak termasuk variabel yang tidak relevan. Selain itu, di sana Adalah masalah yang dapat timbul selama analisis bahwa, walaupun secara ketat, bukanlah asumsi regresi, tidak ada yang kurang, sangat memperhatikan analis regresi. Pengaruh observasi individual yang memberikan pengaruh yang tidak semestinya pada koefisien. Prediktor likuiditas yang sangat collinear, Yaitu terkait linier, dapat menyebabkan masalah dalam estimasi Mengikuti koefisien regresi. Banyak metode grafis dan tes numerik telah dikembangkan selama bertahun-tahun untuk diagnostik regresi. Pada bab ini, kami akan mengeksplorasi metode ini dan menunjukkan bagaimana cara memverifikasi asumsi regresi dan mendeteksi masalah potensial dengan menggunakan SAS.2 1 Data yang tidak biasa dan berpengaruh. Pengamatan tunggal yang secara substansial berbeda dari semua pengamatan lainnya dapat membuat perbedaan besar dalam hasil analisis regresi Anda Jika pengamatan tunggal atau kelompok kecil pengamatan secara substansial mengubah hasil Anda, Anda ingin mengetahui hal ini dan menyelidiki lebih lanjut Ada tiga Cara-cara yang pengamatannya tidak biasa. Outektor Dalam regresi linier, outlier adalah observasi dengan residu besar Dengan kata lain, ini adalah pengamatan yang nilai variabel dependennya tidak biasa mengingat nilainya pada variabel prediktor Outlier dapat mengindikasikan keanehan sampel. Atau mungkin menunjukkan kesalahan entri data atau masalah lainnya. Leverage Pengamatan dengan ekstrem Nilai pada variabel prediktor disebut titik dengan leverage tinggi Leverage adalah ukuran seberapa jauh pengamatan menyimpang dari mean dari variabel tersebut. Poin leverage ini dapat mempengaruhi estimasi koefisien regresi. Pengaruh pengamatan dikatakan sebagai Berpengaruh jika menghapus pengamatan secara substansial mengubah perkiraan koefisien Pengaruh dapat dianggap sebagai produk dari leverage dan keunggulan. Bagaimana kita dapat mengidentifikasi ketiga jenis pengamatan ini? Mari kita lihat contoh dataset yang disebut crime dataset ini muncul dalam Statistical Methods for Social Ilmu Pengetahuan, Edisi Ketiga oleh Alan Agresti dan Barbara Finlay Prentice Hall, 1997 Variabelnya adalah id negara, negara bagian, kejahatan kekerasan per 100.000 orang, pembunuhan per 1.000.000 pembunuhan, persentase penduduk yang tinggal di wilayah metropolitan pctmetro, persen Dari populasi yang putih putih, persen populasi dengan pendidikan di sekolah menengah atas atau di atas pcths, percen T populasi yang hidup di bawah garis kemiskinan kemiskinan, dan persentase penduduk yang merupakan orang tua tunggal tunggal Di bawah ini kita menggunakan isi proc dan proc bermaksud untuk belajar lebih banyak tentang file data ini. Katakanlah kita ingin memprediksi kejahatan dengan kemiskinan pctmetro dan single That is Untuk mengatakan, kita ingin membangun model regresi linier antara variabel respon kejahatan dan variabel independen pctmetro poverty dan single. Pertama-tama kita akan melihat scatter plot kejahatan terhadap masing-masing variabel prediktor sebelum analisis regresi sehingga kita akan memiliki beberapa gagasan. Tentang potensi masalah Kita dapat membuat matriks scatterplot dari variabel-variabel ini seperti yang ditunjukkan di bawah ini. Grafik kejahatan dengan variabel lain menunjukkan beberapa masalah potensial. Dalam setiap plot, kita melihat titik data yang jauh dari titik data lainnya. Grafik perorangan kejahatan dengan pctmetro dan kemiskinan dan lajang sehingga kita bisa mendapatkan pandangan yang lebih baik dari scatterplots ini Kami akan menambahkan opsi status pointlabel dalam pernyataan simbol ke pl Atau nama negara dan bukan sebuah titik. Semua plot tersebar menunjukkan bahwa observasi untuk state dc adalah titik yang memerlukan perhatian ekstra karena ia berdiri jauh dari semua titik lain. Kita akan mengingatnya saat kita melakukan analisis regresi. Sekarang mari kita coba perintah regresi yang memprediksi kejahatan dari pctmetro, kemiskinan dan lajang Kami akan melangkah selangkah demi selangkah untuk mengidentifikasi semua poin yang berpotensi tidak biasa atau berpengaruh kemudian Kami akan menampilkan beberapa statistik yang akan kami perlukan untuk beberapa analisis berikutnya ke Dataset disebut crime1res dan kami akan menjelaskan setiap statistiknya. Statistik ini mencakup residu studentized yang disebut r, leverage yang disebut lev, Cook s D yang disebut cd dan DFFITS disebut dffit Kami meminta semua statistik ini sekarang sehingga mereka dapat ditempatkan dalam satu Dataset yang akan kita gunakan untuk beberapa contoh berikutnya Jika tidak, kita bisa menjalankan kembali proc reg setiap kali kita menginginkan statistik baru dan menyimpan statistik itu ke file data output lain. Mari kita Amina residu siswa sebagai sarana pertama untuk mengidentifikasi outlier Kami meminta residu siswa dalam regresi di atas dalam pernyataan keluaran dan menamainya r Kami dapat memilih nama yang kami sukai asalkan nama variabel SAS legal Residu terpelajar adalah jenis Dari residu standar yang dapat digunakan untuk mengidentifikasi outliers Mari memeriksa residu dengan plot batang dan daun Kami melihat tiga residu yang menonjol, -3 57, 2 62 dan 3 77. Batang dan tampilan daun membantu kita melihat beberapa pencilan potensial. , Tapi kita tidak dapat melihat negara mana yang merupakan pemantau potensial. Mari s sort data pada residu dan tampilkan 10 residu terbesar dan 10 terkecil beserta id negara dan nama negara. Kita harus memperhatikan residu siswa yang melebihi 2 atau - 2, dan bahkan lebih memperhatikan residu yang melebihi 2 5 atau -2 5 dan bahkan lebih memperhatikan residu yang melebihi 3 atau -3 Hasil ini menunjukkan bahwa DC dan MS adalah pengamatan yang paling mengkhawatirkan, fol Turunkan FL. Let s menunjukkan semua variabel dalam regresi kita dimana residu siswa melebihi 2 atau -2, yaitu di mana nilai absolut residual melebihi 2 Kita melihat data untuk tiga outlier potensial yang kami identifikasi, yaitu Florida, Mississippi Dan Washington DC Dengan hati-hati melihat tiga pengamatan ini, kami tidak dapat menemukan kesalahan entri data, walaupun kami mungkin ingin melakukan analisis regresi lain dengan titik ekstrim seperti DC dihapus Kami akan kembali ke masalah ini nanti. Sekarang mari lihat Leverage s untuk mengidentifikasi pengamatan yang akan memiliki pengaruh besar yang potensial terhadap perkiraan koefisien regresi. Umumnya, satu titik dengan leverage lebih besar dari 2k 2 n harus diperiksa secara hati-hati, di mana k adalah jumlah prediktor dan n adalah jumlah pengamatan. Dalam contoh kami, ini Bekerja sampai 2 3 2 51 15686275 sehingga kita bisa melakukan hal berikut. Seperti yang telah kita lihat, DC adalah sebuah pengamatan bahwa keduanya memiliki leverage residual dan besar yang besar. Poin semacam itu berpotensi menjadi yang paling berpengaruh. Dapat membuat plot yang menunjukkan pengaruh dengan kuadrat residu dan mencari pengamatan yang sama-sama tinggi pada kedua tindakan ini Kami dapat melakukannya dengan menggunakan leverage versus plot kuadrat-kuadrat Menggunakan kuadrat sisa dan bukan residual itu sendiri, grafik dibatasi untuk Kuadran pertama dan posisi relatif titik data dipelihara Ini adalah cara cepat untuk memeriksa pengamatan dan outlier potensial yang berpengaruh pada saat bersamaan. Kedua jenis poin sangat memprihatinkan bagi kita. Poin untuk DC menarik perhatian kita dengan yang tertinggi. Sisa kuadrat dan leverage tertinggi, menunjukkan hal itu bisa sangat berpengaruh. Titik untuk MS memiliki kuadrat residu yang hampir sama besar, namun tidak memiliki leverage yang sama. Kita akan melihat pengamatan tersebut dengan lebih hati-hati dengan mencantumkannya di bawah. Sekarang mari beralih ke Ukuran keseluruhan pengaruh Secara khusus, mari kita lihat Cook s D dan DFITS Langkah-langkah ini menggabungkan informasi tentang residual dan leverage Cook s D dan DFITS sangat s Imilar kecuali yang skala mereka berbeda, tapi mereka memberi kita jawaban yang sama. Nilai terendah yang dapat diasumsikan Cook s D adalah nol, dan semakin tinggi Cook s D, semakin penting intinya. Titik potong konvensional adalah 4 n Kami dapat mencantumkan pengamatan di atas titik potong dengan melakukan hal berikut Kami melihat bahwa Cook s D untuk DC sejauh ini yang terbesar. Sekarang mari kita lihat DFIT Titik potong konvensional untuk DFITS adalah 2 sqrt KN DFITS dapat berupa positif atau negatif, dengan angka mendekati nol yang sesuai dengan poin dengan pengaruh kecil atau nol Seperti kita lihat, DFITS juga menunjukkan bahwa DC adalah observasi yang paling berpengaruh. Langkah-langkah di atas adalah ukuran pengaruhnya secara umum. Anda juga dapat mempertimbangkan ukuran pengaruh yang lebih spesifik yang menilai bagaimana setiap koefisien diubah dengan menghapus pengamatan Ukuran ini disebut DFBETA dan dibuat untuk masing-masing prediktor Tampaknya ini lebih bersifat komputasi intensif daripada statistik ringkasan seperti Coo Ks D karena semakin banyak prediktor model, semakin banyak perhitungan yang mungkin terjadi, kita dapat membatasi perhatian kita hanya pada prediktor yang paling kita perhatikan dan untuk melihat seberapa baik perilaku prediktor tersebut di SAS, kita perlu menggunakan keluaran ods Pernyataan OutStatistics untuk menghasilkan DFBETAs untuk masing-masing prediktor Nama untuk variabel baru yang dibuat dipilih oleh SAS secara otomatis dan dimulai dengan DFB. Ini menciptakan tiga variabel, DFBpctmetro DFBpoverty dan DFBsingle Mari melihat kelima nilai pertama. Nilai untuk DFBsingle Untuk Alaska adalah 0 14, yang berarti bahwa dengan disertakan dalam analisis dibandingkan dengan dikeluarkan, Alaska meningkatkan koefisien kesalahan standar 0 kesalahan standar, yaitu 0 14 kali kesalahan standar untuk BSingle atau oleh 0 14 15 5 Karena Pemasukan pengamatan dapat berkontribusi terhadap kenaikan atau penurunan koefisien regresi, DFBETA dapat berupa nilai positif atau negatif Nilai DFBETA melebihi 2 sqrt n manfaat yang diperoleh lebih lanjut. Dalam contoh ini, kita akan memperhatikan nilai absolut lebih dari 2 sqrt 51 atau 0 28.Kita bisa merencanakan ketiga nilai DFBETA terhadap keadaan id dalam satu grafik di bawah ini. Kita tambahkan garis pada 0 28 dan -0 28 ke help us see potentially troublesome observations We see the largest value is about 3 0 for DFsingle. We can repeat this graph with the pointlabel state option on the symbol1 statement to label the points With the graph above we can identify which DFBeta is a problem, and with the graph below we can associate that observation with the state that it originates from. Now let s list those observations with DFBsingle larger than the cut-off value Again, we see that DC is the most problematic observation. The following table summarizes the general rules of thumb we use for these measures to identify observations worthy of further investigation where k is the number of predictors and n is the number of observations. Washington DC has appeared as an outlier as well as an influential point in every analysis Because Washington D C is really not a state, we can use this to justify omitting it from the analysis, saying that we really wish to just analyze states First, let s repeat our analysis including DC. Now, let s run the analysis omitting DC by including a where statement here ne stands for not equal to but you could also use. to mean the same thing As we expect, deleting DC made a large change in the coefficient for single The coefficient for single dropped from 132 4 to 89 4 After having deleted DC, we would repeat the process we have illustrated in this section to search for any other outlying and influential observations. In this section, we explored a number of methods of identifying outliers and influential points In a typical analysis, you would probably use only some of these methods Generally speaking, there are two types of methods for assessing outliers statistics such as residuals, leverage, Cook s D and DFITS, that assess the overall impact of an observation on the regression results, and statistics such as DFBETA that assess the specific impact of an observation on the regression coefficients. In our example, we found that DC was a point of major concern We performed a regression with it and without it and the regression equations were very different We can justify removing it from our analysis b y reasoning that our model is to predict crime rate for states, not for metropolitan areas.2 2 Tests for Normality of Residuals. One of the assumptions of linear regression analysis is that the residuals are normally distributed This assumption assures that the p-values for the t-tests will be valid As before, we will generate the residuals called r and predicted values called fv and put them in a dataset called elem1res We will also keep the variables api00 meals ell and emer in that dataset. Let s use the elemapi2 data file we saw in Chapter 1 for these analyses Let s predict academic performance api00 from percent receiving free meals meals , percent of English language learners ell , and percent of teachers with emergency credentials emer. Below we use proc kde to produce a kernel density plot kde stands for kernel density estimate It can be thought as a histogram with narrow bins and a moving average. Proc univariate will produce a normal quantile graph qqplot plots the quantiles of a variable against the quantiles of a normal distribution qqplot is most sensitive to non-normality near two tails and probplot As you see below, the qqplot command shows a slight deviation from normal at the upper tail, as can be seen in the kde above We can accept that the residuals are close to a normal distribution. Severe outliers consist of those points that are either 3 inter-quartile-ranges below the first quartile or 3 inter-quartile-ranges above the third quartile The presence of any severe outliers should be sufficient evidence to reject normality at a 5 significance level Mild outliers are common in samples of any size In our case, we don t have any severe outliers and the distribution seems fairly symmetric The residuals have an approximately normal distribution See the output of the proc univariate above. In the Shapiro-Wilk W test for normality, the p-value is based on the assumption that the distribution is normal In our example, the p-value is very large 0 51 , indicating that we cannot reject that r is normally distributed See the output of the proc univariate above.2 3 Tests for Heteroscedasticity. One of the main assumptions for the ordinary least squares regression is the homogeneity of variance of the residuals If the model is well-fitted, there should be no pattern to the residuals plotted against the fitted values If the variance of the residuals is non-constant, then the residual variance is said to be heteroscedastic There are graphical and non-graphical methods for detecting heteroscedasticity A commonly used graphical method is to plot the residuals versus fitted predicted values Below we use a plot statement in the proc reg The r and p tell SAS to calculate the residuals r and predicted values p for use in the plot We see that the pattern of the data points is getting a little narrower towards the right end, which is an indication of mild heteroscedasticity. Now let s look at a test for heteroscedasticity, the White test The White test tests the null hypothesis that the variance of the residuals is homogenous Therefore, if the p-value is very small, we would have to reject the hypothesis and accept the alternative hypothesis that the variance is not homogenous We use the spec option on the model statement to obtain the White test. While the White test is significant, the distribution of the residuals in the residual versus fitted plot did not seem overly heteroscedastic. Consider another example where we use enroll as a predictor Recall that we found enroll to be skewed to the right in Chapter 1 As you can see, this example shows much more serious heteroscedasticity. As we saw in Chapter 1, the variable enroll was skewed considerably to the right, and we found that by taking a log transformation, the transformed variable was more normally distributed Below we transform enroll run the regression and show the residual versus fitted plot The distribution of the residuals is much improved Certainly, this is not a perfect distribu tion of residuals, but it is much better than the distribution with the untransformed variable. Finally, let s revisit the model we used at the start of this section, predicting api00 from meals ell and emer Using this model, the distribution of the residuals looked very nice and even across the fitted values What if we add enroll to this model Will this automatically ruin the distribution of the residuals Let s add it and see. As you can see, the distribution of the residuals looks fine, even after we added the variable enroll When we had just the variable enroll in the model, we did a log transformation to improve the distribution of the residuals, but when enroll was part of a model with other variables, the residuals looked good enough so that no transformation was needed This illustrates how the distribution of the residuals, not the distribution of the predictor, was the guiding factor in determining whether a transformation was needed.2 4 Tests for Collinearity. When there is a per fect linear relationship among the predictors, the estimates for a regression model cannot be uniquely computed The term collinearity describes two variables are near perfect linear combinations of one another When more than two variables are involved, it is often called multicollinearity, although the two terms are often used interchangeably. The primary concern is that as the degree of multicollinearity increases, the regression model estimates of the coefficients become unstable and the standard errors for the coefficients can get wildly inflated In this section, we will explore some SAS options used with the model statement that help to detect multicollinearity. We can use the vif option to check for multicollinearity vif stands for variance inflation factor As a rule of thumb, a variable whose VIF values is greater than 10 may merit further investigation Tolerance, defined as 1 VIF, is used by many researchers to check on the degree of collinearity A tolerance value lower than 0 1 i s comparable to a VIF of 10 It means that the variable could be considered as a linear combination of other independent variables The tol option on the model statement gives us these values Let s first look at the regression we did from the last section, the regression model predicting api00 from meals, ell and emer and use the vif and tol options with the model statement. The VIFs look fine here Here is an example where the VIFs are more worrisome. In this example, the VIF and tolerance 1 VIF values for avged gradsch and colgrad are worrisome All of these variables measure education of the parents and the very high VIF values indicate that these variables are possibly redundant For example, after you know gradsch and colgrad you probably can predict avged very well In this example, multicollinearity arises because we have put in too many variables that measure the same thing parent education. Let s omit one of the parent education variables, avged Note that the VIF values in the analysis below appear much better Also, note how the standard errors are reduced for the parent education variables, gradsch and colgrad This is because the high degree of collinearity caused the standard errors to be inflated With the multicollinearity eliminated, the coefficient for gradsch which had been non-significant, is now significant. Let s introduce another option regarding collinearity The collinoint option displays several different measures of collinearity For example, we can test for collinearity among the variables we used in the two examples above Note that if you use the collin option, the intercept will be included in the calculation of the collinearity statistics, which is not usually what you want The collinoint option excludes the intercept from those calculations, but it is still included in the calculation of the regression. We now remove avged and see the collinearity diagnostics improve considerably. The condition number is a commonly used index of the global instability of the regression coefficients a large condition number, 10 or more, is an indication of instability.2 5 Tests on Nonlinearity. When we do linear regression, we assume that the relationship between the response variable and the predictors is linear This is the assumption of linearity If this assumption is violated, the linear regression will try to fit a straight line to data that does not follow a straight line Checking the linear assumption in the case of simple regression is straightforward, since we only have one predictor All we have to do is a scatter plot between the response variable and the predictor to see if nonlinearity is present, such as a curved band or a big wave-shaped curve For example, let us use a data file called that has data about a number of nations around the world Below we look at the proc contents for this file to see the variables in the file Note that the position option tells SAS to list the variables in the order that they are in the data file. Let s look a t the relationship between GNP per capita gnpcap and births birth Below if we look at the scatterplot between gnpcap and birth we can see that the relationship between these two variables is quite non-linear We added a regression line to the chart, and you can see how poorly the line fits this data Also, if we look at the residuals by predicted plot, we see that the residuals are not nearly homoscedastic, due to the non-linearity in the relationship between gnpcap and birth. Now we are going to modify the above scatterplot by adding a lowess also called loess smoothing line By default, SAS will make four graphs, one for smoothing of 0 1, 0 2, 0 3 and 0 4 We show only the graph with the 0 4 smooth. some output omitted. The lowess line fits much better than the OLS linear regression In trying to see how to remedy these, we notice that the gnpcap scores are quite skewed with most values being near 0, and a handful of values of 10,000 and higher This suggests to us that some transformation of the variable may be useful One of the commonly used transformations is a log transformation Let s try it below As you see, the scatterplot between lgnpcap and birth looks much better with the regression line going through the heart of the data Also, the plot of the residuals by predicted values look much more reasonable. This section has shown how you can use scatterplots to diagnose problems of non-linearity, both by looking at the scatterplots of the predictor and outcome variable, as well as by examining the residuals by predicted values These examples have focused on simple regression however, similar techniques would be useful in multiple regression However, when using multiple regression, it would be more useful to examine partial regression plots instead of the simple scatterplots between the predictor variables and the outcome variable.2 6 Model Specification. A model specification error can occur when one or more relevant variables are omitted from the model or one or more irre levant variables are included in the model If relevant variables are omitted from the model, the common variance they share with included variables may be wrongly attributed to those variables, and the error term is inflated On the other hand, if irrelevant variables are included in the model, the common variance they share with included variables may be wrongly attributed to them Model specification errors can substantially affect the estimate of regression coefficients. Consider the model below This regression suggests that as class size increases the academic performance increases Before we publish results saying that increased class size is associated with higher academic performance, let s check the model specification. There are a couple of methods to detect specification errors A link test performs a model specification test for single-equation models It is based on the idea that if a regression is properly specified, one should not be able to find any additional independent varia bles that are significant except by chance To conduct this test, you need to obtain the fitted values from your regression and the squares of those values The model is then refit using these two variables as predictors The fitted value should be significant because it is the predicted value One the other hand, the fitted values squared shouldn t be significant, because if our model is specified correctly, the squared predictions should not have much of explanatory power That is, we wouldn t expect the fitted value squared to be a significant predictor if our model is specified correctly So we will be looking at the p-value for the fitted value squared. Let s try adding one more variable, meals to the above model and then run the link test again. The link test is once again non-significant Note that after including meals and full the coefficient for class size is no longer significant While acsk3 does have a positive relationship with api00 when no other variables are in the model, when w e include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive.2 7 Issues of Independence. The statement of this assumption is that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations Consider the case of collecting data from students in eight different elementary schools It is likely that the students within each school will tend to be more like one another that students from different schools, that is, their errors are not independent We will deal with this type of situation in Chapter 4.Another way in which the assumption of independence can be broken is when data are collected on the same variables over time Let s say that we collect truancy data every semester for 12 years In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than fo r observations more separated in time This is known as autocorrelation When you have data that can be considered to be time-series, you should use the dw option that performs a Durbin-Watson test for correlated residuals. We don t have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected We will sort the data on snum to order the data according to our fake time variable and then we can run the regression analysis with the dw option to request the Durbin-Watson test. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2 The observed value in our example is less than 2, which is not surprising since our data are not truly time-series. In this chapter, we have used a number of tools in SAS for determining whether our data meets the regression assumptions Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Inf luential Data. scatterplots of the dependent variables versus the independent variable. looking at the largest values of the studentized residuals, leverage, Cook s D, DFFITS and DFBETAs. Tests for Normality of Residuals Tests for Heteroscedasity. kernel density plot. quantile-quantile plots. standardized normal probability plots. Shapiro-Wilk W test. scatterplot of residuals versus predicted fitted values. Tests for Multicollinearity. looking at VIF. looking at tolerance. Tests for Non-Linearity. scatterplot of independent variable versus dependent variable. Tests for Model Specification. time series. Durbin-Watson test.2 9 For more information.

2 comments:

  1. Nice blog. Am doing SAS certification course in one of the leading SAS training institutes in hyderabad.

    I have been searching for SAS interview question and answers.This blog is very useful and informative.

    Thanks for sharing.
    SAS Certification

    ReplyDelete
  2. I recently came across your blog and have been reading along. I thought I would leave my first comment. I don’t know what to say except that I have enjoyed reading. Nice blog, I will keep visiting this blog very often. local playa del rey moving company

    ReplyDelete