statistik deskriptif dan inferensial...title statistik deskriptif dan inferensial author kamarul...
Post on 20-Nov-2020
33 Views
Preview:
TRANSCRIPT
Kamarul Imam
Freund/Watson/Wonacott
2018
Uji Hipotesis dan Regresi Korelasi
(Dilengkapi Perhitungan SPSS)
Penyusun
Dr. Ir. Hidayat Bambang Setyawan, MM
U N I V E R S I T A S J E M B E R – J A W A T I M U R
1
II UJI HIPOTESIS METODE PARAMETRIK
2.1 Introduksi
Hipotesis : adalah sebuah kesimpulan sementara yang perlu diuji kebenarannya melalui
uji statistik. Ada dua jenis hipotesis, yaitu : (a) hipotesis nol (null hypothesis atau H0); dan (b)
hipotesis alternatif (alternative hypothesis atau Ha). Hipotesis nol merupakan pernyataan yang
berisi kesamaan, ketidak bedaan, atau pernyataan-pernyataan lain yang menyiratkan kenihilan.
Hipotesis altenatif merupakan komposit dan bersifat mutually exclusive terhadap hipotesis nol.
Komposit mengartikan bahwa tidak ada ruang sampel yang terbuang atau hilang, sedang mutually
exclusive mensyaratkan kedua jenis hipotesis tersebut saling mematikan. Jika hipotesis nol yang
diterima, maka hipotesis alternatif harus ditolak, dan sebaliknya.
Selain mengestimasi nilai sebuah parameter, persoalan-persoalan lain penting adalah
bagaimana menentukan kebenaran sebuah pernyataan tentang sebuah parameter, untuk itulah
perlu diuji hipotesis tentang parameter tersebut. Pengujian hipotesis ini bisa menghasilkan empat
macam keputusan, yaitu :
- hipotesis benar dan diterima,
- hipotesis salah dan ditolak,
- hipotesis benar dan ditolak,
- hipotesis salah dan diterima.
Menerima Hipotesis Menolak Hipotesis
Hipotesis benar Keputusan benar Kesalahan tipe I ( )
Hipotesis salah Kesalahan tipe II ( ) Keputusan benar
Ada lima langkah umum yang dilakukan dalam menguji hipotesis dengan sistimatis, yaitu :
(1) memformulasikan atau mendefinisikan H0 dan Ha. Ada dua kemungkinan pengujian
statistik untuk hipotesis, yaitu : uji satu sisi atau uji dua sisi. Uji satu sisi jika Ha
menyatakan lebih besar atau lebih kecil terhadap parameter yang diuji (>, <, >, < ); dan
uji dua sisi jika Ha menyatakan ketidak samaan (≠).
(2) Menentukan probabilitas kesalahan tipe I ( ). Penentuan nilai sangat dipengaruhi
harapan si penguji hipotesis terhadap hasil uji. Untuk uji hipotesis dalam bidang-bidang
ilmu sosial, umumnya nilai beriksar antara 5,00% – 10,00%. Prinsipnya, makin kecil ,
makin akurat hasil uji hipotesisnya, sebab makin kecil peluang kesalahan tipe I.
(3) Berdasar distribusi sampel dari uji statistik yang dilakukan, tentukan kriteria ujinya.
(4) Hitung dari data nilai-nilai statistik yang dijadikan basis keputusan uji.
(5) Buat keputusan menolak atau menerima hipotesis yang diuji.
2
2.2. Contoh-contoh Aplikasi Metode Statistik Paramterik
a. Uji hipotesis yang berkaitan dengan satu rata-rata.
Untuk sampel besar (n > 30), daerah kritis pengujian :
Tabel 2.1 Daerah kritis uji.
Ha Tolak H0 jika :
< 0 Z < - Z
> 0 Z > Z
0 Z < - Z /2 atau Z > Z /2
Di mana,
X - 0
Z = . . . . . (2.1)
/ n
Contoh-2.1 : Uji Hipotesis (satu sisi) Untuk Sebuah Rata-rata
Standard konduksi termal dari sejenis batu bara adalah = 0,340. Dari hasil produksi batu
bara dipilih sejumlah 35 unit batu bara untuk diuji apakah rata-rata konduksi termalnya memenuhi
standard pada tingkat keyakinan ( ) = 0,05. Informasi mengenai konduksi termal dari sebuah
penelitian yang pernah dilakukan, diketahui = 0,010. Rata-rata konduksi termal batu bara sampel
dihitung, hasilnya = 0,343.
H0 : = 0,340
Ha : 0,340
0,343 – 0,340
Z = = 1,77 0,010/ 35
daerah penerimaan H0
- 1,96 0 +1,77 + 1,96
Gambar 2.1 Daerah Penerimaan H0
3
Zhitung berada dalam daerah penerimaan H0, maka H0 diterima dan Ha ditolak. Sehingga
dapat disimpulkan bahwa sampel batu bara yang diteliti tidak memenuhi standard konduksi termal
yang diharapkan.
(Angka + 1,96 bisa dilihat pada Tabel Z pada = 0,025, karena ini uji dua sisi).
Contoh-2.2 : Uji Hipotesis (dua sisi) Untuk Sebuah Rata-rata
Sebuah perusahaan angkutan barang meragukan pernyataan pabrik ban yang menyatakan
bahwa ban hasil produksi pabrik tersebut memiliki rata-rata daya pakai paling sedikit 28.000 km.
Untuk menguji pernyataan tersebut, perusahaan mencoba menggunakan 40 buah ban jenis itu
untuk truk armadanya, dan hasil percobaannya menunjukkan bahwa rata-rata daya pakai ban =
27.463 km dengan standard deviasi = 1.348 km. Dengan = 0,01.
H0 : > 28.000
Ha : < 28.000
27.463 – 28.000
Z = = - 2,52 1.348/ 40
daerah penerimaan H0
- 2,52 - 2,33 0
Gambar 2.2 Daerah Penerimaan H0
H0 ditolak, Ha diterima; artinya pernyataan pabrik ban tentang daya pakai ban hasil
produksinya tidak terbukti.
Untuk sample kecil (n < 30), prosedur uji hipotesisnya sama, dengan perbedaan pada
kriteria ujinya, yaitu :
X - 0
t = . . . . . (2.2) s/ n
4
Contoh–2.3 : Uji Hipotesis Untuk Sebuah Rata-rata (sampel kecil)
Spesifikasi pita yang memenuhi standard kualitas adalah jika pita tersebut mampu
menahan beban sampai 180 pon. Jika lima helai pita yang dipilih secara random dari gudang diuji
kekuatannya, dihasilkan bahwa rata-rata dapat menahan beban = 169,5 pon dengan standard
deviasi = 5,7 pon. yang digunakan adalah = 0,01.
H0 : = 180 pon
Ha : < 180 pon indikasi uji sebelah kiri
169,5 – 180 t = = - 4,12
5,7/ 5
daerah terima H0
-3.747 0
Gambar 2.3 Daerah Penerimaan H0 untuk Uji Satu Sisi
thitung = - 4,12 < t0.01,4 (lihat Tabel-t, sebesar = 3,747), maka H0 ditolak dan menerima Ha.
b. Uji hipotesis yang berkaitan dengan dua rata-rata.
Untuk sampel besar (n > 30), populasi normal, 1 dan 2 diketahui, daerah kritis pengujian
adalah :
Tabel 2.2. Daerah kritis uji.
Ha Tolak H0 jika :
1 - 2 < Z < - Z
1 - 2 > Z > Z
1 - 2 Z < - Z /2 atau Z > Z /2
Formula uji hipotesis perbedaan dua rata-rata :
(x1 – x2) -
Z = . . . . . (2.3) ( 1
2/n1 + 22/n2)
5
Contoh-2.4 : Uji Hipotesis untuk Dua Rata-rata
Untuk menguji pernyataan bahwa resistensi kabel listrik bisa dikurangi sampai lebih dari
0.050 ohm dengan cara membuat campuran logamnya ; diambil sampel sebanyak 32 kabel listrik
tanpa logam campuran dan 32 jenis kabel listrik dengan logam campuran. Rata-rata resistensi
untuk kelompok-1, x1 = = 0,136 ohm dengan s1 = 0,004 ohm, x2 = 0,083 ohm dengan s2 = 0,005
ohm, Pada = 0,05, ujilah apakah pernyataan tersebut benar ?
H0 : 1 - 2 = 0,050
Ha : 1 - 2 > 0,050
0,136 – 0,083 – 0,050 Z = = 2,65 (0,0042/32 + 0,0052/32)
Karena zhitung > z0,05 (2,65 > 1,645), maka H0 ditolak dan menerima Ha. Pernyataan itu
terbukti benar secara statistik.
Contoh-2.5 : Uji Hipotesis untuk Dua Rata-rata (sampel besar)
Sebuah perusahaan lampu yang terkemuka menyatakan bahwa bola lampu hasil
produksinya lebih tahan lama daripada produksi perusahaan pesaingnya. Untuk itu perlu diuji
dengan mengambil sampel bola lampu hasil produksinya sebanyak 40 buah dan 40 buah bola
lampu hasil produksi perusahaan pesaing.
x1 = 647 jam dengan s1 = 27 jam, x2 = 638 jam dengan s2 = 31 jam.
= 0,05
H0 : 1 - 2 = 0
Ha : 1 - 2 > 0
647 – 638 – 0 Z = = 1,38 (0,272/40 + 312/40)
Karena zhitung < z0,05 (1,38 < 1,645), maka Ha ditolak dan menerima H0. Pernyataan itu tidak terbukti benar secara statistik.
Untuk sampel kecil (n < 30), maka formula ujinya menjadi :
(x1 – x2) - n1.n2 (n1 + n2 – 2)
t = . . . . . (2.4) [(n1-1)s1
2 + (n2-1)s22] n1 + n2
6
Contoh-2.6 : Uji Hipotesis untuk Dua Rata-rata (sampel kecil)
Berikut ini merupakan data sampel random kapasitas panas batubara (kalori/ton) dari dua
tambang batubara yang berbeda.
Tambang-1 : 8.260 8.130 8.350 8.070 8.340
Tambang-2 : 7.950 7.890 7.900 8.140 7.920 7.840
Ujilah apakah kapasitas panas kedua jenis batubara itu berbeda pada = 0,01.
H0 : 1 - 2 = 0
Ha : 1 - 2 0
x1 = 8.230 dengan s1 = 63.000/4 = 15.750
x2 = 7.940 dengan s2 = 54.600/5 = 10.920
(8.230 – 7.940) – 0 (5)(6)(5 + 6 - 2) t = = 4,19
(63.000 + 54.000) 5 + 6
t0.005 dengan derajat bebas = n1 + n2 – 2 = 5 + 6 – 2 = 9, sama dengan = 3,250 (periksa
Tabel-t).
thitung > t0.005 (4,19 > 3,230), maka H0 ditolak dan menerima Ha.
Uji hipotesis untuk dua rata-rata ini dapat juga diaplikasi untuk data berpasangan. Formula uji
berubah menjadi :
x - 0
t = . . . . . (2.5)
s/ n
Contoh-2.7 : Uji Hipotesis untuk Dua Rata-rata (sampel kecil)
Berikut ini data rata-rata jam kerja yang hilang karena adanya kecelakaan kerja dalam
pabrik pada 10 perusahaan, pada saat sebelum program keselamatan kerja diberlakukan dan
sesudah diberlakukan.
45 dan 36 73 dan 60 46 dan 44 124 dan 119 33 dan 35
57 dan 51 83 dan 77 34 dan 29 26 dan 24 17 dan 11
Ujilah pada = 0,05, apakah program keselamatan kerja itu efektif menurunkan
kecelakaan kerja dalam pabrik.
H0 : = 0
Ha : > 0
7
Rata-rata selisih kehilangan jam kerja = 5,2 jam dengan standard deviasi, s = 4,08 jam.
5,2 – 0 t = = 403
4,08/ 10
thitung > t0.05 pada derajat bebas n-1 = 10 – 1 = 9, sama dengan = 1,833
thitung > 1.833; maka tolak H0 dan menerima Ha. Dengan demikian program keselamatan
kerja tersebut terbukti efektif dalam menurunkan kecelakaan kerja dalam pabrik.
c. Uji hipotesis untuk sebuah varians.
Untuk sampel random (n < 30) dari populasi normal, o2 diketahui sebagai nilai dari
variabel random yang berdistribusi 2 dengan derajat bebas = n - 1, daerah kritis pengujian :
Tabel 2.3. Daerah kritis uji.
Ha Tolak H0 jika : 2 < 0
2 2 < 21-
2 > 02 2 > 2
2 02 2 < 2
1- /2 atau 2 > 2/2
Formula uji hipotesis sebuah varians :
(n -1)s2 2 = . . . . . (2.6)
02
Contoh-2.8 : Uji Hipotesis untuk Sebuah Varians (sampel kecil)
Pada proses lapping yang digunakan untuk menghaluskan kotak silikon tertentu agar
memiliki ketebalan standard, dapat dikatakan baik jika standard deviasi ketebalan silikon tersebut
paling banyak 0,50 mm. Pada = 0,05; ujilah pada 15 buah kotak silikon yang memiliki standard
edviasi ketebalan = 0,64 mm.
H0 : = 0,50
Ha : > 0,05
(15 -1)(0,642) 2 = = 22,94
0,502
20.05 pada tabel 2 dengan derajat bebas 15 – 1 = 14, sama dengan = 23,683; maka
hipotesis nol diterima dan Ha ditolak.
Untuk sampel besar (n > 30), formula uji hipotesis yang digunakan adalah :
8
s - 0
Z = . . . . . (2.7) 0/ 2n
Contoh-2.9 : Uji Hipotesis untuk Sebuah Varians (sampel besar)
Spesifikasi teknis pada produksi masa gir roda sepeda motor, mensyaratkan bahwa kualitas
gir dianggap baik jika standard deviasi diameter tidak melebihi 0,0040 cm. Dari sampel sebanyak
35 gir, diketahui bahwa standard deviasi diameter = 0,0053 cm. Pada = 0,01, ujilah kualitas gir
tersebut memenuhi spesifikasinya.
H0 : = 0,0040
Ha : > 0,0040
0,0053 - 0,0040 Z = = 2,70
0,0040/ 2(35)
Z0.01 pada tabel Z = 2,33, maka terima Ha dan tolak H0. Artinya kualitas gir tidak memenuhi
spesifikasi yang disyaratkan.
d. Uji hipotesis untuk dua varians.
Formula uji untuk dua varians adalah :
s12
F = . . . . . (2.8)
s22
Daerah kritis pengujian :
Tabel 2.4. Daerah kritis uji.
Ha Uji Statistik Tolak H0 jika : 2 < 0
2 F = s22/s1
2 F > F (n2-1, n1–1) 2 > 0
2 F = s12/s2
2 F > F (n1-1, n2–1) 2 0
2 F = sM2/sm
2 F > F /2(nM-1, nm–1)
Contoh-2.10 : Uji Hipotesis Untuk Dua Varians
Pelapisan perak yang dilakukan oleh Perusahaan A dan Perusahaan B diyakini memiliki
variasi ketebalan yang berbeda. Untuk itu dipilih masing-masing 12 sampel hasil pelapisan perak
dari kedua perusahaan itu. Standard penyimpangan ketebalan pelapisan Perusahaan A (s1)
terhitung = 0,035 mm, pada Perusahaan B (s2) terhitung = 0,062 mm.
9
H0 : 12 = 2
2
Ha : 12 < 2
2
= 0,05
0,0622 F = = 3,14 0,0352
F0.05 pada tabel F dengan numerator = n1 – 1 = 11 dan denominator = n2 – 1 = 11 adalah
sebesar 2,85.
Karena F hitung > F0.05 pada tabel tersebut, maka H0 ditolak dan Ha diterima; artinya
variabilitas ketebalan lapisan perak hasil produksi Perusahaan A lebih rendah daripada variabilitas
hasil produksi Perusahaan B.
Contoh-2.11 : Uji Hipotesis Untuk Dua Varians
Kembali pada Contoh-2.6 :
Data sampel random kapasitas panas batubara (kalori/ton) dari dua tambang batubara
yang berbeda adalah :
Tambang-1 : 8.260 8.130 8.350 8.070 8.340
Tambang-2 : 7.950 7.890 7.900 8.140 7.920 7.840
s12 = 15.750 dan s2
2 = 10.920. Ujilah pada = 0,02, apakah variabilitas kapasitas panas
batubara pada Tambang-1 berbeda dengan batubara pada Tambang-2.
H0 : 12 = 2
2
Ha : 12 ≠ 2
2
F0.02 pada derajat bebas 4 dan 5 = 11,4
15.750 F = = 1,44 10.920
Karena F hitung < F0.02 pada tabel tersebut, maka H0 diterima dan Ha ditolak; artinya
variabilitas kapasitas panas batubara pada Tambang-1 sama dengan variabilitas kapasitas panas
batubara pada Tambang-2.
10
e. Uji hipotesis untuk sebuah proporsi.
Banyak metode yang digunakan untuk pemeriksaan dalam kendali mutu, dan uji
kehandalan dengan berbasis pada uji hipotesis nol yang menyatakan proporsi sama dengan
konstanta tertentu.
Untuk sampel besar digunakan formula uji sebagai berikut :
x – np0 z = . . . . . (2.9)
√np0 (1 – p0)
Contoh-2.12 : Uji Hipotesis Untuk Sebuah Proporsi (sampel besar)
Dalam sebuah penelitian yang didesain untuk menguji apakah detonator merk tertentu
yang digunakan untuk peledakan pada tambang dapat berfungsi dengan benar paling sedikit
90,00% dari seluruh detonator yang dipakai. Dari 200 detonator ternyata 174 buah detonator yang
berfungsi baik. Ujilah apakah tujuan penelitian itu terjawab pada a = 0,05.
H0 : p = 0,90
Ha : p < 0,90
Pada = 0,05, nilai z = -1,645
174 – 200(0,90)
z = = -1,41 √ 200(0,90)(1 – 0,90)
Karena z hitung > -1,645, maka H0 diterima, dan Ha ditolak. Maka dapat dinyatakan bahwa
paling sedikit 90,00% detonator merk tertentu tersebut berfungsi dengan baik.
-1,645 -1,41 daerah penerimaan H0.
Gambar 2.4 Daerah Penerimaan H0
11
f. Uji hipotesis untuk banyak proporsi
Formula uji :
r c (oij - eij)2
2 = . . . . . (2.10)
i=1 j=1 eij
H0 : pi1 = pi2 = . . . . pic (i = 1, 2, . . . r).
Ha : pi1 ≠ pi2 ≠ . . . . pic
r
Di mana pij = probabilitas data pada baris-i dan kolom-j. pij = 1
i=1
eij = nj. p = (nj. X)/n
Penyusunan tabel kontingensi menurut aturan : variabel yang dipengaruhi diletakkan
sebagai baris, sedang yang mempengaruhi diletakkan sebagai kolom. Koefisien kontingensi
merupakan ukuran keeratan saling ketergantungan kedua variabel (dependency) dapat dihitung
dengan rumus :
2
C = , makin tinggi nilai C makin tinggi keeratan saling ketergantungannya.
2 + N
Contoh-2.13 : Uji Hipotesis Untuk Banyak Proporsi
Sampel dari tiga jenis bahan, dipanasi sampai temperatur yang tinggi. Data perubahan
secara fisik terhadap bahan-bahan tersebut adalah :
Tabel 2.5 Perubahan Fisik Bahan Setelah Pemanasan
Bahan A Bahan B Bahan C Total
Berkerut 41 27 22 90
Tidak Berubah 79 53 78 210
Total 120 80 100 300
Ujilah pada = 0,05, apakah pemanasan dengan temperatur tinggi tersebut memberikan
kesamaan kecenderungan pengkerutan bahan.
H0 : p1 = p2 = p3
Ha : p1 ≠ p2 ≠ p3
2 pada = 0,05 dengan derajat bebas = k – 1 = 3 – 1 = 2, adalah = 5,991.
Hitung terlebih dahulu eij :
(90)(120) e11 = = 36 300
12
(90)(80)
e12 = = 24 300
dan seterusnya.
Ekspektasi nilai data observasi (eij) tersebut di atas adalah :
Bahan A Bahan B Bahan C
Berkerut (90x120)/300 = 36 (90x80)/300 = 24 (90x100)/300= 30
Tidak Berubah (210x120)/300= 84 (210x80)/300= 56 (210x100)/300= 70
(41-36)2 (27-24)2 (22-30)2 (79-84)2 (53-56)2 (78-70)2
2 = + + + + +
36 24 30 84 56 70 = 4,575
Tingkat keeratan saling ketergantungan = 0,1225599 = 12,26%.
2
0 4,575 5,991
Gambar 2.5 Daerah Penerimaan H0
Kesimpulan : 2 hasil perhitungan < 2 pada tabel, maka H0 diterima; artinya kemungkinan
berkerut karena perubahan temperatur pada ketiga jenis bahan tersebut, sama. Atau lebih ekstrim
lagi dapat dikatakan bahwa kualitas ketiga jenis bahan adalah sama. Nilai koefisien kontingensinya
tidak berarti.
Contoh-2.14 : Uji Hipotesis Untuk Banyak Proporsi
Untuk menentukan apakah ada hubungan antara kinerja pegawai dengan prestasi hasil
pendidikan dan pelatihan yang dilakukan oleh kantor, digunakan sampel pegawai sebanyak 400
orang yang telah mengikuti program pendidikan dan pelatihan yang dimaksud.
Hasil observasi kepada file kepegawaian (400 records) adalah sebagai berikut :
Hasil observasi (oij) dapat ditabelkan sebagai berikut :
13
Tabel 2.6 Prestasi Pada Program DIKLAT dan Kinerja Pegawai
Kinerja Pegawai Prestasi Hasil Pendidikan dan Pelatihan Pegawai
Total Di bawah rata-2 Rata-2 Di atas rata-2
Buruk 23 60 29 112
Sedang 28 79 60 167
Baik 9 49 63 121
Total 60 188 152 400
H0 : tidak ada hubungan antara prestasi hasil Program Pendidikan & Pelatihan dan kinerja
pegawai.
Ha : ada hubungan antara prestasi hasil Program Pendidikan & Pelatihan dan kinerja pegawai.
Pada = 0,01 dan df = (r – 1)(c – 1) = (3 – 1)(3 – 1) = 4, nilai 2 = 13,277 (lihat tabel 2).
Hasil perhitungan nilai ekspektasi (eij) dapat ditabelkan sebagai berikut :
Tabel 2.7 Perhitungan Ekspektasi Observasi
Kinerja Pegawai
Prestasi Hasil Pendidikan dan Pelatihan Pegawai
Di bawah rata-2 Rata-2 Di atas rata-2
Buruk (112x60)/400=16,80 (112x188)/400=52,64 (112x152)/400=42,56
Sedang (167x60)/400=25,05 (167x188)/400=78,49 (167x152)/400=63,46
Baik (121x60)/400=18,15 (121x188)/400=56,87 (121x152)/400=45,98
(23–16,80)2 (60-52,64)2 (29-42,56)2 (28-25,05)2
2 = + + + +
16,80 52,64 42,56 25,05
(79–78,49)2 (60-63,46)2 (9-18,15)2 (49-58,87)2 (63-45,98)2 + + + + = 20,74
78,49 63,46 18,15 58,87 45,98
2
13,277 20,745
Gambar 2. 6 Daerah Penerimaan H0
Kesimpulan : 2 hasil perhitungan > 2 pada tabel, maka Ha diterima; artinya ada hubungan
antara prestasi hasil Program Pendidikan & Pelatihan dengan kinerja pegawai.
Tingkat keeratan hubungan = 0,2220482 atau 22,20%.
14
Contoh-2.15 : Uji Hipotesis Untuk Banyak Proporsi
Untuk menguji kualitas empat merk ban dilakukan pengamatan pada laboratorium
terhadap 800 ban, hasilnya adalah (oij) :
Tabel 2.8 Data Kerusakan Ban
Tingkat kerusakan
Ban Total
Merk A Merk B Merk C Merk D
Rusak
setelah 20.000 mil
26 23 15 32 96
Rusak di atas 20.000 mil
sampai 30.000 mil
118 93 116 121 448
Rusak setelah lebih
30.000 mil
56 84 69 47 256
Total 200 200 200 200 800
= 0,01, df = (3 -1)(4 – 1) = 6, 2 pada tabel = 16,812.
Hasil perhitungan nilai ekspektasinya (eij) adalah :
Tabel 2.9 Nilai Ekspektasi Data Kerusakan Ban
Tingkat kerusakan
Ban
Merk A Merk B Merk C Merk D
Rusak setelah
20.000 mil
(96x200)/800=
24
(96x200)/800=
24
(96x200)/800=
24
(96x200)/800=
24
Rusak di atas 20.000 mil sampai
30.000 mil
(448X200)/800= 112
(448X200)/800= 112
(448X200)/800= 112
(448X200)/800= 112
Rusak setelah lebih 30.000 mil
(256X200)/800= 64
(256X200)/800= 64
(256X200)/800= 64
(256X200)/800= 64
(26-24)2 (23-24)2 (15-24)2 (32-24)2
+ + + + 24 24 24 24 (118-112)2 (93-112)2 (116-112)2 (121-112)2
2 = + + + + = 16,567
112 112 112 112
(56-64)2 (84-64)2 (69-64)2 (47-64)2
+ + + 64 64 64 64
2 hasil perhitungan < 2 pada tabel, maka H0 diterima, artinya proporsi kerusakan ban pada
keempat merk ban tersebut adalah sama. Dengan kata lain, bahwa merk ban tidak
berhubungan dengan kualitas ban.
15
g. Goodness of Fit Test
Contoh-2.16 : Goodness of Fit (Distribusi Poisson).
Pada menara kontrol di lapangan terbang, dalam rentang waktu 5 menitan, diamati 400
kali panggilan radio untuk mengetahui apakah panggilan radio tersebut berdistribusi Poisson
dengan rata-rata ( ) = 4,6. Hasil pengamatannya adalah :
Tabel 2.10 Data Frekuensi Pannggilan Radio
Jumlah Panggilan
Radio
Frekuensi yang
terjadi (oij)
Probabilitas
Poisson
Ekspektasi Frekuensi
(eij)
0 3 18 0.010 4.00 2.40
1 15 0.046 18.40
2 47 0.107 42.80
3 76 0.163 65.20
4 68 0.187 74.80
5 74 0.173 69.20
6 46 0.132 52.80
7 39 0.087 34.80
8 15 0.050 20.00
9 9 0.025 10.00
10 5 0.012 4.80
11 2 8 0.005 2.00 8.00
12 0 0.002 0.80
13 1 0.001 0.40
Total 400 400.00
Penjelasan :
Frekuensi yang terjadi (oij) merupakan hasil observasi. Probabilitas Poisson dapat dilihat pada
Tabel Distribusi Poisson, dan merupakan probabilitas akumulasi pada = 4.6. Ekspekstasi
frekuensi : eij = oij x probabilitas. Pada kolom oij, tidak diperkenankan nilai di bawah 5, untuk
itu perlu dikumulatifkan agar > 5.
H0 : frekuensi panggilan radio berdistribusi Poisson dengan = 4,6
Ha : frekuensi panggilan radio tidak berdistribusi Poisson dengan = 4,6
(18-22,4)2 (47-42,80)2 (76-65,20)2 (68-74,80)2 (74-69,20)2 + + + + 22,4 42,80 65,20 74,80 69,20
2 =
(46-52,80)2 (39-34,80)2 (15-20,00)2 (9 – 10,00)2 (8 – 8,00)2 + + + +
52,80 34,80 20,00 10,00 8,00
= 6,749,
16
Pada = 0,01 dan df = k – m = 10 – 1 = 9 (di mana k = banyaknya observasi yang
diperbandingkan dan m = adalah banyaknya variabel), 2 pada tabel = 16,919. 2 hasil
perhitungan < 2 pada tabel, maka H0 diterima; artinya panggilan radio yang datang ke menara
kontrol tersebut berdistribusi Poisson dengan = 4,6.
Contoh-2.17 : Goodness of Fit (Distribusi Normal).
Armor Carpet Store adalah sebuah toko yang menjual karpet, memperkirakan bahwa rata-
rata penjualan karpet per minggu ( ) = 4.200 yard dengan standard deviasi ( ) = 1.232 yard.
Parameter ini diperoleh dari pengamatan selama 10 minggu terakhir :
Tabel 2.11 Data Penjualan Karpet
Minggu Penjulan (yard) (xi – x) (xi – x)2
1 2.900 -1.300 1.690.000
2 5.400 1.200 1.440.000
3 3.100 -1.100 1.210.000
4 4.700 500 250.000
5 3.800 -400 160.000
6 4.300 100 10.000
7 6.800 2.600 6.760.000
8 2.900 -1.300 1.690.000
9 3.600 -600 360.000
10 4.500 300 90.000
Rata-
rata 4.200 Total 13.660.000
Varians = 1.517.777,78 yard, maka standard deviasi = 1.231,981, dibulatkan = 1.232 yard.
Diasumsikan bahwa data penjualan karpet berdistribusi normal. Untuk itu dibutuhkan
pengamatan yang lebih banyak, yaitu = 200 minggu, hasilnya adalah frekuensi range penjualan
sebagai berikut :
Tabel 2.12 Distribusi Data Penjualan
No. Range
Penjulan/Minggu Frekuensi
1 0 – 999 2
2 1.000 – 1.999 5
3 2.000 – 2.999 22
4 3.000 – 3.999 50
5 4.000 – 4.999 62
6 5.000 – 5.999 40
7 6.000 – 6.999 15
8 7.000 – 7.999 3
9 > 8.000 1
Total 200
17
H0 : data penjualan berdistribusi normal.
Ha : data penjualan tidak berdistribusi normal.
(1) langkah-1 : menghitung probabilitas setiap range penjualan dengan menggunakan =
4.200 dan = 1.232. Contoh untuk menghitung probabilitas penjualan = 1.000 yard :
1.000 – 4.200 Z = = - 2,60 P{1.000} = 0,4953
1.232
Luas areal di bawah kurve bisa dilihat pada Tabel Distribusi Normal. Luas = 0,4953
merupakan luas areal di bawah kurve normal untuk penjualan dari 1.000 yard sampai dengan rata-
ratanya. Sehingga luas areal di bawah kurve normal untuk penjualan < 1.000 yard = 0,5000 –
0,4953 = 0,0047. Analog dengan cara menghitung luas areal di bawah kurve normal tersebut dapat
dibuat gambar luas areal sebagai berikut :
0,0047 0,0320 0,1293 0,2704 0,3058 0,1857 0,0605 0,0106 0,0010
1 2 3 4 4,2 5 6 7 8
Tabel 2.13 Perhitungan Frekuensi Normal
Range Z Area
X X Range Area
Normal Frequency
0 – 999 - 0,5000 0,0047 0,940
1.000 – 1.999 -2,60 0,4953 0,0320 6,40
2.000 – 2.999 -1,9 0,4633 0,1293 25,86
3.000 – 3.999 -0,97 0,3340 0,2704 54,08
4.000 – 4.999 -0,16 0,0636
0,3058 61,16 0,65 0,2422
5.000 – 5.999 1,46 0,4279 0,1857 37,14
6.000 – 6.999 2,27 0,4884 0,0605 12,10
7.000 – 7.999 3,08 0,4990 0,0106 2,12
> 8.000 - 0,5000 0,0010 0,20
18
(2) langkah-2 : menghitung nilai 2 :
Untuk menghitung nilai 2, perlu dilakukan penyesuaian terlebih dahulu terhadap tabel
frekuensi ini, yaitu setiap sel normal frequency harus > 5, sehingga tabel frekuensi yang
telah disesuaikan dengan ketentuan ini menjadi :
Tabel 2.14 Perhitungan Nilai 2
Range fo fe (fo - fe)2 (fo - fe)
2/fe
0 – 1.999 7 7,34 0,12 0,0163
2.000 – 2.999 22 25,86 14,90 0,5762
3.000 – 3.999 50 54,08 16,65 0,3079
4.000 – 4.999 62 61,16 0,71 0,0116
5.000 – 5.999 40 37,14 8,18 0,2202
> 6000 19 14,42 20,98 1,4549
Total 2,5871
(3) langkah-3 : membandingkan nilai 2 dengan 2 pada tabel dengan df = k-p-1 (k =
banyaknya kelas frekuensi, = 6; p = banyaknya parameter yang digunakan, = 2) = 6 – 2 –
1 = 3. Pada = 0,05, nilai 2 tabel = 7,815. Nilai hitung 2 < nilai 2 tabel, maka H0
diterima, artinya distribusi data frekuensi penjualan pada setiap range penjualan
berdistribusi normal.
BAB IV. ANALISIS REGRESI
19
4.1. Introduksi
Analisis Regresi adalah sebuah alat analisis yang didasarkan pada konsep ekonometrik.
Ekonometrik secara harfiah berarti ukuran ekonomik. Walaupun ukuran merupakan sebuah bagian
penting dalam ekonomi, cakupan ekonometrik jauh lebih luas, karena pernyataan-pernyataan
berikut :
(a) Ekonometrik, merupakan hasil dari sudut pandang pada peran ekonomi, mengandung
aplikasi data statistik matematik untuk mendukung secara empiris terhadap model yang
dikonstruksi secara matematik dan menghasilkan hasil numerik.1
(b) Ekonometrik bisa didefinisikan sebagai analisis kuatitatif dari fenomena ekonomi berdasar
pengembangan terus menerus terhadap teori dan pengamatan, digubungkan dengan
metode inferensial yang sesuai.2
(c) Ekonometrik bisa didefinisikan sebagai ilmu sosial yang merupakan alat teori ekonomi,
matematik, dan statistik inferen, diaplikasi untuk menganalisis fenomena ekonomi.3
(d) Ekonometrik dikaitkan dengan determinasi empiris terhadap hukum ekonomi.4
4.2. Metodologi
4.2.1 Spesifikasi Model Ekonometrik.
Keynes menyatakan bahwa : “The fundamental psychological law . . . . is that men
(women) are disposed, as a rule and on average, to increase their consumption as their income
increases, but not by as much as the increase in their income.”5 Secara singkat, Keynes
mendalilkan bahwa propensity to consume (MPC), tingkat perubahan konsumsi (dalam satuan unit,
misal uang) karena perubahan penghasilan, adalah lebih besar dari nol tetapi kurang dari satu.
Walaupun Keynes mendalilkan hubungan positif antara konsumsi dengan penghasilan, tetapi ia
tidak menspesifikasi bentuk yang jelas fungsi hubungan antar keduanya. Untuk penyederhanaan,
fungsi matematik pernyataan Keynes itu dapat dituliskan sebagai :
Y = + X . . . . . (4.1)
di mana,
1 Gerhard Tintner, Methodology of Mathematical Economics and Econometrics, The University of
Chicago Press, Chicago, 1968, p. 74. 2 P. A. Samuelson, T. C. Koopmans, dan R. J. N. Stone, Report of the Evaluative Committee for
Econometrica, Econometrica, Vol. 22 no. 2, April, 1954, pp. 141-146. 3 Arthur S. Goldberger, Econometric Theory, John Wiley & Sons, Inc., New York, 1964, p. 1. 4 H. Theil, Principles of Econometrics, John Wiley & Sons, Inc., New York, 1971, p. 1. 5 John Maynard Keynes, The General Theory of Employment, Iterest and Money, Harcourt Brace
Jovanovich, Inc., New York, 1936, p. 96.
20
Y = pengeluaran untuk konsumsi,
X = tingkat penghasilan,
= konstanta atau parameter,
= parameter MPC.
Persamaan-1 ini menyatakan bahwa konsumsi berhubungan linier dengan penghasilan. Jika
model hanya memiliki sebuah persamaan, model itu dinamai single equation model, dan jika lebih
dari satu persamaan disebut simultaneous equation model atau multiequation model.
Model matematik fungsi komsumsi di atas, bagaimanapun terbatas dalam cakupannya,
karena model ini mengasumsikan bahwa ada hubungan yang pasti antara konsumsi dan
penghasilan, walaupun secara umum, hubungan antar variabel-variabel biasanya tidak pasti. Jika
ada data pengeluaran konsumsi dan penghasilan, katakan dari 5.000 rumah tangga, dan di plot
pada grafik, di mana sumbu tegaknya adalah tingkat konsumsi, dan sumbu datarnya penghasilan;
maka tidak dapat diharapkan seluruh pengamatan itu berada pada sebuah garis lurus. Ini terjadi
karena sebenarnya selain tingkat penghasilan ada variabel lain yang bisa mempengaruhi tingkat
konsumsi; contoh : jumlah anggota keluarga, umur anggota keluarga, agama, dan lain-lain. Untuk
memungkinkan mengetahui hubungan yang tak pasti ini, para ahli ekonometrik memodifikasi
modelnya menjadi :
Y = + X + u . . . . . (4.2)
di mana u, dikenal sebagai disturbance atau error, yaitu sebuah variabel random (stochastic) yang
didefinisikan memiliki sifat probabilistik. Persamaan-2 adalah contoh sebuah model ekonometrik,
yaitu : model regresi tunggal linier. Fungsi konsumsi ekonometrik tersebut menghipotesiskan
bahwa variabel dependen, Y (konsumsi), berhubungan linier dengan variabel independen, X
(penghasilan), namun hubungan keduanya tidak pasti, tergantung kepada variasi individu.
4.2.2 Estimasi.
Setelah memiliki model ekonometrik tertentu, langkah selanjutnya bagi seorang
ekonometrikan adalah mengestimasi (dalam nilai numerik) parametrik model dari data yang ada.
Estimasi yang dihasilkan mengkontribusikan hubungan empirik kepada teori ekonomi. Jika sebuah
kajian terhadap fungsi konsumsi keynesian memperlihatkan bahwa = 0,80, nilai ini tidak hanya
menghasilkan estimasi MPC saja, tetapi juga mendukung hipotesis Keynes, bahwa MPC < 1,00.
4.2.3 Verifikasi (Inferensial Statistik).
21
Selanjutnya, para analis mengembangkan kriteria yang tepat untuk membuktikan apakah
estimasi parameter yang dihasilkan itu sesuai dengan teori yang diuji. Seperti diketahui, Keynes
menyatakan bahwa MPC itu positif dan < 1,00. Sebuah model yang memiliki = 0,90, walaupun
secara numerik angka itu < 1,00; seseorang bisa mempertanyakan apakah estimasi tersebut
meyakinkan, dan bukan karena persoalan kebetulan dalam proses sampling-nya. Atau dengan kata
lain : apakah benar estimasi tersebut < 1,00 secara statistik ? Jika terbukti benar, maka temuannya
mendukung teori Keynes, dan sebaliknya jika tidak, maka temuan itu tidak mendukung teori
Keynes. Proses pembuktian ini melalui tahapan yang disebut sebagai uji hipotesis.
4.2.4 Peramalan atau Prediksi.
Manfaat mengestimasi model ekonometrik paling banyak ditujukan untuk keperluan
memprediksi nilai variabel dependen untuk masa mendatang berdasar nilai variabel independennya
pada masa mendatang juga. Contoh : jika pemerintah menurunkan pajak pribadi untuk
meningkatkan perekonomian masyarakat, bagaimana pengaruhnya terhadap pengeluaran
konsumsi, penghasilan dan tingkat pengangguran ?
Teori makro ekonomi, menyatakan bahwa perubahan pendapatan setiap dollar pada
multiplier konsumsi = M, di mana M didefinisikan sebagai : 1/(1 - MPC). Jika MPC = 0,80, maka M
= 5; ini mengartikan bahwa jika pendapatan meningkat $ 1.00, maka akan ada peningkatan
pengeluaran konsumsi sebanyak lima kali. Nilai kritis dalam perhitungan ini adalah M yang
tergantung kepada MPC. Dengan demikian, estimasi kuantitatif MPC merupakan informasi yang
bernilai untuk keperluan kebijakan pemerintah. Dengan mengetahui MPC, seseorang dapat
memprediksi konsumsi yang akan datang karena perubahan kebijakan pemerintah dalam fiskal.
Berikut konsep ekonometrika secara umum6 :
6 Gujarati, 2008:12.
22
(1) Teori ekonomi
(2) Model ekonometrik dari teori
(3) Koleksi data yang sesuai model
(4) Estimasi parameter model
(5) Statistik Inferensial :
Mendukung teori jika data Tolak teori jika data tidak sesuai sesuai dengan teori dengan teori
Prediksi Revisi teori atau teori baru Pengujian, mengikuti langkah-langkah
(2) sampai (5)
Gambar 4.1 Konsep Ekonometrika
4.3. Jenis Ekonometri
Secara umum, ekonometri bisa dibagi menjadi dua katagori, yaitu : (1) ekonometrik
teoritis, dan (2) ekonometrik aplikatif. Ekonometrik teoritis dikonsentrasikan dengan
pengembangan metode yang sesuai untuk mengukur hubungan ekonomik yang dispesifikasi
dengan model ekonometrik. Pada aspek ini, ekonometrika dipelajari dengan statistik matematik
tinggi. Salah satu contoh adalah metode least squares. Itu konsentrasi dari ekonometrik teoritis
untuk mengindikasi asumsi metode tersebut, merupakan properti, dan apa yang akan terjadi
kepada properti jika satu asumsi atau lebih tidak terpenuhi.
Dalam ekonometrik aplikatif, digunakan peralatan ekonometrik teoritis untuk mengkaji
beberapa bidang ekonomi secara khusus, seperti fungsi produksi, fungsi konsumsi, fungsi investasi,
fungsi penawaran - permintaan, dan lain-lain.
4.4. Regresi vs Korelasi
Tampak seperti mirip, namun banyak perbedaan pada keduanya. Tujuan utama analisis
korelasi adalah mengukur kekuatan hubungan antara dua variabel. Koefisien korelasi mengukur
kekuatan hubungan linier. Contoh, seseorang tertarik untuk menentukan korelasi antara merokok
dengan kanker paru, korelasi antara nilai statistik dengan nilai matematik. Analisis regresi tidak
sekedar mengukur kekuatan hubungan, namun lebih ditujukan untuk mengestimasi atau
memprediksi nilai rata-rata sebuah variabel dengan dasar nilai konstan (fixed) variabel-variabel lain.
23
Dengan demikian, seseorang dapat mengetahui berapa nilai rata-rata ujian statistik, dengan
mengetahui nilai matematik mahasiswa.
Kedua teknik regresi dan korelasi memiliki beberapa perbedaan dasar, yaitu : pada analisis
regresi ada sebuah asimetri dalam cara memperlakukan variabel dependen dan independen.
Variabel dependen diasumsikan bersifat random, atau stokastik, sehingga memiliki distribusi
probabilitas. Variabel independen diasumsikan bernilai tetap (fixed). Pada analisis korelasi, kedua
variabel diperlakukan simetris, tidak ada perbedaan antara variabel dependen dan variabel
independen. Korelasi antara nilai statistik dan matematik sama dengan korelasi antara nilai
matematik dan statistik. Kedua variabel yang dikorelasikan, diasumsikan random. Seperti diketahui,
sebagian besar teori korelasi berbasis pada ke-random-an (stokastik) variabel.
4.5. Terminolgi dan Notasi
Beberapa buku literatur menggunakan istilah yang berbeda, contoh :
Dependent Variable Explanatory Variable
Explained Variable Independent Variable
Predictand Predictor
Regressand Regressor
Response Stimulus or Control Variable
Gambar 4.2 Terminologi dan Notasi Dalam Ekonometrika
4.6. Sample Regression Function (SRF)
SRF adalah fungsi regresi yang diaplikasikan kepada sampel dan bukan populasinya.
Penggunaan sampel dalam analisis disebabkan karena populasi yang tidak diketahui.
Contoh-4.1 :
Dari sampel random yang diamati, diketahui nilai Y dan X sebagai tertuang pada Tabel 4.1
berikut :
24
Tabel 4.1. Data X dan Y Dari Sampel Random.
No. Yi Xi
1 70 80
2 65 100
3 90 120
4 95 140
5 110 160
6 115 180
7 120 200
8 140 220
9 155 240
10 150 260
Fungsi regresi implisit yang dikembangkan dari data sampel ini adalah : ^ ^
Yi = 0 + 0 Xi + ei . . . . . (4.3)
Untuk fungsi yang sederhana ini, dengan aplikasi program Excel - Add in Data Analysis
Regression, dapat dihasilkan fungsi eksplisitnya sebagai berikut :
SUMMARY OUTPUT
Regression Statistics Multiple R 0,9808
R Square 0,9621
Adjusted R Square 0,9573
Standard Error 6,4930
Observations 10
ANOVA
df SS MS F Significance
F Regression 1 8552,727 8552,727 202,868 0,000
Residual 8 337,273 42,159 Total 9 8890,000
Coefficients Standard
Error t Stat P-value Lower 95% Upper 95%
Lower 95,0%
Upper 95,0%
Intercept 24,4545 6,4138 3,8128 0,0051 9,6643 39,2448 9,6643 39,2448
X Variable 1 0,5091 0,0357 14,2432 0,0000 0,4267 0,5915 0,4267 0,5915
RESIDUAL OUTPUT
Observation Predicted Y Residuals 1 65,1818 4,8182
2 75,3636 -10,3636
3 85,5455 4,4545
4 95,7273 -0,7273
5 105,9091 4,0909
6 116,0909 -1,0909
7 126,2727 -6,2727
25
8 136,4545 3,5455
9 146,6364 8,3636
10 156,8182 -6,8182
^
Formula untuk menghitung adalah :
^
1 = N XiYi - Xi Yi
N Xi2 - ( Xi)2 . . . . . (4.4)
^ 0 = Xi2 Yi - Xi XiYi
N Xi2 - ( Xi)2 . . . . . (4.5)
Atau = Y - 1 X
Secara manual perhitungan dengan formula tersebut di atas adalah :
Tabel 4.2 Data X dan Y Dari Sampel Random.
No. Yi Xi Xi2 XiYi Yi
2
1 70 80 6400 5600 4900
2 65 100 10000 6500 4225
3 90 120 14400 10800 8100
4 95 140 19600 13300 9025
5 110 160 25600 17600 12100
6 115 180 32400 20700 13225
7 120 200 40000 24000 14400
8 140 220 48400 30800 19600
9 155 240 57600 37200 24025
10 150 260 67600 39000 22500
Total 1110 1700 322000 205500 132100
^ 1 = N XiYi - Xi Yi
N Xi2 - ( Xi)2
= 10(205500) - (1700)(1110) 10(322000) - (1700)2
= 0,509091 atau 0,5091
^ 0 = Xi2 Yi - Xi XiYi
N Xi2 - ( Xi)2
= (322000)(1110) - (1700)(205500)
10(322000) - (1700)2
= 24,4545 Dengan demikian, seara eksplisit fungsi regresi yang dihasilkan adalah :
Yi = 24,4545 + 0,5091 Xi + ei
R square atau R2 dihitung dengan formula :
26
SSR
R2 = disebut juga sebagai coefficient of determination (COD). TSS
Di mana,
SSR = (Ŷi - Y)2
TSS = (Yi - Y)2
Untuk mengaplikasi formula-formula ini harus dihitung terlebih dahulu rata-rata Y atau Y,
dalam hal ini = 1110/10 = 111.
Tabel 4.3 Data X dan Y Dari Sampel Random.
No. Yi Y Yi - Y (Yi - Y)2 Ŷi - Y (Ŷi - Y)2
1 70 111 -41 1681 -45,82 2099,47
2 65 111 -46 2116 -35,64 1270,21
3 90 111 -21 441 -25,45 647,70
4 95 111 -16 256 -15,27 233,17
5 110 111 -1 1 -5,09 25,91
6 115 111 4 16 5,09 25,91
7 120 111 9 81 15,27 233,17
8 140 111 29 841 25,45 647,70
9 155 111 44 1936 35,64 1270,21
10 150 111 39 1521 45,82 2099,47
Total 1110 8890 8552,92
SSR = 8552,92
TSS = 8890
R2 = 8552,92/8890 = 0,9621 = 96,21%
Nilai R2 ini merupakan ukuran kesesuaian fungsi regresi yang dihasilkan. Semakin tinggi
nilai R2, model semakin sesuai dengan data inputnya. Model regresi di atas memperlihatkan bahwa
96,21% perubahan-perubahan nilai Y dapat dijelaskan oleh perubahan-perubahan nilai X;
sedangkan sisanya sebesar = 3,79% tidak dapat dijelaskan oleh perubahan-perubahan nilai X.
Koefisien korelasi sampel antara X dengan Y, yaitu : R, dihitung dengan formula7
R atau r = N XiYi - Xi Y
[√ N Xi2 - ( Xi)2][ N Yi2 - ( Yi)2] . . . . . (4.6)
=
(10)(205500) - (1700)(1110)
[√(10)(322000) - (1700)2][(10)(132100) - (1110)2]
= 168000/171280,5 = 0,9808 atau 98,08%
7 Gujarati, 2008: p. 50.
27
Properti koefisien korelasi sampel, R atau r ;
(a) Nilai r bisa positif atau negatif, -1 < r < 1,
(b) Simetris, artinya korelasi X dengan Y semata-mata sama dengan korelasi Y dengan X,
(c) Jika X dan Y indipenden signifikan secara statistik, maka r = 0, tetapi jika = 0, tidak berarti
bahwa kedua variabel itu tidak harus independen,
(d) Ini merupakan ukuran hubungan linier saja, dan tidak memiliki arti untuk menjelaskan
hubungan non linier,
(e) Walaupun ini merupakan ukuran hubungan linier antar dua variabel, tetapi ini tidak dapat
menjelaskan pengaruh sebab-akibat.
Nilai statistik-t (t-stat) merupakan ukuran signifikansi parameter (koefisien regresi dan
konstanta, 1 dan 0). Formula untuk menghitung t-stat adalah :
t i = i/se( i)
Untuk 0 : t 0 = 24,4545/6,4138 = 3,8128
Untuk 1 : t 1 = 0,5091/0,0357 = 14,2432
Nilai kritis t-stat pada degree of freedom = N-1 = 9 pada = 0,05 di Tabel-t adalah =
1,833, Karena hasil perhitungan nilai-t kedua parameter ini > 1,833, maka kedua parameter ini
signifikan pada = 0,05.
4.7. Pendekatan Matriks Untuk Model Regresi
4.7.1 Estimasi Koefisien Regresi Linier Dengan K-Variabel
Population Regression Function (PRF) secara umum dapat dituliskan sebagai :
Yi = 0 + 1 X1i + 2 X2i + . . . . + k Xki + ui . . . . . (4.7)
Dengan operasi matriks, persamaan di atas dapat dituliskan sebagai berikut :
Y = X u . . . . . (4.8)
N x 1 N x k k x 1 N x 1
Di mana,
Y = N x 1, merupakan vektor kolom observasi variabel dependen,
X = N x k, matriks sebanyak N observasi dari k - 1 variabel bebas,
= k x 1, merupakan vektor kolom parameter yang tidak diketahui,
u = N x 1, merupakan vektor kolom error sebanyak N.
Jika,
Y = X + u . . . . . (4.9)
Maka :
28
= (X’X)-1 X’Y . . . . . (4.10)
k x 1 k x k (k x N)(N x 1)
4.7.2 Matriks Variance-Covariance,
Metode matriks memungkinkan untuk mengembangkan formula, tidak hanya untuk
menghitung varians , tetapi juga untuk menghitung kovarians antara dua elemen , misal i dan
j.
Formulanya adalah : var-cov ( ) = 2 (X’X)-1 . . . . . (4.11)
Di mana 2 adalah varians homoskedastis dari ui, dan (X’X)-1 adalah inversi matriks X’X
seperti yang dihasilkan pada operasi matriks sebelumnya.
Dalam model regresi linier dengan dua atau tiga variabel, estimator yang unbiased 2 =
ei2/(N-2) atau 2 = ei
2/(N-3). Untuk k - variabel, maka rumus itu menjadi : 2 = ei2/(N-k) atau
2 = e’e/(N-k).
e’e dapat dihitung melalui pendekatan8 :
e’e = y’y - ’ X’y . . . . . (4.12)
Sekali e’e dapat dihitung, maka 2 dapat dihitung.
4.7.3 Koefisien Determinasi (R2)
Koefisien determinasi, R2, dihitung sebagai :
SSR R2 = . . . . . (4.13) TSS
Di mana,
SSR = sum of square of regression
SSE = sum pf square of error
TSS = total of sum of square
Untuk model regresi dengan k - variabel, R2 dapat dihitung sebagai :
’X’y - N Y2
R2 = . . . . . (4.13) y’y - N Y2
4.7.4 Uji Hipotesis Signifikansi Koefisien Regresi Parsial
8 Gujarati, 2008:150
29
Uji signifikansi i secara parsial dapat didekati dengan formula :
^
i - i
t i =
se( i)
di mana,
se = standard of error.
Kriteria signifikansi i : t i > tdf, . Df = degree of freedom = N - k.
4.8. Uji Hipotesis Signifikansi Koefisien Regresi Secara Simultan
Uji signifikansi koefisien regresi secara simultan, didekati melalui ANOVA (uji- F) sebagai berikut :
Tabel ANOVA (dalam operasi matriks)
Sumber Variasi Sum of Squares
(SS) df
Mean of Sum of Squares (MSS)
F
Regresi (SSR) ’X’y - N Y2 k - 1 ’X’y - N Y2/(k-1) SSR/SSE
Error (SSE) y’y - ’X’y N - k y’y - ’X’y/(N-k)
Total (TSS) y’y - N Y2 N - 1
Atau dapat juga ditulis, bahwa untuk menghitung nilai-F adalah :
’X’y - N Y2/(k-1)
F = . . . . . (4.14) y’y - ’X’y/(N-k)
atau dengan menggunakan R2 yang telah dihitung9 : R2 /(k - 1) F = . . . . . (4.15)
(1 - R2)/(N - k)
Contoh-4.2 : Analisis Regresi Dengan Operasi Matriks
Sebuah model regresi linier untuk menjelaskan pengaruh personal disposable income per
capita (PPDI) terhadap personal comsumption expenditure per capita (PPCE), menggunakan input
data dalam $ (1996 – 2010) dan trend (t) :
Tabel 4.4 Data Harga dan Pendapatan
PPCE (Y) PPDI (X1) t (X2)
1673 1839 1
1688 1844 2
1666 1831 3
9 Gujarati, 2008:154.
30
1735 1881 4
1749 1883 5
1756 1910 6
1815 1969 7
1865 2016 8
1947 2126 9
2048 2239 10
2128 2336 11
2165 2404 12
2257 2487 13
2316 2535 14
2324 2595 15
Dalam bentuk matriks :
1673 1 1839 1 e1
1688 1 1844 2 e2
1666 1 1831 3 e3
1735 1 1881 4 e4
1749 1 1883 5 e5
1756 1 1910 6 e6
1815 1 1969 7 0 e7
1865 = 1 2016 8 1 + e8
1947 1 2126 9 2 e9
2048 1 2239 10 e10
2128 1 2336 11 e11
2165 1 2404 12 e12
2257 1 2487 13 e13
2316 1 2535 14 e14
2324 1 2595 15 e15
Y = X + e
15 x 1 15 x 3 3 x 1 15 x 1
Y = 1942.133 X1 = 2126.333 X2 = 8
Untuk kemudahan dalam menghitung , gunakan Excel :
(a) Matriks X :
1 1839 1
1 1844 2
1 1831 3
31
1 1881 4
1 1883 5
1 1910 6
1 1969 7
1 2016 8
1 2126 9
1 2239 10
1 2336 11
1 2404 12
1 2487 13
1 2535 14
1 2595 15
(b) Transpos Matriks X atau X‟ :
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1839
1844 1831
1881
1883
1910
1969
2016
2126
2239
2336
2404
2487
2535
2595
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Ini dihasilkan dengan mengcopy-transpose matriks X.
(c) Perkalian Matriks X‟X :
15 31895 120
31895 68922513 272144
120 272144 1240
Ini dihasilkan dengan memberikan perintah =MMULT(array,array); Kemudian blok sel 3 x 3, tekan F2, dan tekan Ctrl+Shift+Enter.
(d) Inversi Matriks X‟X atau X‟X-1
37,23277 -0,02251 1,33671
-0,02251 0,00001 -0,00083
1,33671 -0,00083 0,05403
Ini dihasilkan dengan memberikan perintah =MINVERSE(array);
Kemudian blok sel 3 x 3, tekan F2, dan tekan Ctrl+Shift+Enter.
(e) Matriks Y :
1673
1688
1666
1735
32
1749
1756
1815
1865
1947
2048
2128
2165
2257
2316
2324
(f) Perkalian Matriks X‟Y :
29132
62899663
247909
(g) Perkalian Matriks X‟X-1 dengan Matriks X‟Y (untuk menghitung i) :
293,77526
0,7458439
7,8056693
0 = 293,775
1 = 0,746
2 = 7,806
(h) Model Regresi Linier yang dihasilkan :
Yt = 293,775 + 0,746 X1t + 7,806 X2t + et
(i) Menghitung se( i) :
(1) Terlebih dahulu dihitung : e’e = y’y - ’ X’y
y’y = 57408644 (dihitung dengan =MMULT)
’ X’y : 57406686 (dihitung dengan =MMULT)
e’e = 57408644 - 57406686 = 1958,2954,
2 = e’e/(N-k) = 1958,2954/(15-3) = 163,1912805
(2) Menghitung Matriks Var-Covar( ) : var-cov ( ) = 2 (X’X)-1
6076,064 -3,673 218,139
-3,673 0,002 -0,136
218,139 -0,136 8,818
(3) Menghitung se( i) :
33
se( i) merupakan akar kuadrat dari diagonal matriks var-cov ( ) :
se( 0) = 77,9491
se( i) = 0,0473
se( 2) = 2,9695
(j) Menghitung R2 :
’X’y - N Y2
R2 = y’y - N Y2
57406686 - 15 (1942,133)2 =
57408644 - 15 (1942,133)2
= 828457,4/830415,7 = 0,997642
= 99,764%
Adjusted R2 dihitung dengan formula10 :
N - 1 R2 = 1 - (1 - R2) = 0,99725 = 99,725% N - k
(k) ANOVA (untuk uji signifikansi koefisien regresi secara simultan) :
Tabel ANOVA.
Sumber Variasi Sum of Squares
(SS) df
Mean of Sum of Squares (MSS)
F
Regresi (SSR) ’X’y - N Y2 k - 1 ’X’y - N Y2/(k-1) SSR/SSE
Error (SSE) y’y - ’X’y N - k y’y - ’X’y/(N-k)
Total (TSS) y’y - N Y2 N - 1
Tabel ANOVA.
Sumber Variasi Sum of Squares
(SS) df
Mean of Sum of Squares
(MSS) F
Regresi (SSR) 828457,4 2 414228,7 2538,3014
Error (SSE) 1958,2954 12 163,1913
Total (TSS) 830415,7 14
(l) Menuliskan fungsi regresi eksplisit secara lengkap :
Menuliskan fungsi regresi secara lengkap :
Yt = 293,775 + 0,746 X1t + 7,806 X2t + et
se( i) (77,9491) (0,0473) (2,9695)
t (3,7688) (15,7650) (2,6286) R2 (99,764%)
10 Gujarati, 2008: 110.
34
Adjusted R2 (99,725%)
F (2538,3014)
Interpretasi statistiknya adalah :
(1) Secara parsial kedua koefisien regresi dan konstanta signifikan pada = 0,05, sedangkan
nilai t-tabel pada = 0,05 dan df = 12 adalah = 1,782. Ini diindikasikan oleh nilai-t hitung
seluruhnya > 1,782.
(2) Secara simultan, kedua koefisien regresi signifikan pada = 0,05, ini diindikasikan oleh
nilai-F hitung = 2538,3014 yang lebih besar daripada nilai-F tabel pada = 0,05,
numerator = k-1 = 2, dan denominator N - k = 12, yaitu sebesar = 3,89. Linieritas model
terbukti benar.
Hasil printout analisis Regresi dengan Add-in Data Analysis pada Excel menunjukkan kemiripan :
SUMMARY OUTPUT
Regression Statistics Multiple R 0,9988 R Square 0,9976 Adjusted R
Square 0,9972
Standard Error 12,7746
Observations 15
ANOVA
df SS MS F Significance
F Regression 2 828457,4 414228,72 2538,3017 1,72E-16 Residual 12 1958,295 163,19128
Total 14 830415,7
Coefficients Standard
Error t Stat P-value Lower 95% Upper 95%
Lower 95.0%
Intercept 293,7753 77,9491 3,7688 0,0027 123,9387 463,6118 123,9387
X Variable 1 0,7458 0,0473 15,7650 0,0000 0,6428 0,8489 0,6428
X Variable 2 7,8057 2,9695 2,6286 0,0220 1,3357 14,2757 1,3357
4.9 Asumsi Dalam Model Regresi Klasik
Dalam analisis regresi, melalui simplifikasi, ada enam asumsi pada model regresi klasik,
yaitu :
1. Rata-rata kondisional dari penyimpangan populasi, ui = 0,
2. Varian ui = konstan, atau homoskedastis (non heteroskedastis),
35
3. Tidak terjadi otokorelasi serial antar ui,
4. Variabel eksplanatori (baik skokastik maupun non skokastik),
5. Tidak terjadi multikolinieritas antar variabel eksplanatori,
6. ui berdistribusi normal dengan rata-rata = 0, dan standard deviasi = 1.
Dari keenam asumsi ini, tiga merupakan syarat perlu (perlu diuji), yaitu : otokorelasi,
multikolinieritas dan homoskedastis, dan tiga lainnya merupakan syarat cukup (boleh diuji dan
tidak).
a. Mutlikolinieritas.
Menurut Ragnar Frisch11, istilah multikolinier merupakan adanya hubungan sempurna dan pasti
antar beberapa variabel eksplanatori dalam sebuah model regresi. Ini harus dihindari.
Identifikasi terjadinya multikolinieritas sempurna, jika data sebuah variabel eksplanatori = x
data variabel lain, di mana 0; ini jelas multikolinier yang sempurna, maka salah satu
variabel harus dikeluarlkan dari model.
Untuk mengidentifikasi multikolinier, adalah :
(1) R2 tinggi, tetapi banyak koefisien regresi yang tidak signifikan,
(2) Pada model regresi dengan dua variabel eksplanatori, bisa dilihat dari zero order correlation
anatr kedua variabel tersebut. Jika tinggi, maka diperkirakan muncul mutlikolinier.
(3) Untuk model dengan lebih dari dua variabel eksplanatori, bisa dilihat dari partial
correlation-nya.
(4) Jika R2 tinggi, tetapi partial correlation rendah, masih dimungkinkan terindikasi
multikolinier. Namun jika R2 tinggi, dan partial correlation juga tinggi, maka multikolinier
bisa tidak terdeteksi.
(5) Peneliti dapat meregresi Xi terhadap variabel eksplanatori lainnya yang tersisa. Jika Ri2
tinggi, maka dapat dipastikan bahwa Xi itu multikol dengan variabel-variabel lainnya, maka
buang Xi dari model.
(6) Deteksi terbaru adalah dengan melihat kepada condition index model yang dianalisis secara
stepwise (selangkah demi selangkah variabel dimasukkan ke dalam model). Jika condition
index < 15, maka walaupun ada multikolinier antar variabel eksplanatori, tetapi masih bisa
ditoleransi. Condition index adalah perbandingan eigen value pada model yang berurutan.
Jika terjadi multikolinier yang tidak sempurna, konsekuensinya adalah :
(1) Walaupun estimator OLS diperoleh, standard error cenderung besar,
(2) Akibatnya confidence interval juga makin besar,
11 Firsch, 1975:322.
36
(3) Kemungkinan menerima hipotesis yang keliru (error type II) makin besar,
(4) Standard error makin sensitif untuk berubah jika terjadi perubahan data.
Untuk mendeteksi terjadinya multikolinier, salah caru yang bisa digunakan dari keempat cara
di bawah ini :
(1) R2 yang tinggi (antara 0,7 – 1,0), dengan hanya sedikit koefisien regresi yang signifikan,
walaupun biasanya F juga tinggi.
(2) Untuk dua model regresi dengan variabel eksplanatori, bisa dilihat dari r antar kedua
variabel eksplanatori tersebut, yaitu r signifikan dan cukup tinggi.
(3) Karena multikolinier meningkat yang disebabkan oleh sebuah variabel atau lebih
merupakan kombinasi linier dari variabel eksplanatori lainnya, salah satu cara untuk
menemukan Xi yang multikolinier adalah dengan meregres setiap variabel Xi kepada
variabel eksplanatori lainnya yang tersisa, hitung Ri2. Selanjutnya hitung Fi dengan
formula12 :
Ri2/(k-2)
Fi = (1 - Ri
2/(N-k+1)
Jika F-hitung ini melebihi nilai kritis Fi pada tertentu, ini merupakan indikasi bahwa Xi
multikol terhadap variabel X lainnya., dan belaku sebaliknya. Jika terindikasi multikol,
maka variabel Xi tersebut selayaknya di buang dari model.
Upaya perbaikan jika terjadi multikolinieritas adalah salah satu cara di bawah ini :
(1) Informasi apriori.
Contoh :
Yt = 0 + 1 X1t + 2 X2t + ut
Di mana, Yt = pengeluaran konsumsi,
X1t = penghasilan,
X2t = kesejahteraan.
Seperti diketahui, X1 berkorelasi dengan X2; jika secara apriori (karena ada teori
pendukung atau kajian empiris) kemudian diyakini bahwa 2 = 0,10 1, maka model
itu harus dirubah menjadi :
Yt = 0 + 1 X1t + 0,10 1 X2t + ut
Yt = 0 + 1 X3t + ut
12 Wonacott, 2010:198.
37
Di mana X3t = X1t + 0,10 X2t
(2) Mengkombinasi data data cross section dan time series (kombinasi ini disebut pooled
data)13.
Contoh :
Ln Yt = 0 + 1 ln Pt + 2 ln It + ut . . . . . (persamaan-1)
Di mana Yt = penjualan mobil dalam unit,
Pt = rata-rata harga mobil,
It = pendapatan.
Diperkirakan bahwa Pt dan It berkorelasi linier, dengan data cross section, maka Pt
biasanya tidak banyak bervariasi (karena pengamatan pada suatu titik waktu saja).
Model regresi dapat diubah sebagai :
Yt* = 0 + 1 ln Pt + ut . . . . . . (persamaan-2)
Di mana,
Yt* = ln Yt - 2 ln It, artinya model ini mencoba menghilangkan pengaruh pendapatan
(It). 2 yang digunakan untuk mengkoversi Yt* adalah koefisien pada persamaan-1.
(3) Membuang sebuah variabel atau lebih dan bias spesifikasi.
Membuang variabel yang ditengarai multikol dengan variabel lainnya ini cara
termudah, tetapi mungkin timbul permasalahan baru, yaitu specification bias atau
specification error, karena bertentangan dengan teori yang telah mantap. Untuk itu
cara ini merupakan cara yang tidak populer walaupun paling mudah.
(4) Mentransformasi variabel.
Model : Yt = 0 + 1 X1t + 2 X2t + ut
Dirubah menjadi :
Yt - Yt-1 = 1 (X1t - X1t-1) + 2 (X2t - X2t-1) + vt
Di mana, vt = ut - ut-1
(5) Menambah data atau menggunakan data lebih banyak yang sama sekali baru (ukuran
sampel ditingkatkan).
Dengan memperbanyak data, var( i) akan menurun, sehingga estimasi i akan lebih
jelas dan lebih akurat.
13 Tobin, 1970:113.
38
b. Hetetroskedastis.
Heteroskedastis terjadi jika ekspektasi ut2 : E(ut
2) 2. Varians ut adalah varians Yt, tidak lagi
konstan. Salah satu cara berikut untuk mendeteksi adanya heteroskedastis pada model, yaitu :
(1) Apakah ada var(ut) terlihat berkorelasi dengan variabel-variabel eksplanatori. Jika ada,
maka ini mengindikasikan adanya heteroskedastis.
(2) Metode grafis. Melalui plot atau scatter diagram antara et2 (sumbu Y) dengan Ŷ (sumbu X).
Jika telihat ada pola sistimatis pada plot, maka diperkirakan terjadi heteroskedastis. Cara
ini tidak terlalu disarankan, karena tergantung kepada ketelitian penglihatan mata saja.
(3) Park Test14.
Park memformalkan metode grafik dengan menganggap bahwa i2 merupakan fungsi dari
variabel eksplanatori Xi.
i2 = 2 Xi eui
Atau :
ln t2 = ln 2 + ln Xt + ut
di mana ui = stochastics disturbance.
Karena umumnya, t2 tidak diketahui, Park menyarankan menggunakan et
2 sebagai proksi,
dan menyebabkan fungsi regresi menjadi :
ln et2 = ln 2 + ln Xt + ut
= + ln Xt + ut
Jika signifikan, maka terjadi heteroskedastis pada datanya, dan jika tidak signifikan,
maka tidak terjadi heteroskedastis atau disebut sebagai homoskedastis. Park test
merupakan prosedur dua tahap. Tahap pertama, aplikasikan metode OLS pada regresi
dengan tidak menghiraukan apakah ada heteroskedastis atau tidak. Diperoleh nilai et,
kemudian pada tahap kedua mengaplikasi regresi : ln et2 = ln 2 + ln Xt + ut.
Park test masih memiliki beberapa masalah. Goldfeld dan Quandt15 menyatakan bahwa
jika ut dimasukkan ke dalam tersebut di atas, mungkin tidak sesuai dengan asumsi OLS
dan bisa terjadi heteroskedastis pada ut itu sendiri. Namun demikian, Park test masih bisa
digunakan. Untuk mengilustrasikan Park test, bisa dilihat contoh berikut :
Model regresi : Yt = 0 + 1 X1t + ut
Di mana Y rata-rata gaji (dalam $) dan X = rata-rata produktivitas (dalam $). Hasil analisis
menunjukkan bahwa :
14 Park, R.E, 1966:888. 15 Goldfeld dan kawan-kawan, 1966:93-94.
39
Ŷt = 1999,0466 + 0,2323 X1t + ut
t (2,323) R2 = 0,4356
1 signifikan pada = 0,05, Selanjutnya regresikan et terhadap Xt, hasilnya adalah :
ln et2 = 35,9010 - 2,8099 ln Xt + ut
t (-0,667) R2 = 0,0595
tidak signifikan pada = 0,05. Maka dapat disimpulkan tidak terjadi heteroskedastis.
(4) Glejser Test16.
Glejser test mirip dengan Park test. Setelah memperoleh et seperti pada Park test, maka
Glejser meregres nilai absolut et terhadap X yang diperkirakan memiliki hubungan dengan
i2. Bentuk-bentuk model regresinya adalah salah satu dari bentuk ini :
(a) et = 1 Xt + ut
(b) et = 1 Xt + ut
(c) et = 1 (1/Xt) + ut
(d) et = 1 (1/ Xt) + ut
(e) et = 0 + 1 Xt + ut
(f) et = 0 + 1 Xt + ut
(g) et = 0 + 1 Xt2 + ut
Glejser test masih memiliki beberapa masalah. Goldfeld dan Quandt17 menyatakan bahwa
jika ut dimasukkan ke dalam formula tersebut di atas, mungkin tidak sesuai dengan asumsi
OLS dan bisa terjadi heteroskedastis pada ut itu sendiri. Geljser test boleh dicoba
walaupun tidak disarankan.
(5) Spearman‟s Rank Correlation Test.
Mengkorelasikan et dengan variabel Xi dengan korelasi rank Spearman, jika koefisien
korelasinya signifikan pada penelitian, maka terindikasi pada model terjadi
heteroskedastis. Signifikansi koefisien korelasi dapat diuji dengan t-test :
rs (N - 2)
t = , rs signifikan jika t > tdf,
(1 - rs2)
Untuk menghilangkan heteroskedastis :
(a) Jika i2 diketahui : gunakan weighted least squares (WLS).
Data asli Y dan Xi dibagi dengan 1/ i2. Data asli menjadi Y* dan Xi*, kemudian hitung
xi* = Xi - Xi* dan yt* = Yt - Yt*. Data ini kemudian diregresikan.
16 Glejser, 1996:316-323. 17 Goldfeld dan kawan-kawan, 1966:93-94.
40
(b) Jika i2 tidak diketahui : WLS tidak tepat digunakan.
- tranformasi data dan pilih salah satu model dengan format :
Yt/Xi = 0/Xit + 1 + ui/Xit, atau
Yt/ Xi = 0/ Xit + 1 Xit + ui/ Xit, atau
Yt/E(Yt) = 0/ E(Yt) + 1 Xit/ E(Yt) + ui/ E(Yt), atau
Yt/Ŷt = 0/ Ŷt + 1(Xit/ Ŷt )+ ui, atau transformasi log menjadi :
ln Yt = 0 + 1 ln Xit + ui
c. Otokorelasi
Otokorelasi adalah korelasi antar data antar waktu (time series data) maupun antar ruang
(cross section data). Jika otokorelasi terjadi, maka :
(1) Estimasi koefisien regresai menjadi tidak best linear unbiased estimator (BLUE).
(2) Jika tetap mengaplikasi OLS, walaupun terjadi otokorelasi, maka : estimasi 2
underestimate, atau jika tidak demikian ada kemungkinan varians atau standard error
estimator OLS yang underestimate, dan nilai-t dan nilai-F menjadi tidak valid.
Untuk mendeteksi adanya otokorelasi dapat dipilih salah satu cara :
(1) Metode Grafis.
Cara ini adalah dengan membuat grafik garis ui dari pengamatan yang berurutan. Jika
garis itu membentuk suatu pola tertentu, maka diperkirakan terjadi otokorelasi pada model
regresi. Jika polanya acak, maka dapat diperkirakan tidak terjadi otokorelasi.
Contoh :
Tabel 4.5 Perhitungan Otokorelasi
Tahun Yt Xt et
1991 1,3 1,592 -0,292
1992 1,2 1,134 0,066
1993 1,4 1,706 -0,306
1994 1,4 1,735 -0,335
1995 1,5 1,935 -0,435
1996 1,9 2,221 -0,321
1997 2,6 2,450 0,15
1998 2,3 2,336 -0,036
1999 2,5 2,422 0,078
2000 2,7 2,422 0,278
41
2001 2,1 1,763 0,337
2002 1,8 1,420 0,38
2003 2,2 1,763 0,437
et = errort = Yt - Ŷt tersebut di plot dalam grafik garis berdasar tahun pengamatan :
Gambar 4.3 Grafik Error
Grafik garis et tidak memiliki pola tertentu, maka diperkirakan tidak terjadi otokorelasi.
Namun metode ini tidak disarankan, mengingat sangat tergantung kepada ketelitian mata.
42
Penggunaan Durbin-Watson Test lebih meyakinkan untuk uji otokorelasi.
Statistik Durbin-Watson diformulakan sebagai18 :
(et - et-1)2
d =
et2
Kriteria uji adalah :
0 dL dU 2 4-dU 4-dL 4
Gambar 4.4 Grafik Uji Durbin-Watson
Daerah berarsir adalah daerah di mana ada keraguan apakah menerima hipotesis nol atau
menolaknya. dL = lower limit, dU = upper limit. Nilai dL dan dU pada tertentu, tersedia pada Tabel
Durbin-Watson.
Ada tiga jenis uji otokorelasi, yaitu :
(a) Otokorelasi positif.
H0 : tidak ada otokorelasi positif.
Ha : ada otokorelasi positif.
Kriteria :
- jika d < dL : tolak H0.
- jika d > dU : terima H0.
- jika dL < d < dU : tidak ada keputusan pasti.
(b) Otokorelasi negatif.
H0 : tidak ada otokorelasi negatif.
Ha : ada otokorelasi negatif.
18 Durbin dan kawan-kawan, 2000:159.
43
Kriteria :
- jika d > 4 - dL : tolak H0.
- jika d < 4 - dU : terima H0.
- jika 4- dU < d < 4 - dL : tidak ada keputusan pasti.
(c) Otokorelasi posisitf/negatif.
H0 : tidak ada otokorelasi negatif/positif.
Ha : ada otokorelasi negatif/positif.
Kriteria :
- jika d < dL : tolak H0.
- jika d > 4 - dL : tolak H0.
- jika dU < d < 4 - dU : terima H0.
- jika dL < d < dU : tidak ada keputusan pasti
- jika 4 - dU < d < 4 - dL
Cara perbaikan jika terjadi otokorelasi :
(a) Jika koefisien otokorelasi ( ) diketahui.
Model awal : Yt = 0 + 1 Xt + ut . . . . . . (persamaan 1)
Model lag : Yt-1 = 0 + 1 Xt-1 + ut-1 . . . . . . (persamaan 2)
Kalikan model lag dengan :
Yt-1 = 0 + 1 Xt-1 + ut-1 . . . . . . (persamaan 3)
Kurangi persamaan 2 dengan persamaan 1 :
Yt - Yt-1 = (1 - ) 0 + ( 1 Xt - 1 Xt-1) + (ut - ut-1)
Yt - Yt-1 = (1 - ) 0 + 1 (Xt - Xt-1) + t (persamaan 4)
Buatlah analisis regresi dengan model persamaan 4 ini.
(b) Jika tidak diketahui.
Salah satu cara perbaikan yang bisa dipilih adalah :
(b.1) The first difference method.
Model dimodifikasi menjadi :
Yt = 1 Xt + t, atau bentuk moving average regression :
Yt + Yt-1 Xt + Xt-1 t
= 0 + 1 +
2 2 2
(b.2) berbasis Durbin-Watson.
Hitung terlebih dahulu estimasi dengan formula19 :
19 Theil dan kawan-kawan, 2001: 793-806.
44
N2(1 - d/2) + k2
=
N2 - k2 Kemudian lakukan analisis regresi dengan model persamaan 4 :
Yt - Yt-1 = (1 - ) 0 + 1 (Xt - Xt-1) + t
4.10. Analisis Regresi Selangkah Demi Selangkah (Stepwise Regression)
Sebuah prosedur analisis regresi dengan memasukkan variabel bebas ke dalam variat
selangkah demi selangkah juga dapat dilakukan, jika ternyata hasil analisis regresi dengan prosedur
serempak (full) kurang memadai dalam menjelaskan pengaruh variabel bebas terhadap variabel tak
bebasnya. Dalam prosedur stepwise ada tiga metode : (1) backward, (2) forward, dan (3) F to
Enter dan F to Remove. Tujuan prosedur stepwise ini adalah agar hanya variabel-variabel bebas
yang signifikan dapat menjelaskan perubahan variabel bebasnya.
(1) Prosedur Stepwise
Prosedur backward merupakan prosedur stepwise yang banyak digunakan, dan hanya
dapat dipakai setelah paling sedikit ada sebuah variabel bebas yang masuk ke dalam model. Pilih
variabel bebas dengan koefisien korelasi tertinggi terhadap Y. Selanjutnya model dikembangkan
dengan memasukkan variabel bebas dengan koefisien korelasi tertinggi berikutnya.
Kembali ke contoh kasus Pasto, di mana model regresi yang dibangun adalah :
Yt = 0 + 1 X1t + 2 X2t + 3 X3t + 4 X4t + 5 X5t + 6 X6t + 7 X7t + et
Matriks korelasi antara variabel bebas dengan variabel tak bebas adalah :
Tabel 4.6 Korelasi Antara Variabel Bebas dengan Variabel Y
X1 X2 X3 X4 X5 X6 X7 Y
X1 1,000
X2 -0,349 1,000
X3 0,509 -0,487 1,000
X4 0,054 0,247 -0,088 1,000
X5 0,611 0,514 0,066 0,281 1,000
X6 0,077 0,186 -0,034 0,772 0,240 1,000
X7 -0,483 0,470 -0,448 0,214 -0,053 0,177 1,000
Y 0,676** 0,083 0,558** 0,230* 0,701** 0,257** -0,192 1,000
Variabel X5 memiliki korelasi tertinggi dengan Y = 0,701, berikutnya dalah variabel X1.
Namun variabel X5 ini berkorelasi cukup tinggi dengan X1 = 0,611. Dengan demikian X1 dan X5
tidak dimasukkan bersama-sama ke dalam model. Pilih variabel X5, sehingga model awal yang
diproses adalah :
Yt = 0 + 5 X5t + et
45
Printout SPSS, merupakan hasil analisis regresi adalah :
Coefficientsa
Model
Unstandardized
Coefficients
Standardized
Coefficients t Sig.
Correlations
B Std. Error Beta Zero-order
Partial Part
1 (Constant) 21,635 2,596 8,334 0,000
X5 8,389 0,862 0,701 9,731 0,000 0,701 0,701 0,701 a. Dependent Variable: Y
ANOVAa
Model Sum of Squares
df Mean Square F Sig.
1
Regression 3931,428 1 3931,428 94,691 0,000b
Residual 4068,828 98 41,519
Total 8000,256 99 a. Dependent Variable: Y b. Predictors: (Constant), X5
Model Summary
Model R R Square Adjusted R
Square
Std. Error of
the Estimate
Change Statistics
R Square Change
F Change
df1 df2 Sig. F
Change
1 0,701a 0,491 0,486 6,4435 0,491 94,691 1 98 0,000 a. Predictors: (Constant), X5
Hasil analisis memperlihatkan X5 memiliki koefisien yang signifikan (t = 9,731 dengan
probabilitas signifikansi = 0,000. Model regresi dapat dituliskan sebagai berikut :
Yt = 21,635 + 8,389 X5t + et
Selanjutnya, memasukkan variabel X3 dengan koefisien korelasi dengan Y = 0,558 ke
dalam model, sehingga model regresinya menjadi :
Yt = 0 + 3 X3t + 5 X5t + et
Hasil analisis memperlihatkan printout berikut :
Coefficientsa
Model
Unstandardized
Coefficients
Standardized
Coefficients t Sig.
Correlations
B Std. Error Beta Zero-order
Partial Part
1 (Constant) 21,635 2,596 8,334 0,000
X5 8,389 0,862 0,701 9,731 0,000 0,701 0,701 0,701
2
(Constant) -3,501 3,059 -1,145 0,255
X5 7,985 0,603 0,667 13,237 0,000 0,701 0,802 0,666
X3 3,334 0,327 0,514 10,201 0,000 0,558 0,719 0,513 a. Dependent Variable: Y
46
Model Summary
Model R R Square Adjusted R
Square
Std. Error of
the Estimate
Change Statistics
R Square Change
F Change df1 df2 Sig. F
Change
1 0,701a 0,491 0,486 6,4435 0,491 94,691 1 98 0,000
2 0,869b 0,755 0,750 4,4984 0,263 104,069 1 97 0,000 a. Predictors: (Constant), X5 b. Predictors: (Constant), X5, X3
ANOVAa
Model Sum of Squares
df Mean Square F Sig.
1
Regression 3931,428 1 3931,428 94,691 ,000b
Residual 4068,828 98 41,519
Total 8000,256 99
2
Regression 6037,366 2 3018,683 149,174 ,000c
Residual 1962,890 97 20,236
Total 8000,256 99 a. Dependent Variable: Y b. Predictors: (Constant), X5 c. Predictors: (Constant), X5, X3
Model regresi dapat dituliskan sebagai berikut :
Yt = -3,501 + 3,374 X3t + 7,985 X5t + et
Nilai F dan t, memperlihatkan bahwa model dengan dua variabel ini masih memadai untuk
diinterpretasikan. Selanjutnya, masukkan variabel X6 dengan koefisien korelasi terhadap Y = 0,257,
sehingga model regresinya menjadi :
Yt = 0 + 3 X3t + 5 X5t + 6 X6t + et
Hasil analisis memperlihatkan printout berikut :
Coefficientsa
Model
Unstandardized
Coefficients
Standardized
Coefficients t Sig.
Correlations
B Std. Error Beta Zero-
order Partial Part
1 (Constant) 21,635 2,596 8,334 0,000
X5 8,389 0,862 0,701 9,731 0,000 0,701 0,701 0,701
2
(Constant) -3,501 3,059 -1,145 0,255
X5 7,985 0,603 0,667 13,237 0,000 0,701 0,802 0,666
X3 3,334 0,327 0,514 10,201 0,000 0,558 0,719 0,513
3
(Constant) -6,569 3,246 -2,024 0,046
X5 7,629 0,607 0,638 12,570 0,000 0,701 0,789 0,617
X3 3,373 0,319 0,520 10,561 0,000 0,558 0,733 0,518
X6 1,422 0,591 0,122 2,408 0,018 0,257 0,239 0,118 a. Dependent Variable: Y
47
Model Summary
Model R R Square Adjusted R
Square
Std. Error
of the Estimate
Change Statistics
R Square Change
F Change df1 df2 Sig. F
Change
1 0,701a 0,491 0,486 6,4435 0,491 94,691 1 98 0,000
2 0,869b 0,755 0,750 4,4984 0,263 104,069 1 97 0,000
3 0,877c 0,769 0,761 4,3911 0,014 5,800 1 96 0,018 a. Predictors: (Constant), X5 b. Predictors: (Constant), X5, X3 c. Predictors: (Constant), X5, X3, X6
ANOVAa
Model Sum of Squares df Mean Square F Sig.
1
Regression 3931,428 1 3931,428 94,691 0,000b
Residual 4068,828 98 41,519
Total 8000,256 99
2
Regression 6037,366 2 3018,683 149,174 0,000c
Residual 1962,890 97 20,236
Total 8000,256 99
3
Regression 6149,195 3 2049,732 106,303 0,000d
Residual 1851,062 96 19,282
Total 8000,256 99 a. Dependent Variable: Y b. Predictors: (Constant), X5 c. Predictors: (Constant), X5, X3
d. Predictors: (Constant), X5, X3, X6
Model regresi final dapat dituliskan sebagai berikut :
Yt = -6,569 + 3,373 X3t + 7,629 X5t + 1,422 X6t + et
se( i) (3,246) (0,319) (0,607) (2,408)
t (-2,024) (10,561) (12,570) R2 (76,90%) Adjusted R2 (76,105%)
F (106,303)
Nilai F dan t, memperlihatkan bahwa model dengan tiga variabel ini masih memadai untuk
diinterpretasikan. Selanjutnya tidak ada lagi variabel bebas yang bisa dimasukkan ke dalam model,
mengingat koefisien korelasinya kecil dan tidak signifikan.
(2) Uji Asumsi Klasik
Selanjutnya perlu dilakukan uji asumsi analisis regresi, yaitu : (a) multikolineritas, (b)
homoskedastisitas dan (c) otokorelasi. Bisa juga dilengkapi dengan uji linieritas dan normalitas.
(a) uji asumsi multikolinieritas, dengan melihat pada nilai Variance Inflation Factor (VIF)
setiap variabel bebas.
48
VIF adalah kebalikan dari tolerance, jika mendekati 1, maka tidak terindikasi terjadi
multikolinier. Makin besar nilai VIF mengindikasikan adanya multikolinieritas antar variabel
bebas.
Coefficientsa
Model
Unstandardized Coefficients
Standardized Coefficients t Sig.
Collinearity Statistics
B Std. Error Beta Tolerance VIF
1 (Constant) 21,635 2,596 8,334 0,000
X5 8,389 0,862 0,701 9,731 0,000 1,000 1,000
2
(Constant) -3,501 3,059 -1,145 0,255
X5 7,985 0,603 0,667 13,237 0,000 0,996 1,004
X3 3,334 0,327 0,514 10,201 0,000 0,996 1,004
3
(Constant) -6,569 3,246 -2,024 0,046
X5 7,629 0,607 0,638 12,570 0,000 0,937 1,067
X3 3,373 0,319 0,520 10,561 0,000 0,993 1,007
X6 1,422 0,591 0,122 2,408 0,018 0,940 1,064 a. Dependent Variable: Y
VIF untuk X3 = 1,007; ini berasal dari 1/0,993 = 1,007; demikian pula untuk variabel bebas
lainnya. Disimpulkan tidak terjadi multikolinieritas, artinya perhitungan koefisien regresi tidak
terkontaminasi oleh adanya multikolinier.
(b) Uji asumsi homoskedastisitas, melalui pendekatan plot antara Ŷ dengan studentized
residual. Hasil plot dengan SPSS adalah :
Gambar 4.5 Plot Studentized Residual Untuk Uji Homoskedastis
49
Hasil plot di atas ini tidak memperlihatkan adanya pola peningkatan atau penurunan
residual. Kondisi ini dapat dinyatakan sebagai homoskedastis. Tidak ada indikasi heteroskedastis.
(c) Uji asumsi linieritas, melalui pendekatan plot yang sama dengan Gambar 5.5. Tidak
terlihat adanya pola non linier, ini mengindikasikan bahwa persamaan regresi secara
keseluruhan bersifat linier. Untuk lebih meyakini linieritas ini, bisa dilakukan plot regresi
sederhana parsial antara Y dengan X3, X5 dan X6. Hasil plot Y dengan masing-masing
variabel bebas ini adalah :
Gambar 4.6 Plot Regresi Parsial Untuk Uji Linieritas
Plot untuk X3 dan X5 lebih jelas polanya (pola linier), sedangkan untuk X6, polanya sedikit
tidak jelas (perhatikan : konstanta, koefisien regresi dan signifikansinya lebih kecil); namun
tetap tidak mengindikasikan pola non linier.
(d) Uji asumsi otokorelasi, dilakukan melalui pendekatan nilai Durbin-Watson. Ini bisa dilihat jika pada sub menu Statistic - menu Analisis Regresi di SPSS di-klik :
50
Model Summaryd
Model R R
Square Adjusted R
Square
Std. Error of the
Estimate
Change Statistics Durbin-Watson
R Square
Change F Change df1 df2
Sig. F
Change
1 0,701a 0,491 0,486 6,4435 0,491 94,691 1 98 0,000
2 0,869b 0,755 0,750 4,4984 0,263 104,069 1 97 0,000
3 0,877c 0,769 0,761 4,3911 0,014 5,800 1 96 0,018 1,914
Perhatikan nilai Durbin-Watson = 1,914. Gunakan uji satu sisi (otokorelasi positif),
bandingkan nilai itu dengan nilai DW pada Tabel DW (misal pada = 0,05, n = 100, k =
3). DU = 1,736, DL = 1,613. Tabel ini ada pada hampir sebagian besar buku Statistik.
Selanjutnya gunakan grafik DW :
(1,613) (1,736) 1,914 (2) (2,264) (2,387)
Gambar 4.7 Uji Otokorelasi Positif
d = 1,914 > DU, maka terima H0 yang menyatakan tidak ada otokorelasi positif. Dapat
dinyatakan bahwa tidak terjadi pelanggaran asumsi ini pada fungsi regresi yang dihasilkan.
(e) Uji asumsi normalitas, dilakukan melalui pendekatan plot residual atau selisih antara Yi
dengan Ŷi. Hasil plotting adalah :
51
Gambar 4.8 Uji Normalitas
Seluruh titik plot residual berada di sekitar garis diagonal, ini mengindikasikan bahwa
residual berdistribusi normal. Dengan demikian, model regresi yang dihasilkan memenuhi
asumsi normalitas.
(f) Outlier, merupakan pengamatan yang memberikan dampak tidak proporsional terhadap
hasil analisis regresi. Data pengamatan outlier selayaknya tidak digunakan (diabaikan).
Pendekatan yang digunakan melalui grafik garis studentized residual pada seluruh
pengamatan. Pada = 0,05, nilai z pada Tabel Z = 1,96 atau dibulatkan 2,00. Ini
merupakan batas atas dan batas bawah nilai studentized residual. Data pengamatan
dinyatakan outlier, jika < -2,00 atau > + 2,00. Hasil penyusunan grafik garis pada seluruh
pengamatan adalah :
52
11
14 100
7
Gambar 4.9 Indikasi Outlier
Terlihat pada grafik tersebut di atas, bahwa pengamatan no. 7, 11, 14 dan 100 merupakan
outlier. Keempat data pengamatan itu harus dibuang, dan lakukan kembali analisis regresi
tanpa keempat data tersebut.
4.11. Analisis Regresi Confirmatori (Confirmatory Regression)
Pendekatan konfirmatori adalah dengan melibatkan ketujuh variabel bebas ke dalam
model, karena peneliti berkepentingan untuk mengendalikan variat regresi baik untuk ekplanasi
maupun untuk prediksi. Pendekatan konfirmatori ini sangat cocok untuk penelitian replikasi atau
juga bisa dianggap sebagai validasi dari penelitian sebelumnya.
Hasil aplikasi program SPSS, printoutnya adalah :
53
Coefficientsa
Model Unstandardized Coefficients
Standardized
Coefficients t Sig. B Std. Error Beta
1
(Constant) -10,189 4,930 -2,067 0,042 X1 -0,022 2,000 -0,003 -0,011 0,991 X2 -0,659 2,080 -0,088 -0,317 0,752
X3 3,364 0,410 0,519 8,209 0,000 X4 -0,025 0,661 -0,003 -0,037 0,970 X5 8,300 3,892 0,694 2,132 0,036
X6 1,282 0,913 0,110 1,405 0,163 X7 0,556 0,356 0,098 1,560 0,122
a. Dependent Variable: Y
ANOVAa
Model Sum of Squares
df Mean Square F Sig.
1
Regression 6200,361 7 885,766 45,275 0,000b
Residual 1799,895 92 19,564 Total 8000,256 99
a. Dependent Variable: Y b. Predictors: (Constant), X7, X5, X6, X3, X4, X2, X1
Model Summary
Model R R
Square Adjusted R
Square
Std. Error
of the Estimate
Change Statistics
R Square Change
F Change df1 df2 Sig. F
Change
1 0,880a 0,775 0,758 4,4231 0,775 45,275 7 92 0,000 a. Predictors: (Constant), X7, X5, X6, X3, X4, X2, X1
Hasil ini mirip dengan hasil prosedur stepwise, kecuali bahwa R2 = 0,775 meningkat
dibanding R2 sebelumnya = 0,769; ini disebabkan karena lebih banyak variabel yang dilibatkan
dalam model (di lain pihak adjusted R2 menurun dari 0,761 menjadi 0,758). Ini juga
mengindikasikan bahwa penambahan variabel bebas, tidak signifikan koefisiennya. Hal tersebut
bisa juga dilihat dari nilai standard error of estimate (SEE)-nya meningkat dari 4,391 menjadi
4,423. Pelibatan lebih banyak variabel bebas juga menimbulkan adanya multikolinieritas yaitu
antara X4 dan X6. Dengan prosedur konfirmatori, hanya ada dua variabel yang signifikan (X3 dan
X5). Regresi konfirmatori ini lebih baik dalam hal eksplanasi (menjelaskan pengaruh seluruh variabel
bebas kepada Y), namun untuk keperluan prediksi, lebih buruk karena SEE yang lebih tinggi. Mana
yang lebih benar, tergantung tujuan peneliti.
Seandainya untuk keperluan konfirmatori, peneliti menambahkan sebuah variabel dummy
(X8, ukuran perusahaan dalam katagori besar = 1 dan kecil = 0) pada prosedur stepwise, maka
hasilnya adalah :
54
Coefficientsa
Model Unstandardized Coefficients
Standardized Coefficients t Sig.
B Std. Error Beta
1 (Constant) 21,635 2,596 8,334 0,000
X5 8,389 0,862 0,701 9,731 0,000
2
(Constant) -3,501 3,059 -1,145 0,255
X5 7,985 0,603 0,667 13,237 0,000
X3 3,334 0,327 0,514 10,201 0,000
3
(Constant) -12,871 4,174 -3,083 0,003
X5 8,415 0,593 0,703 14,186 0,000
X3 4,173 0,411 0,644 10,156 0,000
X8 3,725 1,183 0,204 3,149 0,002
4
(Constant) -16,295 4,255 -3,830 0,000
X5 8,056 0,592 0,673 13,617 0,000
X3 4,235 0,399 0,653 10,602 0,000
X8 3,818 1,149 0,209 3,323 0,001
X6 1,479 0,562 0,127 2,632 0,010 a. Dependent Variable: Y
ANOVAa Model Sum of Squares df Mean Square F Sig.
1
Regression 3931,428 1 3931,428 94,691 0,000b
Residual 4068,828 98 41,519
Total 8000,256 99
2
Regression 6037,366 2 3018,683 149,174 0,000c
Residual 1962,890 97 20,236
Total 8000,256 99
3
Regression 6221,104 3 2073,701 111,893 0,000d
Residual 1779,153 96 18,533
Total 8000,256 99
4
Regression 6341,998 4 1585,499 90,832 0,000e
Residual 1658,259 95 17,455
Total 8000,256 99 a. Dependent Variable: Y b. Predictors: (Constant), X5 c. Predictors: (Constant), X5, X3 d. Predictors: (Constant), X5, X3, X8 e. Predictors: (Constant), X5, X3, X8, X6
Model Summary
Model R R Square Adjusted R
Square Std. Error of the Estimate
Change Statistics
R Square Change
F Change
df1 df2 Sig. F
Change
1 0,701a 0,491 0,486 6,4435 0,491 94,691 1 98 0,000
2 0,869b 0,755 0,750 4,4984 0,263 104,069 1 97 0,000
3 0,882c 0,778 0,771 4,3050 0,023 9,914 1 96 0,002
4 0,890d 0,793 0,784 4,1780 0,015 6,926 1 95 0,010 a. Predictors: (Constant), X5 b. Predictors: (Constant), X5, X3 c. Predictors: (Constant), X5, X3, X8 d. Predictors: (Constant), X5, X3, X8, X6
Berdasar printout tersebut di atas, fungsi regresi dapat dituliskan sebagai berikut :
55
Yt = -16,295 + 4,235 X3t + 8,056 X5t + 1,479 X6t + 3,813 X8t + et
se( i) (4,255) (0,399) (0,592) (0,562) (1,149)
t (-3,830) (10,602) (13,617) (2,632) (3,323) R2 (79,30%)
Adjusted R2 (78,40%) F (90,832)
Koefisien ukuran perusahaan positif signifikan mengindikasikan bahwa pada perusahaan
besar penggunaan produknya lebih tinggi daripada perusahaan kecil.
4.12. Analisis Regresi Logistik
(1). Introduksi
Banyak topik penelitian penting untuk variabel dependen yang "limited" (diskret dan tidak
kontinyu). Peneliti sering kali ingin menganalisis apakah sebuah peristiwa terjadi atau tidak terjadi,
seperti voting, partisipasi, kepada program masyarakat, keberhasilan atau kegagalan bisnis, tingkat
kematian, bencana alam dan lain sebagainya.
Jika variabel dependen merupakan variabel non metrik, maka Analisis Diskriminan adalah
alat analisis yang sesuai diaplikasi. Namun, jika variabel dependen hanya terdiri atas dua kelompok,
maka Analisis Regresi Logistik lebih sesuai untuk diaplikasi karena berbagai alasan. Pertama,
Analisis Diskriminan berbasis kepada asumsi bahwa antar kelompok beridstirbusi multivariat normal
dan memiliki matriks varians-kovariansi yang seimbang, di mana asumsi ini tidak akan berlaku
kepada kedua kelompok biner. Kedua, walaupun asumsi tersebut bisa dibuktikan kepada data,
banyak peneliti yang lebih menyukai regresi logistik karena mirip sekali dengan analisis regresi.
Keduanya memiliki uji statistik yang secara langsung dapat diamati, dengan mempertimbangkan
adanya efek non linier. Untuk alasan-alasan ini dan alasan teknis lainnya, Analisis Regresi Logistik
setara dengan Analisis Dsikriminan Dua Kelompok dan bisa lebih sesuai pada banyak situasi.
Regresi biner logit adalah suatu jenis analisis regresi di mana variabel dependen
merupakan sebuah dummy variable yang bersifat biner (yang diberi kode 0, atau 1).
a. The Linear Probability Model (LPM)
"Kenapa saya harus menggunakan ordinary least squares?" Pertanyaan yang bagus.
Perhatikan model probabilistik linier berikut :
Yi = + Xi + ei . . . . . (4.16)
Di mana
Yi variabel dependen dummy, =1 jika peristiwa itu terjadi, =0 jika tidak terjadi,
adalah konstanta,
56
adalah koefisien variabel independen,
Xi adalah variabel independen,
ei adalah error term.
Menggunakan LPM secara umum memberikan jawaban yang benar terbatas kepada tanda
matematis dan signifikansi koefisiennya. Probabilitas yang diprediksi melalui model biasanya
menimbulkan persoalan. Ada tiga persoalan yang timbul dari penggunaan LPM, yaitu :
(a) Error terms (ei) bersifat heteroskedastik (heteroskedasticity terjadi jika varians variabel
dependen berbeda dengan nilai variabel independen yang berbeda pula): var(ei)= p(1-p),
di mana p adalah probabilitas peristiwa =1. Karena P tergantung pada asumsi klasik regresi
yang menyatakan bahwa error term tidak tergantung pada pelanggaran X.
(b) ei tidak berdistribusi normal karena Y hanya memiliki dua kemungkinan nilai (1 atau 0), dan
ini melanggaran asumsi klasik regresi lainnya.
((cc)) Prediksi probabilitas biasa lebih besar 1 atau kurang dari 0, dan bisa menjadi persoalan jika
nilai yang diprediksi tersebut digunakan dalan analisis yang berurutan. Beberapa orang
mencoba untuk mengatasi persoalan ini dengan mengatur probabilitas dari lebih besar
(atau kurang dari) 1 atau 0 menjadi sama dengan 1 atau 0. Nilai-nilai ini ditujukan agar
interpretasinya terbatas kepada terjadi atau tidak terjadi peristiwa yang diprediksi menjadi
persoalan yang meyakinkan.
b. Model Regresi Logistik Biner
Model logit menjawab persoalan berikut :
ln[p/(1-p)]i = + Xi + ei atau
[p/(1-p)]i = exp( + Xi + ei)
Di mana :
ln adalah natural logarithm, logexp, di mana exp=2.71828…
p adalah probabilitas terjadinya peristiwa Yi, p(Yi=1)
p/(1-p) adalah odds ratio
ln[p/(1-p)] adalah log odds ratio, atau logit
seluruh komponen lain dari model adalah sama.
Logistic regression model berupaya menyederhanakan transformasi non-linear dari regresi
linier. Distribusi logistik adalah fungsi distribusi berbentuk-S yang mirip kepada distribusi standard-
normal (seperti dihasilkan dalam LPM) tetapi lebih mudah dikerjakan. Distribusi logit membatasi
estimasi probabilitas antara 0 sampai dengan 1.
57
Sebagai contoh, estimasi probabilitas :
p = 1/[1 + exp(- - Xi)]
Dengan bentuk fungsional :
jika + Xi = 0, maka p = .50
untuk - - Xi sangat besar, p mendekati 1
untuk - - Xi sangat kecil, p mendekati 0.
Model logistik biner dapat diselesaikan dengan prosedur Logistic Regression procedure atau
prosedur Multinomial Logistic Regression. Setiap prosedur memiliki opsi yang tidak dimiliki oleh
lainnya. Perbedaan teoritik yang penting adalah bahwa prosedur Logistic Regression menghasilkan
seluruh prediksi, residual, statistik pengaruh, dan uji goodness-of-fit dengan menggunakan data
kasus individual, tanpa mempertimbangkan bagaimana data dimasukkan dan apakah banyaknya
pola kovariat lebih kecil daripada banyaknya kasus, atau tidak. Sementara prosedur Multinomial
Logistic Regression secara internal memanfaatkan seluruh kasus untuk membentuk subpopulation
dengan pola kovariat yang mirip untuk memprediksi pola prediktor, menghasilkan prediksi, residual,
dan uji goodness-of-fit didasarkan kepada subpopulation tersebut.
Jika seluruh prediktor bersifat katagorial atau beberapa prediktor kontinyu memiliki nilai
terbatas (sehingga ada beberapa kasus pada setiap pola kovariat yang berbeda), pendekatan
subpopulation dapat menghasilkan uji goodness-of-fit yang valid serta residual yang informatif,
sementara pada pendekatan dengan kasus individual tidak bisa menghasilkan seperti itu.
Fitur unik pada model regresi logistik biner, adalah :
(a) Uji Hosmer-Lemeshow untuk kesesuaian model,
(b) Analisis Stepwise,
(c) Kontras untuk mendefinisikan parameterisasi model,
(d) Titik potong alternatif untuk pengklasifikasian,
(e) Plot klasifikasi,
(f) Kesesuaian model pada satu rangkaian pengamatan untuk membuang serangkaian data,
(g) Menyimpan prediksi, residual, dan statistik pengaruh.
Fitur unik pada model Multinomial Logistic Regression adalah :
(a) Uji chi-square Pearson dan penyimpangannya untuk kesesuaian model,
(b) Spesifikasi subpopulation dalam mengelompokkan data untuk uji kesesuaian model,
(c) Daftar perhitungan, hitungan prediksi, dan residual pada subpopulation,
(d) Koreksi estimasi varians untuk over-dispersion,
(e) Matriks kovarians dari estimasi parameter,
58
(f) Uji kombinasi linier parameter,
(g) Spesifikasi tertentu untuk model nested,
(h) Kesesuaian 1-1 model regresi logistik dengan menggunakan variabel-variabel yang dibedakan.
(2). Representasi Variabel Dependen Biner
Dalam Analisis Diskriminan, karakter non metriks pada variabel bebas dikotomi
diakomodasi melalui prediksi keanggotaan kelompok berbasis kepada skor diskriminan, Z. Ini
membutuhkan perhitungan skor pemisah (cutting score) dan perhitungan prediksi Z kepada setiap
anggota pada kelompok-kelompok. Analisis Regresi Logistik juga melakukan hal yang sama namun
lebih mirip dengan perhitungan pada analisis regresi berganda. Perbedaannya, yang diestimasi
adalah probabilitas kejadian peristiwa. Walupun probabilitas merupakan ukuran metriks, namun
tetap ada perbedaannya dengan Analisis Regresi Linier Berganda, sebab nilai probabilitas memiliki
selang antara 0 sampai dengan 1. Bentuk fungsinya lebih merupakan bentuk S. Pada tingkat
variabel independen terendah, probabilitas mendekati nol. Peningkatan variabel independen,
probabilitas juga meningkat, tetapi dengan slope yang menurun, sehingga probabilitas mendekati
satu. Kurve probabilitas variabel dependen dapat digambarkan sebagai gambar berikut :
1
0
Rendah Tinggi
Gambar 4.10 Kurve Probabilitas Variabel Dependen
Seperti telah diketahui, fungsi regresi linier tidak dapat mengakomodasi hubungan yang
non linier, dan pada situasi-situasi tertentu tidak dapat dianalisis dengan regresi ordinary, sebab
akan terjadi pelanggaran kepada banyak asumsi. Pertama, error variabel diskret lebih berdistribusi
binomial dibanding berdistribusi normal, sehingga menjadi tidak valid pada berbagai uji statistik
yang berdasar kepada distribusi normal. Kedua, varians dari variabel dikotomi tidak konstan,
sehingga menimbulkan heteroskedastisitas. Regresi logistik telah dikembangkan dengan baik untuk
menjawab persoalan tersebut di atas. Hubungan yang unik antara variabel independen – dependen
Pro
babili
tas
Variabel D
ependen
59
membutuhkan pendekatan yang berbeda pada tahap estimasi parameter, penilaian kecocokan
model, dan menginterpretasi kofisien.
(3). Estimasi Koefisien Regresi Logistik Dengan MLE
Regresi berganda menggunakan teknik least squares, yang meminimumkan jumlah selisih
kuadrat antara nilai prediksi Y dengan Y aktual. Regresi logistik yang non linier membutuhkan
prosedur estimasi yang berbeda, yaitu : prosedur maximum likelihood, yang digunakan secara
iteratif untuk memperoleh estimasi koefisien regresi yang paling mendekati.
Prosedur untuk mengestimasi koefisien, bagaimanapun masih agak mirip dengan prosedur
pada model regresi non linier. Untuk mengestimasi koefisien, kurve yang berbentuk S tersebut
dicocokkan kepada data aktual.
1
0
X
Gambar 4.11 Kurve Probabilitas Variabel Dependen
Maximum likelihood estimation (MLE) adalah sebuah metode statistikis untuk estimasi
koefisien dari sebuah model. MLE biasanya digunakan sebagai suatu alternatif untuk non-linear
least squares pada persamaan nonlinear.
Fungsi likelihood (L) mengukur probabilitas serangkaian variabel dependen yang diamati
(p1, p2, ..., pn) yang muncul pada sampel. Penulisannya sebagai probabilitas perkalian variable
dependen :
L = Prob (p1* p2* * * pn)
Makin tinggi fungsi likelihood, maka makin tinggi pula probabilitas (p) dalam sampel. MLE
melakukan perhitungan koefisien ( , ) yang membuat logaritma fungsi likelihood (LL < 0) sebesar
Pro
babili
tas
Variabel D
ependen
60
+
mungkin atau -2 kali logaritma fungsi likelihood (-2LL) sekecil mungkin. MLE membuat penyelesaian
kondisi berikut :
{Y - p(Y=1)}Xi = 0, dijumlahkan dari seluruh pengamatan (observasi).
Persamaan-1 merupakan model dikotomi, Yi merupakan fungsi linier dari Xi, disebut sebagai linear
probability model (LPM), karena E(Yi Xi), ekspektasi kondisional Yi pada Xi tertentu, dapat
diinterpretasikan sebagai conditional probability even tersebut pada nilai Xi tertentu. Pr(Yi=1 Xi).
E(Yi Xi) menjelaskan probabilitas terjadinya peristiwa pada Xi tertentu. Justifikasi sebutan LPM untuk
Model-1 tersebut di atas dapat dilihat sebagai berikut :
Dengan asumsi E(ei) = 0, akan diperoleh :
E(Yi Xi) = + Xi . . . . . (4.17)
Jika Pi = probabilitas yang menyatakan Yi = 1 (artinya, peristiwa itu terjadi) dan 1 – Pi =
probabilitas yang menyatakan Yi = 0 (artinya, peristiwa itu tidak terjadi), maka variabel Yi memiliki
distribusi sebagai berikut :
Yi Probability
0 1 - Pi
1 Pi
1
Selanjutnya dapat dituliskan secara matematis hubungan seperti berikut :
E(Yi) = 0(1 – Pi) + 1(Pi) = Pi . . . . . (4.18)
Hasil perbandingan Persamaan-2 dan Persamaan-3 akan menghasilkan :
E(Yi Xi) = + Xi = Pi
Dengan demikian, ekspektasi kondisional dari Persamaan-1, dapat diinterpretasikan sebagai
probabilitas kondisional dari Yi. Pi berada antara 0 dan 1, maka :
0 < E(Yi Xi) < 1
(1) Estimasi LPM
Persamaan-5.16 tampak seperti model regresi lainnya, dengan demikian parameternya dapat
diestimasi seperti biasanya dengan pendekatan OLS. Tetapi ada beberapa persoalan yang
harus dihadapi, yaitu :
(a). Nonnormality of the disturbances, ei. Walaupun OLS tidak mensyaratkan ei harus
berdistribusi normal, tetapi tetap harus diasumsikan bahwa distribusi ei adalah normal,
untuk keperluan uji hipotesis dan lain-lain. Namun demikian, asumsi normalitas ei tidak bisa
dipertahankan dalam LPM, karena Yi dan ei diambil dari hanya dua nilai. Ini terlihat dari
hubungan berikut :
61
ei = Yi - - Xi
jika Yi = 1, maka : ei = 1 - - Xi
jika Yi = 0, maka : ei = - - Xi
Jelas sekali, bahwa ei tidak dapat diasumsikan berdistribusi normal.
Tetapi ketidak mampuan untuk memenuhi asumsi normalitas tidak menjadi hal yang kritis,
sebab estimasi titik dengan OLS tetap tidak bias oleh karena hal tersebut. Lebih jauh lagi,
jika ukuran sampel meningkat secara tidak terbatas, maka estimator OLS cenderung akan
didistribusikan normal. Dengan demikian, pada ukuran sampel yang besar, statistik
inferensial untuk LPM akan mengikuti prosedur OLS di bawah asumsi normal.
(b) Heteroscedastic variances of the disturbances. Walaupun E(ei) = 0 dan E(ei,ej) = 0 untuk i
≠ j (tidak korelasi serial), tetap saja tidak dapat dijamin bahwa ei homoskedastis. Ini
terlihat dari distribusi probabilitas berikut ini :
ei Probability
- - Xi 1 - Pi
1 - - Xi Pi
1
Distribusi probabilitas di atas mengikuti distribusi probabilitas untuk Yi tertentu. Mengingat
definisi :
Var(ei) = E[ei – E(ei)]2
= E(ei2) untuk E(ei) = 0 berdasar asumsi, maka dengan menggunakan distribusi
probabilitas ei, akan diperoleh hubungan :
var(ei) = E(ei2) = (- - Xi)
2(1 – Pi) + (1 - - Xi)2(Pi)
= (- - Xi)2(1 - - Xi)
2 + (1 - - Xi)2( + Xi)
= ( + Xi) (1 - - Xi)
atau :
var(ei) = E(Yi Xi)[1 – E(Yi Xi)]
= Pi (1 – Pi) . . . . . (4.19)
di mana, E(Yi Xi) = + Xi = Pi. Persamaan-4 tersebut menunjukkan bahwa varians ei
heteroskedastik, karena tergantung kepada ekspektasi kondisional Y, yang tentu
tergantung kepada berapa nilai X. Maka dapat dikatakan bahwa varians ei tergantung nilai
X dan itu menunjukkan bahwa tidak homoskedastik.
Sekarang dapat diketahui bahwa dengan adanya heteroskedastik pada estimator OLS,
walaupun tidak bias, tetapi tidak efisien; maka dengan demikian tidak menghasilkan
62
varians minimum. Tetapi, sekali lagi, persoalan heteroskedastik ini tidak menyulitkan,
karena ada cara-cara untuk menangani jika terjadi hal yang demikian. Salah satu cara
untuk mengatasi terjadinya heteroskedastik adalah mentransformasi data dengan cara
membaginya dengan :
√ E(Yi Xi)[1 - E(Yi Xi)] = √Pi (1 – Pi), atau disimbulkan dengan √wi
Maka Persamaan-1 akan berubah dalam bentuk :
Yi Xi ei
= + + . . . . . (4.20)
√wi √wi √wi √wi
Disturbance pada Persamaan-4.20 di atas sekarang akan homoskedastik, sehingga
penggunaan prosedur OLS pada LPM telah benar.
E(Yi Xi) yang benar tidak diketahui, sehingga wi juga tidak diketahui. Untuk mengestimasi
wi, dilakukan dengan prosedur berikut :
Langkah-I : aplikasikan OLS pada Persamaan-4.16 (walaupun terjadi heteroskedastik),
untuk memperoleh Ŷi. Kemudian hitung ŵi = Ŷi (1 – Ŷi), sebagai estimasi wi.
Langkah-II : gunakan ŵi untuk mentransformasi data seperti pada Persamaan-4.20.
Kemudian aplikasi regresi dengan prosedur OLS pada data yang telah transformasi.
(c) Nonfullfillment of 0 < E(Yi Xi) < 1. Karena E(Yi Xi) dalam LPM mengukur probabilitas
kondisional dari terjadinya Y pada X tertentu, maka diharuskan nilainya terbatas berada
pada rentang antara 0 dan 1. Walaupun ini secara apriori benar, namun tidak ada jaminan
bahwa Ŷi akan memenuhi pembatasan ; ini merupakan persoalan utama penggunaan OLS
pada LPM. Ada dua cara untuk mencapai hasil agar Ŷi berada di antara 0 dan 1, yaitu : (1)
estimasikan LPM dengan OLS dan tentukan apakah Ŷi bernilai antara 0 dan 1. Jika ada nilai
Ŷi yang negatif, maka Ŷi diasumsikan = 0; (2) rencanakan teknik estimasi yang dapat
menjamin bahwa probabilitas kondisional Ŷi bernilai antara 0 dan 1. Salah satu prosedur
yang dapat dicobakan adalah model berikut :
Pi Ln = + ln Xi
1 - Pi
Atau :
[Pi/(1-Pi)] = exp( + Xi + ei)
Di mana,
Ln adalah natural logarithm, logexp, dengan exp = 2,71828
Pi adalah probabilitas kondisional terjadinya Yi, P(Yi = 1)
Pi/(1 - Pi) adalah odds ratio
63
ln[Pi/(1 - Pi)] adalah log odds ratio, atau "logit".
LPM menyederhanakan transformasi non linier dari regresi linier. Distribusi logistic berbentuk-S
yang mirip dengan distribusi normal standard (seperti yang dihasilkan oleh model regresi
probit). LPM ini lebih mudah diestimasi dengan sebagian besar program aplikasi komputer
(probabilitas mudah untuk dikalkulasi). Dengan model logit ini maka dijamin nilai Yi akan
terbatas antara 0 dan 1.
Contoh, estimasi probabilitas : Pi = 1/[1 + exp(- - Xi)]
- jika + Xi = 0, maka Pi = 0.50
- jika + Xi sangat besar, maka Pi mendekati 1
- jika + Xi sangat kecil, maka Pi mendekati 0.
Asumsi. Regresi Logistik tidak didasarkan pada asumsi distribusi seperti pada Analisis Diskriminan.
Namun, solusi bisa lebih stabil jika prediktor memiliki distribusi normal secara multivariat. Seperti
bentuk-bentuk regresi lainnya, multikolinieritas antar prediktor dapat menimbulkan estimasi yang
bias dan standard errors yang terinflasi. Prosedur menjadi sangat efektif ketika keanggotaan
kelompok benar-benar variabel katagorial; jika keanggotaan kelompok berdasar pada nilai variabel
kontinyu (contoh : “high IQ” versus “low IQ”), maka harus dipertimbangkan penggunaan regresi
linier untuk memperoleh informasi yang lebih kaya yang melingkupi variabel kontinyu itu sendiri.
Prosedur. Gunakan prosedur scatterplot untuk melihat multikolinieritas data. Jika asumsi
multivariat normal dan kesetaraan matriks variance-covariance terpenuhi, maka dengan prosedur
Analisis Diskriminan akan diperoleh solusi yang lebih cepat. Jika seluruh variabel prediktor bersifat
katagorial, dapat digunakan prosedur Loglinear. Jika variabel dependen bersifat kontinyu, gunakan
prosedur regresi linier. Dapat digunakan prosedur ROC Curve untuk memplot probabilitas yang
disimpan dengan prosedur regresi logistik.
Penggunaan analisis regresi logistik dengan SPSS adalah melalui menu utama, pilih :
Analyze Regression
Binary Logistic...
Muncul kotak dialog Logistic Regression :
64
Pilih satu variabel dependen dikotomi. Variabel ini bisa bersifat numerik atau string.
Selanjutnya, pilih sebuah kovariat atau lebih. Untuk melibatkan interaksi, pilih seluruh variabel yang
terlibat dalam interaksi dan kemudian pilih a*b. Untuk memasukkan variabel dalam kelompok
(blocks), pilih kovariat untuk sebuah blok, dan click Next untuk menspesifikasi sebuah blok baru.
Ulangi sampai seluruh blok telah dispesifikasi. Pilihan (opsi), dapat dipilih cases for analysis. Pilih
variabel yang diseleksi dan click Rule.
Kasus yang didefinisikan melalui selection rule adalah yang dimasukkan dalam estimasi
model. Contoh, jika dipilih sebuah variabel dan setara serta terspesifikasi = 5, maka hanya kasus
dengan nilai = 5 yang dilibatkan dalam mengestimasi model. Hasil statistik dan klasifikasi
digenerasi untuk kasus yang dipilih maupun yang tidak dipilih. Ini menghasilkan mekanisme untuk
65
mengklasifikasi kasus baru berdasar pada data yang ada sebelumnya, atau untuk membagi data
menjadi training dan testing subsets, untuk memberikan validasi model yang digenerasi.
(4). Metode Pemilihan Variabel Dalam Regresi Logistik
Pilihan metode memungkinkan untuk menspesifikasi bagaimana cara variabel independen
dimasukkan ke dalam analisis. Dengan menggunakan metode yang berbeda, akan dibangun
beragam model regresi dari serangkaian variabel yang sama. Langkah-langkahnya adalah :
(a) Enter. Sebuah prosedur untuk pemilihan variabel di mana seluruh variabel pada sebuah blok
dimasukkan secara sekaligus
(b) Forward Selection (Conditional). Metode ini adalah memasukkan variabel selangkah demi
selangkah dengan uji berdasar pada signifikansi statistik skor, atau membuangnya berdasar
kepada probabilitas sebuah statistik likelihood-ratio pada estimasi parameter kondisional.
(c) Forward Selection (Likelihood Ratio). Metode ini adalah memasukkan variabel selangkah
demi selangkah dengan uji berdasar pada signifikansi statistik skor, dan membuangnya
berdasar kepada probabilitas sebuah statistik likelihood-ratio dan berdasar pada estimasi
partial likelihood maksimum.
(d) Forward Selection (Wald). Metode ini adalah memasukkan variabel selangkah demi
selangkah dengan uji berdasar pada signifikansi statistik skor, dan membuangnya berdasar
probabilitas Wald statistic.
(e) Backward Elimination (Conditional). Metode ini membuang variabel berdasar probabilitas
statistik likelihood-ratio pada estimasi parameter kondisional.
(f) Backward Elimination (Likelihood Ratio). Metode ini membuang variabel berdasar
probabilitas statistik likelihood-ratio yang didasari oleh estimasi partial likelihood maksimum.
(g) Backward Elimination (Wald). Metode ini membuang variabel berdasar probabilitas Wald
statistic.
Nilai signifikansi pada printout didasarkan pada pengujian kesesuaian sebuah model
tunggal. Bagaimanapun, nilai signifikansi umumnya invalid pada saat sebuah metode stepwise
digunakan. Seluruh variabel independen yang dipilih ditambahkan kepada sebuah model regresi
tunggal. Namun, peneliti dapat menspesifikasi metode entry yang berbeda untuk serangkaian
variabel yang berbeda. Contoh, peneliti memasukkan sebuah blok variabel ke dalam model regresi
dengan menggunakan metode stepwise dan pada blok kedua menggunakan metode forward.
Untuk memasukkan sebuah blok kedua ke dalam model regresi, click Next.
66
(5). Pendefinsian Variabel pada Regresi Logistik
Peneliti dapat menspesifikasi secara detil bagaimana Regresi Logistik memperlakukan
variabel katagorial :
(a) Covariates. Mengandung sebuah daftar dari seluruh kovariat yang dispesifikasikan dalam
kotak dialog utama, apakah itu melalui mereka itu sendiri atau sebagai bagian dari sebuah
interaksi, pada peringkat manapun. Jika beberapa variabel ini merupakan string variables atau
katagorial, maka penggunaannya hanya sebagai kovariat katagorial.
(b) Categorical Covariates. Daftar variabel yang diidentifikasi sebagai katagorial. Setiap variabel
termasuk sebuah notasi dalam tanda kurung mengindikasikan pengkodean kontras yang
digunakan. String variables (dinotasikan melalui simbul < diikuti nama variabelnya) selalu ada
dalam daftar Categorical Covariatest. Pilih sembarang kovariat katagorial lainnya dari daftar
kovariat dan pindahkan ke dalam daftar Categorical Covariatest.
(c) Change Contrast. Memungkinkan peneliti merubah metode kontras. Metode kontras yang
tersedia adalah :
1) Indicator. Kontras mengidikasikan ada atau tidak adanya keanggotaan katagori. Katagori
rujukan direpresentasi dalam matriks kontras the sebagai sebuah baris dengan nilai nol.
2) Simple. Setiap katagori dari variabel prediktor (kecuali katagori rujukan) dibandingkan
kepada katagori rujukan.
3) Difference. Setiap katagori dari variabel prediktor kecuali katagori pertama dibandingkan
kepada pengaruh rata-rata dari katagori sebelumnya. Ini juga dinamakan sebagai kontras
Helmert yang berlawanan.
67
4) Helmert. Setiap katagori dari variabel prediktor kecuali katagori terakhir dibandingkan
kepada rata-rata pengaruh dari katagori berikutnya.
5) Repeated. Setiap katagori dari variabel prediktor kecuali katagori pertama dibandingkan
kepada yang mendahuluinya.
6) Polynomial. Orthogonal polynomial contrasts. Katagori-katagori diasumsikan memiliki
ruang yang sama. Polynomial contrasts tersedia untuk variabel numerik saja.
7) Deviation. Setiap katagori dari variabel prediktor kecuali katagori rujukan dibandingkan
dengsn pengaruh total.
Jika peneliti memilih Deviation, Simple, atau Indicator, pilih apakah itu First atau Last
sebagai katagori rujukan. Perhatikan, bahwa metode itu tidak sebenarnya berubah sampai di-click
Change. String covariates harus dalam bentuk categorical covariates. Untuk menghapus string
variable dari daftar Categorical Covariates, harus menghapus seluruh terms yang mengandung
variabel dari daftar kovariat dalam kotak dialog utama.
(6). Penyimpanan Variabel Baru pada Regresi Logistik
Peneliti dapat menyimpan hasil regresi logistik sebagai sebuah variabel baru pada data
yang aktif :
(a) Predicted Values. Menyimpan nilai yang diprediksi oleh model. Opsi yang tersedia adalah
Probabilities dan Group membership.
68
(b) Probabilities. Untuk setiap kasus, menyimpan probabilitas terjadinya peristiwa yang
diprediksi. Sebuah tabel pada output menampilkan nama dan kandungan variabel baru.
(c) Predicted Group Membership. Kelompok dengan dengan probabilitas posterior terbesar,
berbasis kepada nilai diskriminan.
(d) Influence. Menyimpan nilai dari statistik yang mengukur pengaruh kasus pada nilai yang
diprediksi.
Opsi yang tersedia adalah Cook‟s, Leverage values, dan DfBeta(s).
Residuals. Menyimpan residuals. Opsi yang tersedia adalah Unstandardized, Logit, Studentized,
Standardized, dan Deviance.
(a) Unstandardized Residuals. Selisih antara nilai observasi dengan nilai yang diprediksi model.
(b) Logit Residual. Residulal pada kasus jika diprediksi dengan skala logit. Logit residual adalah
residual dibagi dengan prediksi probabilitas dikali dengan 1 dikurangi prediksi probabilitas.
(c) Studentized Residual. Perubahan dalam penyimpangan model jika sebuah kasus
dikeluarkan.
(d) Standardized Residuals. Residual dibagi dengan sebuah estimasi standard deviasi-nya.
Standardized residuals, yang juga dikenal sebagai Pearson residuals, memiliki sebuah rata-rata
= 0 dan standard deviasi = 1.
(e) Deviance. Residuals berdasar penyimpangan model.
(f) Export model information to XML file. Estimasi parameter dan (optionally) dan kovariat-
nya yang ekspor kedalam file XML (PMML) dengan format khusus. SmartScore dan SPSS
Server dan menggunakan file model ini mengaplikasi informasi model kepada file data yang
lain untuk keperluan pen-skor-an.
69
(7). Opsi pada Regresi Logistik
Opsi pada analisis regresi logistik adalah :
(a) Statistics and Plots. Memungkinkan peneliti untuk menampilkan statistics dan plots. Opsi
yang tersedia adalah : Classification plots, Hosmer-Lemeshow goodness-of-fit, Casewise listing
of residuals, Correlations of estimates, Iteration history, dan CI untuk exp(B). Pilih satu dari
alternatif-alternatif itu pada Display group untuk menampilkan statistics dan plots baik pada
setiap langkah atau hanya pada model final, padalangkah terakhir.
(b) Hosmer-Lemeshow goodness-of-fit statistic. Statistik goodness-of-fit lebih penting
daripada goodness-of-fit statistic tradisional yang digunakan dalam regresi logistik, khususnya
untuk model dengan kovariat kontinyu dan kajian dengan sampel kecil. Ini didasarkan pada
kasus yang dikelompokkan ke dalam resiko decile dan perbandingan probabilitas yang diamati
dengan ekspektasi probabilitas dalam setiap decile.
(c) Probability for Stepwise. Memungkinkan peneliti untuk mengendalikan kriteria melalui
variabel mana yang dimasukkan dan dibuang dari persamaan. Peneliti dapatr menspesifikasi
kriteria untuk variabel yang dimasukkan atau dibuang.
(d) Probability for Stepwise. Sebuah variabel dimasukkan ke dalam model jika probabilitas
statistik skor-nya kurang dari nilai Entry dan dibuang jika probabilitasnya lebih tinggi daripada
70
nilai Removal. Untuk pengaturan default, masukkan nilai positif pada Entry and Removal. Entry
harus lebih kecil daripada Removal.
(e) Classification cutoff. Memungkinkan peneliti menentukan cut point untuk mengklasifikasi
kasus. Kasus dengan nilai yang diprediksi melebihi cutoff, diklasifikasi sebagai positif,
sementara nilai yang diprediksi lebih rendah daripada cutoff, diklasifikasi sebagai negatif.
Untuk merubah default, masukkan nilai di antara 0.01 dan 0.99.
(f) Maximum Iterations. Memungkinkan peneliti untuk merubah angka maksimum iterasi
sebelum dihentikan.
(g) Include constant in model. Memungkinkan peneliti untuk mengindikasi apakah model
memasukkan konstanta atau tidak. Jika tidak diinginkan, konstanta = 0.
(8). Interpretasi Koefisien
Kelebihan model regresi logistik adalah kemudahan mengartikan prediksi Y (yang bersifat
dikotomi). Dari nilai dikotomi ini, prediksi Y dibulatkan antara 0 atau 1. Jika prediksi Y di atas 0.50,
maka dibulatkan = 1. Untuk menghitung koeifisien logistik adalah dengan membandingkan
probabilitas terjadinya peristiwa dengan probabilitas peristiwa tersebut tidak terjadi.
Prob (event) Prob (no event) = e 0 + 1X1 + . . . k Xk odds ratio.
Estimasi koefisien ( i) adalah ukuran sesungguhnya perubahan probabilitas. Untuk
selanjutnya harus ditransformasi balik dengan pendekatan antilog (log odds); sehingga dapat
diinterpretasikan sebagai efek perubahan Xi terhadap Y secara lebih benar. Program komputer
untuk statistik biasanya memberikan nilai estimasi koefisien dalam bentuk asli maupun bentuk
transformasi balik. Tanda matematik koefisien tidak ikut berubah pada saat transformasi balik. Ini
bisa dilihat dari logika berikut :
- jika i positif, maka antilognya akan > 1, dengan demikian odds ratio akan meningkat,
- jika i negatif, maka antilognya akan < 1, maka odds ratio akan menurun,
- jika i = 0, tidak akan merubah odds ratio.
Interpretasi koefisien hasil estimasi harus dilakukan dengan hati-hati. Penjelasan ini tidak
sangat intuitif. Hal tersebut memungkinkan untuk menghitung marginal effect dari variabel
independen yang kontinyu secara lebih intuitif terhadap probabilitas. Marginal effect adalah :
dp/dB = f(BX)B
di mana f(.) adalah fungsi padatan dari kumulatif distribusi probabilitas [F(BX), yang berada pada
rentang nilai dari 0 sampai dengan 1]. Marginal effects tergantung kepada nilai variabel
independen, dengan demikian, hal ini menyebabkan sangat menguntungkan mengevaluasi
71
marginal effects pada rata-rata variabel independen. (SPSS tidak memiliki opsi untuk marginal
effects. Jika diperlukan untuk menghitung marginal effects, dapat digunakan program paket
statistik LIMDEP).
Interpretasi koefisien logit biasanya lebih intuitif (khususnya untuk variable independent
dummy) berupa odds ratio – exp , adalah pengaruh variabel independen pada odds ratio (odds
ratio adalah probabilitas terjadinya peristiwa dibagi dengan probabilitas tidak terjadinya peristiwa).
Contoh, jika exp 3 = 2, maka setiap satu unit perubahan variabel X3 akan menimbulkan probabilitas
terjadinya peristiwa dua kali seperti (0.67/0.33). Odds ratios sama dengan 1 mengartikan bahwa
ada peluang 50/50 peristiwa itu terjadi jika ada perubahan pada variabel independen. Koefisien
negatif menunjukkan bahwa odds ratios kurang dari 1: jika exp 2 = 0.67, maka setiap perubahan 1
unit X2 akan peluang terjadinya peristiwa (0.40/0.60). (Odds ratios kurang dari 1 (koefisien negatif)
cenderung lebih sulit diiterpretasikan daripada odds ratios yang lebih besar dari 1 (koefisien positif).
Perhatikan, bahwa odds ratios untuk variabel independen kontinyu yang cenderung untuk
mendekati 1, ini tidak menjamin bahwa koefisien tersebut insignifikan. Gunakan Wald statistic
untuk menguji signifikansi statistiknya.
(9). Penilaian Terhadap Goodness-of-Fit Model
Pengujian terhadap kecocokan model regresi logistik berbeda dengan regresi linier, namun
secara keseluruhan agak mirip dengan yang berlaku pada regresi berganda linier; yaitu dengan
menjumlahkan kuadrat error dengan teknik nilai likelihood (yaitu = -2 x log likelihood atau -2 x LL.
-2LL minimum = 0 dan maksimum = 1.
Null model adalah model yang dihitung menggunakan rata-rata merupakan basis perbandingan uji
kecocokan model regresi logistik.
- 2 LLnull – (-2 LLmodel) R2
logit =
-2 LLnull 0 < R2
logit < 1
Cara-cara lain untuk menguji kecocokan model adalah seperti yang digunakan pada Analisis
Diskriminan (peta ketepatan klasifikasi) atau dengan pendekatan Hosmer dan Lemeshow20. Statistik
Percent Correct Predictions (PCP) mengasumsikan jika p yang diestimasi lebih besar atau sama
dengan 0.50, maka peristiwa diharapkan terjadi dan sebaliknya.
Sedangkan prosedur metode Hosmer dan Lemeshow adalah : (a) membagi data menjadi
10 kelas yang seimbang; (b) membandingkan prediksi Y dengan aktual pada setiap kelas dengan
uji 2. Uji ini menghasilkan ukuran komprehensif akurasi prediksi dengan menggunakan nilai
20 Gessner, Guy, N. K. Maholtra, W.A. Kamakura and M.E Smijewski, 1988:250-258.
72
prediksi Y tanpa menggunakan data likelihood. Ketepatan penggunaan uji Hosmer dan Lemeshow
sangat tergantung kepada kecukupan data untuk menjamin bahwa pada setiap kelas paling sedikit
memiliki lima observasi. Uji 2 sangat sensitif terhadap ukuran sampel; makin besar sampelnya,
ukuran ini memiliki akurasi yang lebih tinggi. Biasanya peneliti menggunakan ketiga pendekatan
tersebut untuk menguji kecocokan model.
Sebagian besar peneliti yang menggunakan OLS lebih menggunakan statistik R2. Ini
merupakan proporsi varians dalam variable dependen yang dijelaskan oleh varians dalam variabel
independen. Tidak ada ukuran yang ekivalen dalam regresi logistik. Tetapi ada beberapa statistik
"Pseudo" R2. Salah satunya adalah statistik McFadden's-R2 (seringkali disebut likelihood ratio index
(LRI):
McFadden's-R2 = 1 - [LL( , )/LL( )]
= 1 – [-2LL( , )/-2LL( )]
Di mana R2 adalah sebuah ukuran skalar yang bervariasi antara 0 dan 1. Diperkirakan
bahwa Pseudo R2s lebih kecil dari R2 pada moedel regresi linier. LRI tergantung kepada ratio model
awal dan model akhir, maka sangat sulit untuk memaksimumkan R2 pada regresi logistik. Pseudo-
R2 dalam regresi logistik adalah terbaik digunakan untuk membandingkan spesifikasi yang berbeda
pada model yang sama. Jangan mencoba membandingkan model-model dengan serangkaian data
yang berbeda melalui ukuran Pseudo-R2.
(10). Uji Signifikansi Koefisien
Uji hipotesis tentang signifikansi koefisien variabel independen secara parsial berbeda dari
nol mirip dengan OLS, yaitu dengan Wald Statistic.
Statistik Wald untuk koeifisien adalah: Wald = [ /s.e. ]2 berdistribusi 2 dengan derajat
bebas = 1. Statistik Wald secara sederhana dapat dihitung pula sebagai kuadrat dari nilai statistik t.
Uji hipotesis tentang signifikansi koefisien variabel independen secara simultan
menggunakan likelihood ratio (LR), atau 2, di mana : LR[i] = -2[LL( )- LL( , ) ] atau seperti
yang terbaca pada printout SPSS :
LR[i] = [-2 Log Likelihood (model awal)] - [-2 Log Likelihood (model akhir)].
Model Statistic LR berdistribusi 2 dengan derajat bebas = i, di mana i adalah banyaknya
variabel independen. Model unconstrained, LL( , i), adalah fungsi log-likelihood yang dievaluasi
dengan seluruh variabel independen dan model constrained adalah fungsi log-likelihood yang
dievaluasi hanya melibatkan konstanta saja, LL( ).
Gunakan statistik 2 untuk menentukan apakah model secara simultan, signifikan.
73
(11). Ilustrasi : Regresi Logistik
Contoh-4.3 : Kecenderungan Pembelian
Sampel sebanyak 100 pelanggan dibagi menjadi 60 pengamatan untuk dianalisis dan 40
pengamatan sisanya digunakan untuk tahap validasi model. Dengan menggunakan program
SPSS versi 21.00 – Regression.
Berikut ini statistik deskriptif dari data observasi :
TTaabbeell 44..77 SSttaattiissttiikk DDeesskkrriippttiiff ddaann UUjjii EEkkuuaalliittaass UUnnttuukk DDuuaa KKeelloommppookk
VVaarriiaabbeell
DDeeppeennddeenn
RRaattaa--rraattaa KKeelloommppookk VVaarriiaabbeell IInnddeeppeennddeenn
XX11 XX22 XX33 XX44 XX55 XX66 XX77 UUkkuurraann
SSaammppeell
0 : Spesifikasi pembelian
2.23 2.97 6.87 5.16 2.58 2.56 8.47 22
1 : Analisis Total Nilai
4.26 2.08 8.57 5.44 3.18 2.83 6.01 38
Total 3.51 2.41 7.95 5.33 2.96 2.73 6.91 60
Standard Deviasi Variabel Independen
0 : Spesifikasi pembelian
1.05 1.19 0.76 0.82 0.94 0.58 0.95
1 : Analisis Total Nilai
1.10 1.12 1.28 1.32 0.50 0.92 1.32
Total 1.46 1.21 1.38 1.16 0.75 0.82 1.68
Uji Ekualitas Rata-rata Kelompok
Wilk‟s Lambda 0.542 0.873 0.645 0.986 0.846 0.973 0.499
Ratio F Univariat 48.992 8.453 31.881 0.822 10.576 1.620 58.176
Signifikansi 0.000 0.005 0.000 0.368 0.002 0.208 0.000
Keterangan :
Y = Spesifikasi Pembelian atau Analisis Total Nilai
X1 = Kecepatan Pengiriman. X4 = Citra Perusahaan.
X2 = Harga. X5 = Pelayanan Keseluruhan.
X3 = Keluwesan Harga. X6 = Citra Tenaga Penjualan.
X7 = Kualitas Produk.
Pada tabel tersebut di atas, terlihat bahwa variabel-variabel X1, X3 dan X7 adalah variabel
dengan selisih rata-rata terbesar. Wilk‟s Lambda dan Univariate F ratio digunakan untuk menilai
signifikansi selisih rata-rata setiap variabel independen untuk kedua kelompok. Uji tersebut
mengindikasikan bahwa kelima variabel bebas (dari tujuh variabel bebas) memiliki selisih rata-
rata yang signifikan, kecuali X4 (manufacturer image) dan X6 (salesforce image). Cutting score
untuk mengklasifikasi probabilitas Y = 0.50.
Ada tujuh kurve yang menjelaskan hubungan variabel independen dengan variabel Y, antara
lain seperti yang ada pada gambar berikut :
74
1.2 1.2
1.0 1.0
Y = 0.568 Y = 0.267
0 0
-2 X1 -2 X2
1.2 1.2 1.0 1.0
Y = 0.494 Y = 0.000
0 0
-2 X3 -2 X4
1.2 1.2 1.0 1.0
Y = 0.303 Y = 0.000
0 0
-2 X5 -2 X6
1.2
1.0
Y = -0.596
0
-2 X7
Gambar 4.12 Kurve Hubungan Variabel Independen dan Y
75
Estimasi model
Regresi logistik diestimasi dengan cara yang mirip dengan regresi berganda dalam hal
bahwa model dasar pada awalnya diestimasi untuk menghasilkan sebuah standard untuk
perbandingan. Dalam regresi berganda, mean digunakan untuk mengatur model dasar dan
menghitung total jumlah kuadrat (total sum of square, TSS).
Pada regresi logistik, proses yang sama juga digunakan, dengan menggunakan mean tidak
untuk mengatur TSS, tetapi untuk menentukan nilai log likelihood. Dari model ini, korelasi parsial
setiap variabel dapat ditentukan dan pemilihan variabel yang paling mendiskriminasi didasarkan
kepada kriteria seleksi.
Tabel 4.8 Model Dasar Regresi Logistik (variabel tidak dimasukkan ke dalam model)
Kesesuaian Model Keseluruhan : -2 log likelihood (-2LL) : 78,859
Skor Statistik Signifikansi Korelasi Parsial ( )
X1 : Kecepatan Pengiriman 27,476 0,000 0,568
X2 : Harga 7,631 0,006 0,267
X3 : Keluwesan Harga 21,287 0,000 0,495
X4 : Citra Perusahaan 0,840 0,360 0,000
X5 : Layanan Keseluruhan 9,256 0,002 0,303
X6 : Citra Tenaga Penjualan 1,631 0,202 0,000
X7 : Kualitas Produk 30,041 0,000 0,596
Tabel 4.8 ini adalah model dasar regresi logistik yang dihasilkan. -2LL sebesar 78.859.
Score statistics adalah ukuran asosiasi yang digunakan dalam regresi logistik. Korelasi parsial
merupakan indikator variabel yang dimasukkan pada metode stepwise.
Beberapa kriteria dapat digunakan sebagai acuan seleksi stepwise, penurunan terbesar nilai
–2LL, koefisien Wald terbesar, atau probabilitas kondisionalnya. Pada contoh di atas, kriteria yang
digunakan pada metode stepwise adalah penurunan nilai -2LL. Dari tabel tersebut tampak bahwa
dalam proses estimasi model, X7 merupakan variabel yang dimasukkan ke dalam model pada awal
proses.
76
Tabel 4.9. Langkah-1 : memasukkan X7 ke dalam model
Kesesuaian Model Nilai Perubahan dalam-2LL
-2 log likelihood (-2LL) 37,524 Nilai Signifikansi
Goodness of Fit 37,408 Dari model dasar 41,335 0,000
Pseudo R2 0,524 Dari langkah sebelumnya 41,335 0,000
Cox and Snell R2 0,498
Nagelkerke R2 0,681
2 df Signifikansi
Hosmer and Lemeshow 2,664 8 0,9535
Variabel dalam Persamaan :
Variabel B S.E Wald Signif. r Exp(B)
X7 -1,896 0,495 14,678 0,000 -0,401 0,150
Konstanta 14,581 3,794 14,774 0,000
Variabel yang tidak masuk persamaan :
Skor Statistik Signifikansi Korelasi Parsial ( )
X1 : Kecepatan Pengiriman 10,593 0,001 0,328
X2 : Harga 0,214 0,643 0,000
X3 : Keluwesan Harga 15,614 0,000 0,415
X4 : Citra Perusahaan 4,985 0,026 0,195
X5 : Layanan Keseluruhan 6,669 0,010 0,243
X6 : Citra Tenaga Penjualan 6,441 0,011 0,237
Matriks Klasifikasi
Prediksi Anggota Kelompoka
Kelompok Aktual Sampel yang Dianalisis Sebagian Sampel
Group 1 Group 0 Total Group 1 Group 0 Total
0 : Spesifikasi pembelian 17 (77,3)
5 (22,7)
22 14
(77,8) 4
(22,2) 18
1 : Analisis Total Nilai 4
(10,5)
34
(89,5) 38
3
(13,6)
19
(86,4) 22
Total 21 39 60 17 23 40
B = koefisien logistik; S.E = standard error; Wald = Wald Statistic; Signif. = tingkat
signifikansi; = korelasi; Exp(B) = koefisien eksponensial.
a Nilai dalam tanda kurung adalah persentase klasifikasi dengan benar (hit ratio).
Walaupun variabel X7 dimasukkan ke dalam model dan menghasilkan kesesuaian model
yang memadai, dari daftar variabel yang tidak masuk ke dalam model ada beberapa variabel yang
signifikan pada = 0,05, sehingga proses stepwise dilanjutkan.
Variabel X3 dengan score statistic dan korelasi parsial yang tertinggi berikutnya, di
masukkan ke dalam model pada langkah-2. Ada perbaikan pada seluruh ukuran kesesuaian model,
nilai -2LL menurun, dan berbagai nilai R2 yang meningkat.
77
Tabel 4.10. Langkah-2 : memasukkan X3 ke dalam model
Kesesuaian Model Nilai Perubahan dalam -2LL
-2 log likelihood (-2LL) 20,258 Nilai Signifikansi
Goodness of Fit 58,967 Dari model dasar 58,601 0,000
Pseudo R2 0,743 Dari langkah sebelumnya 17,266 0,000
Cox and Snell R2 0,623
Nagelkerke R2 0,852
2 df Signifikansi
Hosmer and Lemeshow 10,344 8 0,2417
Variabel dalam Persamaan :
Variable B S,E Wald Signif, r Exp(B)
X3 1,830 0,717 6,517 0,011 0,239 6,237
X7 -2,912 1,135 6,581 0,010 -0,241 0,054
Constant 8,329 5,110 2,637 0,103
Variabel yang tidak masuk dalam Persamaan :
Skor Statistik Signifikansi Korelasi Parsial ( )
X1 : Kecepatan Pengiriman 3,746 0,053 0,149
X2 : Harga 3,641 0,056 0,144
X4 : Citra Perusahaan 5,557 0,018 0,212
X5 : Layanan Keseluruhan 8,824 0,003 0,294
X6 : Citra Tenaga Penjualan 8,770 0,003 0,293
Matriks Klasifikasi
Prediksi Anggota Kelompoka
Kelompok Aktual Sampel yang Dianalisis Sebagian Sampel
Group 1 Group 0 Total Group 1 Group 0 Total
0 : Spesifikasi pembelian 21 (95,5)
1 (4,5)
22 15 (83,3)
3 (16,7)
18
1 : Analisis Total Nilai 0
(0,0)
38
(100,0)
38
2
(9,1)
20
(90,9)
22
Total 21 39 60 17 23 40
B = koefisien logistik; S.E = standard error; Wald = Wald Statistic; Signif. = tingkat
signifikan, = korelasi; Exp(B) = koefisien eksponensial.
a Nilai dalam tanda kurung adalah hit ratio.
Walaupun variabel X3 juga dimasukkan ke dalam model dan menghasilkan kecocokan
model yang lebih memadai, dari daftar variabel yang tidak masuk ke dalam model ada beberapa
variabel yang signifikan pada = 0,05, sehingga proses stepwise dilanjutkan. Variabel X5
selanjutnya dimasukkan ke dalam model, model regresi logistik menjadi tidak stabil dan
menghasilkan koefisien yang tidak sesuai, walaupun ada beberapa ukuran kesesuaian model yang
meningkat. Lebih jauh lagi, koefisien yang diestimasi memiliki nilai dan tingkat signifikansi yang
tidak sesuai. Peneliti harus melakukan evaluasi pada setiap langkah stepwise untuk melihat apakah
ada overfitting (kesesuaian yang berlebih tetapi tidak masuk akal) atau tidak. Pada contoh ini,
langkah-langkah stepwise dihentikan dengan dua buah variabel bebas yang dilibatkan dalam mdel
untuk diinterpretasi lebih lanjut.
78
Ada dua uji statistik terhadap model final (lihat Tabel 4.10). Pertama, uji chi-square ( 2)
untuk perubahan nilai -2LL dari model awal, dan ini bisa disetarakan dengan uji-F pada model
regresi berganda. Pada model final, penurunan tersebut signifikan secara statistik pada 0,000.
Kedua, ukuran Hosmer and Lemeshow memiliki uji statistik yang mengindikasikan bahwa tidak ada
perbedaan yang signifikan secara statistik antara klasifikasi yang diamati dengan yang diprediksi.
Kedua uji ini jika dikombinasi mendukung penerimaan model dengan variabel bebas tersebut
sebagai model regresi logistik yang signifikan dan sesuai untuk analisis lebih lanjut.
Estimasi kofisien kedua variabel bebas dan konstan juga dievaluasi signifikansi statistiknya.
Statistk Wald digunakan untuk menilai signifikansi, kecuali pada kasus di mana koefisien sangat
besar (jika menggunakan score statistic). Kedua koefisien pada model, signifikan secara statistik,
pada level = 0,01, walaupun konstan signifikan hanya pada level = 0,10; maka kedua variabel
secara individual dapat diinterpretasikan.
Dalam menilai kesesuaian model, ada beberapa ukuran yang digunakan. Pertama, nilai -
2LL. Pada Tabel 4.9, jika dibanding dengan model dasar (Tabel 5.8), nilai -2LL menurun dari
78,859 menjadi 37,524; ada penurunan sebesar = 41,335. Makin kecil nilai -2LL, makin baik
kesesuaian model. Kedua, nilai Goodness of Fit, adalah perbandingan probabilitas yang diprediksi
dengan probabilitas yang diamati. Makin tinggi nilai Goodness of Fit, model makin baik. Tidak ada
batas atas dan batas bawah untuk ukuran ini. Nilai Goodness of Fit, untuk model variabel tunggal
(Tabel 4.8) = 37,408. Selanjutnya adalah berbagai nilai R2 yang bisa diperbandingkan. Cox and
Snell R2 = 0,498; juga mengukur kesesuaian model, makin tinggi nilainya makin baik modelnya.
Sayangnya, nilai ini tidak akan pernah mencapai angka 1, sehingga dikembangkan Nagelkerke R2.
Nilai Nagelkerke R2 = 0,681. Pseudo R2 mengukur perbaikan nilai -2LL, pada model tunggal nilainya
sebesar = 0,524.
- 2 LLnull – (-2 LLmodel) R2
logit =
-2 LLnull
78,859 – 37,524 = = 0,524
78,859
Ukuran kesesuaian model yang terakhir adalah nilai Hosmer and Lemeshow, yang
mengukur korespondensi antara Y yang diamati dengan Y diprediksi. Makin kecil nilai Hosmer and
Lemeshow maka model makin baik. Model yang baik adalah jika nilai Hosmer and Lemeshow tidak
signifikan dengan uji 2.
Model regresi dengan dua variabel bebas seluruh ukuran kesesuaian model makin tinggi.
Nilai -2LL menurun menjadi = 20,258. Nilai R2 berkisar antara 0,623 sampai dengan 0,852. Nilai
Hosmer dan Lemeshow pada model final ini masih menunjukkan nilai yang tidak signifikan.
79
Terakhir, matriks klasifikasi menunjukkan bahwa hit ratio juga meningkat sangat tinggi.
PCP untuk data yang dianalisis = 98,30%, sedang untuk validasi (holdout sample) = 87,50%. Di
samping itu hit ratio kelompok individual memiliki nilai tinggi secara konsisten dan kedua variabel
bebas tidak terindikasi menimbulkan suatu masalah dalam memprediksi ke dua kelompok. Dengan
demikian, model final yang melibatkan dua buah variabel bebas, X3 dan X7, adalah model yang
memiliki kesesuaian yang sangat baik.
Contoh-4.4 : Respon Terhadap Biaya
Serangkaian data untuk regresi logit tampak seperti yang di bawah ini :
TTaabbeell 44..1111 DDaattaa HHaassiill SSuurrvveeii
SSttaattiissttiikk DDeesskkrriippttiiff
VVaarriiaabbeell NN MMiinniimmuumm MMaakkssiimmuumm RRaattaa--rraattaa SSttdd.. DDeevviiaattiioonn
YES 122 0,00 1,00 0,6393 0,4822
BAG 122 0,00 7,00 1,5082 1,8464
COST 122 9,00 953,00 416,5492 285,4320
INCOME 122 5000,00 85000,00 38073,7705 18463,1274
Valid N (listwise) 122
* Data tersebut di atas diambil dari survey U.S. Department of the Interior (yang dilaksanakan
oleh Bureau of the Census), yang berusaha menganalisis respon ya/tidak terhadap sebuah
pertanyaan tentang kemauan untuk membayar biaya perjalanan yang lebih mahal dalam sebuah
trip perburuan rusa di North Carolina.
Probabilitas data respon “Ya” di atas diestimasi dengan prosedur regresi logistic pada SPSS (click
pada "statistics," "regression," dan "logistic"). Hasil SPSS seperti berikut ini :
TTaabbeell 44..1122 HHaassiill AAnnaalliissiiss
VVaarriiaabbeell DDaallaamm PPeerrssaammaaaann
VVaarriiaabbeell BB SS..EE.. WWaalldd ddff SSiigg RR EExxpp((BB))
[1] [2] [3] [4] [5] [6]
BAG 0,2639 0,1239 4,5347 1 0,0332 0,1261 1,302
INCOME 4,63E-07 1,07E-05 0,0019 1 0,9656 0 1
COST -0,0018 0,0007 6,5254 1 0,0106 -0,1684 0,9982
Constant 0,9691 0,569 2,9005 1 0,0885
Catatan : [1] B adalah estimasi koefisien logit [2] S.E. adalah standard error koefisien
[3] Wald = [B/S.E.]2 [4] "Sig" adalah tingkat signifikansi : "koefisien barang bawaan (BAG) signifikan pada
0,03 (97% confidence level)."
[5] "Partial R" = sqrt{[(Wald-2)/(-2*LL(a)]}; lilhat di bawah untuk LL(a) [6] Exp(B) adalah "odds ratio" dari koefisien individual.
Dengan menentukan probabilitas antara 0 dan 1, maka dapat diperoleh table PCP sebagai
berikut :
80
TTaabbeell 44..1133 KKllaassiiffiikkaassii uunnttuukk YYEESS,, ttiittiikk ppoottoonngg == 00,,5500
Predicted % Correct
0 1
Observed 0 9 35 20,25%
1 4 74 94,87%
Overall 68.03%
Makin besar PCP, model makin baik.
Statistik Pseudo-R2 yang lain tercetak pada output SPSS :
SSoouurrccee:: SSPPSSSS OOuuttppuutt
(-2)*Initial LL [1] 159,526
(-2)*Ending LL [2] 147,495
Goodness of Fit [3] 123,18
Cox & Snell-R2 0,094
Nagelkerke-R2 0,129
Chi-Square [4] df Significance
Model 12,031 3 0,0073
Catatan :
[1] LL(a) = 159,526/(-2) = -79,763 [2] LL(a,B) = 147,495/(-2) = -73,748
[3] GF = [Y - P(Y=1)]2/[Y - P(Y=1)] [4] Chi-Square = -2[LL(a)-LL(a,B)] = 159,526 - 147,495 McFadden's-R2 = 1 - (147,495/159,526) = 0,075
Contoh-4.5 : Model Cohen-Rea-Lerman.
Dalam sebuah penelitian untuk Departemen Tenaga Kerja Amerika Serikat, Cohen, Rea dan
Lerman berpartisipasi terlibat dalam penelitian yang bertujuan untuk memperkirakan partisipasi
angkatan kerja dalam berbagai katagori sebagai fungsi dari berbagai variabel sosio - ekonomi –
demografik. Seluruh model menggunakan dependen variabel dummy, yaitu = 1 jika seseorang
yang diteliti adalah angkatan kerja, dan = 0 jika orang tersebut bukan angkatan kerja. Berikut
adalah hasil penelitian yang dilakukan ketiga peneliti tersebut :
81
Tabel 4.14 Partisipasi Angkatan Kerja*
Variabel Independen Koefisien t-ratio
Konstanta 0,4368 15,4
Status Pernikahan
Menikah, lengkap … …
Menikah, lainnya 0,1523 13,8
Tidak pernah menikah 0,2915 22,0
Umur
22-54 … …
55-64 -0,0594 -5,7
Lebih atau sama 6,5 -0,2753 -9,0
Lama bersekolah
0 – 4 … …
5 – 8 0,1255 5,8
9 – 11 0,1704 7,9
12 – 15 0,2231 10,6
Lebih atau sama dengan 16 0,3061 13,3
Tingkat pengangguran (1966), %
Di bawah 2,5 … …
2,5 – 3,4 -0,0213 -1,6
3,5 – 4,0 -0,0269 -2,0
4,1 – 5,0 -0,0291 -2,2
Lebih atau sama dengan 5,1 -0,0311 -2,4
Pertumbuhan Tenaga Kerja (1965-1966), %
Di bawah 3,5 … …
3,5 – 6,49 0,0301 3,2
Lebih atau sama dengan 6,5 0,0529 5,1
Peluang bekerja, %
Under 62 … …
62 – 73,9 0,0381 3,2
Lebih atau sama dengan 74 0,0571 3,2
FILOW, $
Kurang dari 1500 atau negatif … …
1500 – 7499 -0,1451 -15,4
Lebih atau sama dengan 7500 -0,2455 -24,4
Interaksi (status pernikahan dan waktunya)
Status Pernikahan Waktu
Lainnya 55 – 64 -0,0408 -2,1
Lainnya Lebih atau sama dengan 65 -0,1291 -7,4
Tak pernah menikah 55 – 64 -0,1104 -3,3
Tak pernah menikah Lebih atau sama dengan 65 -0,2045 -6,4
Interaksi (uisa dan lamanya menyelesaikan sekolah)
Usia Lamanya bersekolah
Lebih atau sama dengan 65 5 – 8 -0,0885 -2,8
Lebih atau sama dengan 65 9 – 11 -0,0848 -2,4
Lebih atau sama dengan 65 12 – 15 -0,1288 -4,0
Lebih atau sama dengan 65 Lebih atau sama dengan 16 -0,1628 -3,6
R2 = 0,175
Banyaknya pengamatan = 24.143
Catatan : . . . mengindikasikan katagori dasar atau hilang.
82
FILOW : Penghasilan keluarga dikurangi gajinya sendiri.
Sumber : Malcolm S Cohen, Samuel A. Rea, Jr., and Robert I. Lerman, A Micro Model of Labor Supply, BLS Staff Paper 4, US Departement of labor, 1970, table F-6, pp.212-213. * (Regresi terhadap wanita, usia 22 tahun ke atas, hidup di 96 area metropolitan standard terbesar. Variabel dependen :
masuk atau keluar dari angkatan kerja dalam tahun 1966).
Sebelum menginterpretasi hasil, perlu diketahui : regresi tersebut di atas diestimasi dengan
OLS. Untuk mengkoreksi adanya heteroskedastis, peneliti menggunakan prosedur dua tahap dalam
beberapa regresi, tetapi menemukan standard error dari estimasi yang dihasilkan tidak berbeda
secara material dengan estimasi yang dihasilkan tanpa mengkoreksi heteroskedastik tersebut. Ini
mungkin karena ukuran sampel yang cukup banyak (di atas 25.000 observasi) Dengan sampel
besar, nilai-t bisa teruji untuk signifikansi statistik dengan prosedur OLS walaupun error memiliki
nilai dikotomi. R2 = 0,175 terlihat rendah, tetapi mengingat sampel yang besar, R2 ini tetap
signifikan
Estimasi koefisien harus dilakukan dengan hati-hati. Koefisien regresi ( ) biasanya
merupakan ukuran tingkat perubahan Y (dependent variable) yang disebabkan perubahan X (pada
regresi dengan OLS), pada model logit, B diinterpretasi sebagai tingkat perubahan Y yang
disebabkan perubahan X dalam bentuk log odds. Penjelasannya menjadi tidak sangat intuitif.
Dimungkinkan untuk menghitung marginal effect yang lebih intuitif dari sebuah variabel
indepeneden kontinyu terhadap probabilitas Y. Marginal effect tersebut adalah :
Dp/dB = f(BX)B
Di mana f(.) adalah fungsi padatan probabilitas dari kumulatif fungsi distribusi probabilitas
dengan nilai antara 0 sampai dengan 1. Margina l effect tergantung kepada nilai variabel
independent, sehingga mengevaluasi marginal effect pada rata-rata variabel independen menjadi
bermanfaat. (SPPS tidak memiliki option untuk menghitung marginal effect. Untuk menghitungnya
dapat digunakan program statistik lain : LIMDEP).
Interpretasi terhadap koefisien logit biasanya lebih intuitif (khususnya untuk variabel
independen yang bersifat dummy), yaitu odds ratio – exp B, adalah efek variabel independen
dalam bentuk odds ratio. (Odds ratio adalah probabilitas terjadinya peristiwa dibagi dengan
probabilitas tidak terjadinya peristiwa). Sebagai contoh, jika exp B3 = 2, maka perubahan 1 unit X3
akan berakibat terhadap probabilitas terjadinya peristiwa sebesar 2 kali. Odds ratio = 1 berarti
bahwa ada peluang 50/50 untuk terjadinya peristiwa karena disebabkan perubahan 1 unit pada X.
Koefisien negatif akan menyebabkan odds ratio menjadi lebih kecil daripada 1, dan ini
menyebabkan lebih sulit untuk diinterpretasikan dibanding koefisien yang positif. Perlu dicatat
bahwa odds ratio untuk variabel independen yang kontinyu cenderung mendekati nilai 1, ini
menyebabkan koefsien tersebut tidak diharapkan untuk tidak signifikan. Gunakan statistik Wald
untuk menguji signifikansi statistiknya.
83
(12). Beberapa Masalah Potensial Dan Penyelesaiannya..
Model logistik juga memiliki masalah seperti pada multiple regression :
i) Pengabaian variabel dapat menimbulkan bias dalam estimasi koefisien. Untuk menguji omitted
variables, dapat digunakan uji ratio likelihood (LR):
LR[q] = {[-2LL(constrained model, i=k-q)] - [-2LL(unconstrained model, i=k)]}
Di mana LR berdistribusi 2 dengan derajat bebas = q, dengan q = 1 atau lebih omitted
variables
Uji ini secara otomatis dilakukan SPSS jika dilakukan blocks kepada variable independen
(lihat block chi-square pada output SPSS).
ii) Penambahan variabel yang tidak relevan dapat menghasilkan model yang buruk.
Pertimbangkan Wald statistics atau lakukan uji ratio likelihood (seperti di atas) untuk mencari
variabel independen yang memiliki kemampuan menjelaskan rendah.
iii) Error dalam membentuk fungsi regresi dapat menghasilkan estimasi koefisien yang bias dan
model yang buruk. Dapat dicoba bentuk fungsi yang lain dan perhatikan Wald statistics dan 2
statistics untuk menguji kesesuaian model secara keseluruhan.
iv) Adanya multikolinearitas tidak akan menyebabkan koefisien yang bias, tetapi standard errors
koefisiennya akan meningkat. Jika sebuah variabel yang diharapkan signifikan tetapi ternyata
tidak, coba periksa koefisien korelasinya. Koefisien korelasi ( x,y) lebih besar dari 0,40 (0,60 –
0,80) bisa menyebabkan adanya masalah.
v) Kalau perlu lakukan pemisahan data secara struktural. Data pooling membutuhkan batasan
bahwa sebuah variabel independen memiliki pengaruh yang sama terhadap variabel dependen
pada kelompok data yang lain. Untuk itu bisa dilakukan uji ratio likelihood :
LR[i+1] = -2LL(pooled model) - [-2LL(sample 1) + -2LL(sample 2)]
Di mana sampel 1 dan 2 di-pooling, dan i adalah banyaknya variabel independen.
4.13. Regresi Logistik Multinomial
Pada default, prosedur Multinomial Logistic Regression menghasilkan sebuah model dengan
pengaruh utama faktor dan kovariat, namun peneliti dapat menspesifikasi sebuah model khusus
atau menggunakan pemilihan model stepwise dengan kotak dialog ini.
84
(a) Specify Model. Sebuah model pengaruh utama mengandung kovariat pengaruh utama faktor
tetapi tidak terhadap pengaruh interaksinya. Model full factorial mengandung seluruh
pengaruh utama dan seluruh interaksi factor-by-factor. Di dalamnya tidak mengandung
interaksi kovariat. Peneliti dapat membuat sebuah model khusus untuk menspesifikasi subsets
dari interaksi faktor atau interaksi kovariat, atau memilih stepwise kepada model.
(b) Factors & Covariates. Merupakan daftar faktor dan kovariat.
(c) Forced Entry Terms. Terms ditambahkan kepada daftar daftar entry yang dikuatkan yang
dilibatkan dalam model.
(d) Stepwise Terms. Terms ditambahkan daftar stepwise lyang dilibatkan dalam model berkaitan
dengan dengan salah satu pilihan metode Stepwise :
1) Forward entry. Metode ini dimulai tambah ada istilah stepwise dalam model. Pada setiap
langkah, term paling signifikan akan ditambahkan ke dalam model sampai tidak ada
sebuahpun dari term stepwise dikeluarkan dari model akan memiliki kontribusi statistik
yang signifikan jika ditambahkan ke dalam model itu.
2) Backward elimination. Metode ini dimulai dengan memasukkan seluruh term yang
dispesifikasi dalam daftar stepwise ke dalam model. Pada setiap langkah, term stepwise
85
paling kecil signifikansinya dibuang dari model sampai seluruh term stepwise yang tersisa
memiliki kontribusi yang signifikan kepada model.
3) Forward stepwise. Metode ini dimulai dengan model yang akan dipilih dengan metode
forward. Dari sana, algoritma memberikan alternatif antara eliminasi backward pada term
stepwise dalam model dan forward entry dalam term yang dipertahankan dalam model. Ini
akan berlanjut sampai tidak ada term yang memenuhi kriteria entry atau removal.
4) Backward stepwise. Metode ini dimulai dengan model yang akan dipilih dengan metode
backward. Dari sana, algoritma memberikan alternatif antara forward entry yang
dipertahankan pada model dan eliminasi backward pada term stepwise dalam model. Ini
berlanjut sampai tidak ada term yang memenuhi kriteria entry atau removal.
5) Include intercept in model. Memungkinkan peneliti untuk melibatkan atau mengabaikan
intercept dalam model.
Membangun Terms Untuk kovariat dan faktor yang dipilih :
Interaction. Membuat term interaksi tingkat paling tinggi dari seluruh variabel yang dipilih.
Main effects. Membuat sebuah term pengaruh utama untuk setiap variabel yang dipilih.
All 2-way. Membuat seluruh kemungkinan interaksi two-way dari variabel yang dipilih.
All 3-way. Membuat seluruh kemungkinan interaksi three-way dari variabel yang dipilih.
All 4-way. Membuat seluruh kemungkinan interaksi four-way dari variabel yang dipilih.
All 5-way. Membuat seluruh kemungkinan interaksi five-way dari variabel yang dipilih.
4.14. Simultaneous Equation Models
(1). Introduksi
Model-model regresi yang telah pernah dibicarakan, adalah sebuah model di mana
menjelaskan pengaruh sekelompok variabel bebas terhadap sebuah variabel bebas dalam berbagai
bentuk fungsi matematik (Y = f{Xi}).
Pada banyak situasi, kadang-kadang model tersebut tidak cukup berarti untuk menjelaskan
hubungan tersebut, karena hubungan yang sesungguhnya tidak hanya Y dipengaruhi oleh Xi, tetapi
ada beberapa Xi yang dipengaruhi pula oleh Y. Dengan kata lain ada hubungan dua arah antara Y
dan Xi. Jika terjadi situasi seperti itu, maka lebih baik mengembangkan persamaan regresi tunggal
menjadi simultan (bisa dalam bentuk dua atau lebih fungsi regresi yang diproses bersama-sama
untuk menghitung koefisiennya masing-masing).
86
Sifat hubungan variabel dependen antar fungsi regresi itu bisa mutually atau jointly21
Dependen variabel disebut juga endogenous variables. Dalam konteks persamaan simultan di mana
variabel-variabel dependen bersifat jointly, variabel bebas lain yang bersifat predetermined disebut
sebagai exogenous variables.
Contoh persamaan simultan prototip adalah :
Y1i = 10 + 12 Y2i + 1i X1i + u1i . . . . . (4.21)
Y2i = 20 + 21 Y1i + 2i X1i + u2i . . . . . (4.22)
Di mana, Y1 dan Y2 adalah mutually dependent variable yang bersifat stokastik atau disebut
sebagai variabel endogen, X1 sebagai variabel eksogen dan u1 dan u2 adalah variabel disturbansi
stokastik. Selama belum bisa dibuktikan bahwa Y2 pada fungsi-1 bersifat independen terhadap u1
dan Y1 pada fungsi-2 bersifat independen terhadap u2; maka pendekatan OLS cenderung
menghasilkan estimasi koefisien yang tidak konsisten.
(2). Notasi dan Definisi
Notasi /umum untuk M fungsi regresi simultan adalah . . . . . (4.23)
Y1t = 12 Y2t + 13 Y3t + . . . + 1M YMt + 11 X1t + 12 X2t + . . . + 1K XKt + u1t
Y2t = 21 Y1t + 23 Y3t + . . . + 2M YMt + 21 X1t + 22 X2t + . . . + 2K XKt + u2t
Y3t = 31 Y1t + 32 Y2t + . . . + 3M YMt + 31 X1t + 32 X2t + . . . + 3K XKt + u3t
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
YMt = M1 Y1t + M2 Y2t + . . . + M.M-1 YM-1.t + M1 X1t + M2 X2t + . . . + MK XKt + uMt
Di mana,
Y1, Y2, . . . YM = variabel independen atau variabel endogen sebanyak M buah,
X1, X2, . . . XK = variabel eksogen sebanyak K buah (sebuah variabel X boleh bernilai dalam unitas untuk dapat menghitung intercept),
u1, u2, . . . uM = variabel disturbansi sebanyak M buah,
t = 1, 2, . . . N = banyaknya observasi, = koefisien variabel endogen,
= koefisien variabel eksogen.
Catatan : dari formulasi umum model persamaan simultan tersebut di atas tampak bahwa
tidak semua variabel muncul pada setiap persamaan.
Dua jenis variabel yang masuk ke dalam persamaan simultan ada dua jenis, yaitu :
endogen di mana nilainya ditentukan di dalam model; dan predetermined, di mana nilainya
ditentukan di luar model. Variabel endogen dipandang sebagai stokastik sedang variabel eksogen
diperlakukan sebagai non-stokastik.
21 Damodar Gujarati, 2008: 336.
87
Variabel predetermined dibagi menjadi dua katagori, yaitu : eksogen (current dan lagged)
dan lagged endogenous. Xit adalah variabel eksogen yang current, Xit-1 adalah lagged exogenous;
sedangkan Y1t-1 walaupun lagged endogenous variable, dan karena Y1t-1 dapat diketahui pada
periode-t, Y1t-1 (ini dapat dikatagorikan sebagai non-skokastik) sehingga Y1t-1 merupakan
predetermined variable. Secara singkat, dapat dikatakan bahwa current exogenous, lagged
exogenous dan lagged endogenous dianggap sebagai predetermined variables, di mana nilainya
tidak ditentukan oleh model pada periode-t itu.
Penentuan manakah variabel yang dianggap eksogen dan endogen, tergantung kepada si
pemodel, dan ini sangat tergantung kepada teori yang mendasari pada saat ia membangun
modelnya.
Fungsi-4.23 di atas disebut sebagai persamaan struktural atau behavioral; karena model itu
menggambarkan sebuah struktur model ekonomi atau perilaku dari pelaku ekonomi (konsumen
atau produsen). dan disebut sebagai structural parameters atau structural coefficients.
Pada persamaan struktural, peneliti dapat menyelesaikan sebanyak M buah variabel
endogen dan menurunkannya dalam bentuk fungsi tereduksi.
Sebuah fungsi tereduksi (reduced form equation) adalah sebuah bentuk fungsi yang
mengekspresikan sebuah variabel endogen secara eksklusif yang menjelaskan variabel
predetermined dan disturbansi yang skotastik.
Contoh model Keynesian tentang pendapatan masyarakat :
Fungsi konsumsi : Ct = 0 + 1 Yt + ut 0 < 1 < 1 . . . . . (4.24)
Identitas penghasilan : Yt = Ct + It . . . . . (4.25)
Pada model (struktural) simultan tersebut di atas, C (consumption) dan Y (income)
merupakan variabel endogen dan I (investment expenditure) dianggap sebagai variabel eksogen.
Fungsi-4.25 merupakan fungsi identitas. Sebagaimana biasa, 1, marginal propensity to consump
(MPC) bernilai antara 0 dan 1.
Jika fungsi-4.24 disubstitusikan ke dalam persmaan-4.25, akan dihasilkan fungsi berikut :
Yt = 0 + 1 It + wt . . . . . (4.26)
0 1
0 = 1 =
1 - 1 1 - 1 . . . . . (4.27)
ut wt =
1 - 1
Fungsi-4.26 adalah fungsi tereduksi, yang menjelaskan variabel endogen Y secara spesifik
merupakan fungsi variabel I dan disturbansi stokastik, u. 0 dan 1 merupakan koefisien dari
88
fungsi tereduksi. Terlihat bahwa koefisien tersebut merupakan kombinasi non linier dari koefisien
fungsi strukturalnya.
Substitusi nilai Y dari fungsi-4.26 ke dalam C pada fungsi-4.24, akan dihasilkan fungsi
tereduksi lainnya :
Ct = 2 + 3 It + wt
Di mana,
0 1
2 = 3 =
1 - 1 1 - 1
ut . . . . . (4.28) wt =
1 - 1
Koefisien fungsi tereduksi, seperti 1 dan 3 juga disebut sebagai impact multipliers,
karena koefisien tersebut mengukur dampak terhadap variabel endogen dari setiap unit nilai
perubahan variabel eksogen. Jika pada model Keynesian pengeluaran investasi meningkat sebesar
$ 1.00; dan jika MPC diasumsikan = 0,80, maka dari fungsi-4.27, 1 = 5. Ini mengartikan bahwa
peningkatan pengeluaran investasi sebesar $ 1.00 akhirnya akan menimbulkan kecenderungan
meningkatnya pendapatan sebesar $ 5.00. Di bawah asumsi yang ada, fungsi-8 menghasilkan 3 =
4; ini mengartikan bahwa peningkatan pengeluaran investasi sebesar $ 1.00 akan meningkatkan
pengeluaran untuk konsumsi sebesar $ 4.00.
Dalam konteks model ekonometrika, seperti fungsi-4.25, atau model Qd = Qs (kuantitas
demand = kuantitas suplai) disebut sebagai kondisi ekuilibrium. Fungsi identitas tersebut
menyatakan bahwa agregrasi pendapatan harus sama dengan agregrasi pengeluaran konsumsi dan
pengeluaran investasi. Jika kondisi ekuilibrium tercapai, variabel endogen diasumsikan bahwa
mereka memiliki nilai ekuilibrium. Ekuilibrium pendapatan akan memberikan nilai ekuilibrium
konsumsi. Dampak multiplier selanjutnya merupakan tingkat perubahan nilai ekuilibrium tersebut
pada saat ekuilibrium di”ganggu” oleh perubahan variabel eksogen.
Metode OLS masih bisa diaplikasikan untuk mengestimasi koefisien fungsi tereduksi ( )
dan selanjutnya dari estimasi koefisien ini dapat diestimasikan koefisien fungsi regresi strukturalnya
( ). Prosedur ini yang disebut sebagai indirect least squares (ILS).
(3). Persoalan Identifikasi
Persoalan identifikasi diartikan di sini sebagai : apakah estimasi nilai numerik koefisien
fungsi struktural bisa diperoleh dari estimasi koefisien fungsi tereduksi atau tidak. Jika jawabannya
“ya”, dapat dikatakan bahwa fungsi tertentu teridentifikasi (identified). Jika tidak, maka dapat
89
dikatakan bahwa fungsi tersebut underidentified. Sebuah fungsi teridentikasi bisa teridentifikasi
sempurna (excatly) atau overidentified. Dikatakan teridentifikasi sempurna jika nilai numerik yang
unik dari parameter-parameter persamaan struktural bisa diperoleh. Dikatakan overidentified jika
lebih dari sebuah nilai numerik dari beberapa parameter dapat diperoleh untuk beberapa
persamaan strukturalnya.
Persoalan identifikasi ini muncul bisa disebabkan dari salah satu sebab berikut ini :
sekumpulan koefisien persamaan struktural mungkin cocok dengan sekelompok data yang sama.
Fungsi tereduksi tertentu bisa cocok untuk persamaan-persamaan struktural yang berbeda, atau
cocok untuk hipotesis yang berbeda.
a. Kasus fungsi underidentification.
Fungsi Demand : Qdt = 0 + 1 Pt + uit 1 < 0 . . . . . (4.29)
Fungsi Suplai : Qst = 0 + 1 Pt + u2t 1 > 0 . . . . . (4.30)
Pada kondisi ekuilibrium : Qdt = Qs
t
0 + 1 Pt + uit = 0 + 1 Pt + u2t . . . . . (4.31)
Pt = 0 + t . . . . . (4.32)
0 - 0
0 = . . . . . (4.33)
1 - 1
u2t – u1t t = . . . . . (4.34)
1 - 1
Substitusi Pt dari fungsi-4.32 ke dalam fungsi-4.29 dan fungsi-4.30 menghasilkan kuantitas
ekuilibrium :
Qt = 1 + wt . . . . . (4.35)
1 0 - 0 1
1 = . . . . . (4.36)
1 - 1
1 u2t - 1 u1t
w1 = . . . . . (4.37) 1 - 1
Secara kebetulan, terlihat bahwa t dan wt merupakan kombinasi linier dari penyimpangan
standard, u1 dan u2.
Fungsi-4.32 dan fungsi-4.35 adalah fungsi tereduksi. Sekarang, model suplai-demand
mengandung empat koefisien struktural : 0, 1, 0 dan 1, tetapi tidak pendekatan unik yang bisa
digunakan untuk mengestimasi nilai koefisien-koefisien tersebut. Ini disebabkan karena kedua
90
koefisien tereduksi pada fungsi-5.33 dan fungsi-5.36 mengandung keempat parameter struktural
tersebut, dan tentu tidak bisa diestimasikan melalui dua buah koefisien fungsi tereduksi.
Pendekatan alternatif bisa dilakukan, yaitu dengan mengkalikan fungsi-4.29 dengan dan
mengkalikan fungsi-4.30 dengan (1 - ). Q suplai dan demand pada kondisi ekuilibrium bisa
dihilangkan superscript-nya, menjadi Q saja :
Qdt = 0 + 1 Pt + uit . . . . . (4.38)
(1 - ) Qst = (1 - ) 0 + (1 - ) 1 Pt + (1 - ) u2t . . . . . (4.39)
Menambahkan ke dua fungsi ini menghasilkan empat buah kombinasi linier dari fungsi
suplai – demand aslinya, sebagai berikut :
Qt = 0 + 1 Pt + wt . . . . . (4.40)
0 = 0 + (1 - ) 0
1 = 1 + (1 - ) 1 . . . . . (4.41)
wt = u1t + (1 - ) u2t
Fungsi-4.40 yang tampak “keliru”, sebenarnya tidak berbeda dengan fungsi-4.29 atau
fungsi-4.30, karena semua fungsi itu merupakan fungsi regresi yang melibatkan Q yang melibatkan
P (jadi untuk sekelompok data time series tertentu, fungsi-4.29, fungsi-4.30 dan fungsi-4.40 dapat
sesuai untuk diaplikasi).
b. Kasus fungsi excatly identification.
Fungsi Demand : Qdt = 0 + 1 Pt + 2 It + uit 1 < 0, 2 > 0 . . . . . (4.42)
Fungsi Suplai : Qst = 0 + 1 Pt + u2t 1 > 0 . . . . . (4.43)
Di mana I = pendapatan konsumen, dan merupakan variabel eksogen.
Tampak persamaan-persamaan ini agak berbeda dengan model Keynesian, sebab pada
fungsi-4.42 ada tambahan variabel pendapatan (I) di mana koefisiennya ( 2) diharapkan positif.
Dengan menggunakan mekanisme pasar, pada kondisi ekuilibrium : Qd = Qs;
0 + 1 Pt + 2 It + uit = 0 + 1 Pt + u2t . . . . . (4.44)
maka, Pt = 0 + 1 It + t . . . . . (4.45)
Koefisien tereduksi adalah : 0 - 0 0 = 1 - 1 2 1 = - . . . . . (4.46) 1 - 1 u2t – u1t t = 1 - 1
91
Substitusi P ekuilibrium terhadap fungsi-4.42 atau fungsi-4.43, akan menghasilkan
kuantitas ekuilibirum :
Qt = 2 + 3 It + wt . . . . . (4.47)
Di mana, 1 0 - 0 1 2 = 1 - 1 2 1 3 = - . . . . . (4.48) 1 - 1 1 u2t – 1 u1t wt = 1 - 1
Karena fungsi-4.45 dan fungsi-4.47 merupakan fungsi tereduksi, maka OLS bisa diterapkan
untuk mengestimasi parameternya. Sekarang, model suplai-demand (fungsi-4.42 dan fungsi-4.43)
mengandung lima koefisien struktural, 0, 1, 2, 0, dan 1; tetapi hanya ada empat persamaan
untuk mengestimasi koefisien tereduksi, 0, 1, 2 dan 3 yang dikandung fungsi-4.46 dan fungsi-
4.48. Ini tidak memungkinkan untuk mengestimasi ke lima koefisien struktural-nya, namun masih
bisa diestimasi koefisien 0 dan 1 (pada fungsi suplai) melalui :
0 = 2 - 1 0
3 1 = . . . . . (4.49) 1
Persoalan muncul pada saat harus menghitung standard error untuk 1, karena 1
merupakan fungsi non linier terhadap koefisien tereduksi.
Untuk fungsi demand, tidak ada cara unik untuk mengestimasi, sehingga fungsi tersebut
tetap tidak teridentifikasi.
Bandingkan model suplai-demand berikut :
Fungsi Demand : Qdt = 0 + 1 Pt + 2 It + uit 1 < 0, 2 > 0 . . . . . (4.50)
Fungsi Suplai : Qst = 0 + 1 Pt + 2 Pt-1 + u2t 1 > 0, 2 > 0 . . . . . (4.51)
Fungsi suplai seperti tersebut di atas biasanya diaplikasi pada komoditi pertanian. Variabel
Pt-1 merupakan variabel predetermined, karena pada periode-t nilainya dapat diketahui.
Pada kondisi ekuilibrium :
0 + 1 Pt + 2 It + uit = 0 + 1 Pt + 2 Pt-1 + u2t . . . . . (4.52)
Penyelesaian terhadap persamaan ini menghasilkan :
Pt = 0 + 1 It + 2 Pt-1 + t . . . . . (4.53)
Di mana,
92
0 - 0 0 = 1 - 1 2 1 = - . . . . . (4.54) 1 - 1 2 2 = 1 - 1 u2t – u1t t = 1 - 1
Substitusi harga ekuilibrium ke dalam fungsi demand dan fungsi suplai, diperoleh kuantitas
ekuilibrium :
Qt = 3 + 4 It + 5 Pt-1 + wt . . . . . (4.55)
Di mana koefisien tereduksi adalah :
1 0 - 0 1 3 = 1 - 1
2 1 4 = . . . . . (4.56) 1 - 1
1 2 5 = 1 - 1
1 u2t – 1 u1t wt = 1 - 1
Fungsi suplai-demand (fungsi-4.50 dan fungsi-4.51) tersebut di atas mengandung enam
koefisien struktural, 0, 1, 2, 0, 1 dan 2 dan ada enam koefisien tereduksi untuk
mengestimasinya, yaitu : 0, 1, 2, 3, 4 dan 5; sehingga ada solusi unik. Dengan demikian,
parameter-parameter kedua fungsi suplai-demand dapat diidentifikasi.
Untuk menguji bahwa fungsi suplai-demand tersebut di atas bisa teridentifikasi, bisa
dilakukan dengan cara perlakuan seperti fungsi-4.29 dan fungsi-4.30; yaitu dikalikan dengan (0 <
< 1) dan (1 - ).
c. Kasus fungsi overidentification.
Untuk produk dan jasa tertentu, pendapatan konsumen sama baiknya dengan
kesejahteraan konsumen sebagai determinan kepada permintaannya. Ini bisa dilihat pada fungsi
suplai-demand berikut :
Fungsi Demand : Qdt = 0 + 1 Pt + 2 It + 3 Rt +uit . . . . . (4.57)
Fungsi Suplai : Qst = 0 + 1 Pt + 2 Pt-1 + u2t . . . . . (4.58)
93
Di mana R adalah kesejahteraan, dan sama dengan pendapatan, diharapkan memiliki
koefisien yang positif. Pada kondisi ekuilibrium :
0 + 1 Pt + 2 It + 3 Rt +uit = 0 + 1 Pt + 2 Pt-1 + u2t
Penyelesaian terhadap persamaan ini menghasilkan :
Pt = 0 + 1 It + 2 Rt + 3 Pt-1 + t . . . . . (4.59)
Qt = 4 + 5 It + 6 Rt + 7 Pt-1 + wt . . . . . (4.60)
Di mana, 0 - 0 0 = 1 - 1
2 1 = - 1 - 1 3 2 = - 1 - 1 u2t – u1t t = 1 - 1 2 3 = 1 - 1 . . . . . (4.61)
1 0 - 0 1 4 = 1 - 1 2 1 5 = - 1 - 1 3 1 6 = - 1 - 1 1 2 7 = 1 - 1 1 u2t – 1 u1t wt = 1 - 1
Ada tujuh koefisien struktural dan delapan koefisien tereduksi; hal ini mengindikasikan
bahwa tidak ada solusi unik untuk mengestimasi ketujuh koefisien struktural tersebut.
Ini bisa terlihat dari dua estimasi 1 :
6 5
1 = atau 1 =
2 1
94
Pada fungsi demand ada dua buah variabel yang sebenarnya menggambarkan suatu aspek
saja; atau dapat dikatakan pada fungsi demand tersebut terlalu banyak variabel yang mirip
(pendapatan sebenarnya merupakan proksi kesejahteraan).
Walaupun dalam kasus overidentification ini fungsi-fungsi eksplisit yang dihasilkan tidak
cukup baik untuk menjelaskan fenomena yang sesungguhnya, namun masih bisa diatasi dengan
pendekatan metode two stages least squares (2SLS).
(4). Aturan dalam Identifikasi
Dalam mengidentifikasi sebuah fungsi dari sebuah model simultan, diperlukan dua buah
syarat yang setara, yaitu syarat perlu (order condition) dan syarat cukup (rank condition).
a. Order Condition
Sebuah syarat perlu (tetapi tidak cukup) untuk persoalan identifikasi (selanjutnya disebut
sebagai order condition), bisa dinyatakan dalam dua cara yang berbeda tetapi setara. Order dalam
hal ini merujuk kepada dimensi sebuah matriks, yaitu jumlah baris dan kolomnya. Untuk lebih
memahami order condition, terlebih dahulu perlu dinotasikan simbul-simbul yang akan terlibat
nantinya, yaitu :
M = banyaknya variabel endogen dalam model simultan,
m = banyaknya variabel endogen pada sebuah fungsi tunggal tertentu,
K = banyaknya variabel eksogen dalam model simultan,
k = banyaknya variabel eksogen pada sebuah fungsi tunggal tertentu.
Definisi tentang ke-identitasan fungsi yang berkaitan dengan syarat perlu adalah :
(1) Dalam rangka mengidentifikasi sebuah fungsi pada sebuah model simultan yang terdiri dari
M buah fungsi, harus tidak mengandung paling sedikit M-1 buah variabel (endogen
maupun eksogen) dalam model simultan tersebut. Jika hanya tidak mengandung M – 1
buah variabel, maka fungsi itu disebut sebagai sekedar teridentifikasi (just identified) dan
jika tidak mengandung lebih dari M – 1 buah variabel, maka dikatagorikan sebagai
overidentified.
(2) Dalam rangka mengidentifikasi sebuah persamaan pada sebuah model simultan yang
terdiri dari M buah fungsi, banyaknya variabel eksogen yang tidak ada dalam fungsi tunggal
yang akan diidentifikasi harus tidak kurang dari banyaknya variabel endogen dalam sebuah
fungsi tertentu yang akan diuji identitasnya, atau : K – k > m – 1. Jika ternyata berlaku K
95
– k = m – 1, fungsi tersebut sekedar teridentifikasi dan jika ternyata berlaku K – k > m – 1,
fungsi tersebut overidentified.
b. Rank Condition
Definisi tentang ke-identitasan fungsi yang berkaitan dengan syarat cukup adalah :
Dalam sebuah model simultan yang terdiri dari M buah fungsi (dan M buah variabel endogen),
sebuah fungsi bisa diidentifikasi, jika dan hanya jika (if and only if), paling sedikit sebuah
variabel determinan non-zero harus bisa dikonstruksi sebanyak (M -1)(M – 1) buah dari
koefisien variabel (endogen maupun eksogen) yang tidak ada dalam fungsi tertentu yang akan
diidentifikasi tetapi ada pada fungsi-fungsi lain dalam model simultan tersebut.
Sebagai ilustrasi, perhatikan model simultan berikut :
Y1t - 10 - 12 Y2t - 13 Y3t - 11X1t = u1t
Y2t - 20 - 23 Y3t - 21X1t - 22X2t = U2t
Y3t - 30 - 31 Y1t - 31X1t - 32X2t = U3t
Y4t - 40 - 41 Y1t - 42 Y2t - 43X3t = U4t
Model simultan ini dapat ditulis dengan bentuk matriks berikut :
Matriks Sistim Model Simultan.
1 Y1 Y2 Y3 Y4 X1 X2 X3 - 10 1 - 12 - 13 0 - 11 0 0
- 20 0 1 - 23 0 - 21 - 22 0
- 30 - 31 0 1 0 - 31 - 32 0
- 40 - 41 - 42 0 1 0 0 - 43
Berdasar syarat perlu dapat dibuat tabel status ke-identitasan fungsi :
Tabel 4.15 Status Ke-identitasan Fungsi.
Banyaknya variabel eksogen yang tidak ada dalam fungsi
(atau K – k)
Banyaknya variabel endogen yang ada dikurangi 1 (atau m
– 1) Status Identitas
2 2 Excatly
1 1 Excatly
1 1 Excatly
2 2 Excatly
Lihat fungsi pertama dari model simultan, berdasar syarat cukup, fungsi ini tidak
mengandung variabel Y4, X2 dan X3. Untuk mengidentifikasinya, fungsi ini seharusnya minimal
paling sedikit tidak memiliki determinan nonzero berdimensi 3 x 3 dari koefisien variabel yang tidak
ada dalam fungsi tetapi ada pada fungsi-fungsi lainnya.
Untuk memperoleh determinan nonzero dari variabel-variabel yang tak terkandung dalam
fungsi ini, perhatikan matriks berikut (Y4, X2 dan X3) :
96
0 - 22 0
A = 0 - 32 0
1 0 - 43
Determinan matriks tersebut adalah :
0 - 22 0
A = 0 - 32 0 = 0
1 0 - 43
Karena determinan matriks A = 0, maka rank matriks tersebut, disimbulkan sebagai (A)
kurang dari 3. Maka fungsi pertama itu tidak dapat diidentifikasi, walaupun berdasar syarat
perlunya ia bisa diidentifikasi. Tampaknya kolom-kolom dan baris-baris matriks ini tidak tidak linier
independen, dan bisa diartikan bahwa ada hubungan antara Y4, X2 dan X3. Hal ini dapat
menyebabkan kurangnya informasi untuk mengestimasi parameter fungsi.
Catatan :
Untuk mengaplikasi rank condition, prosedur yang harus dilakukan adalah :
a. tulis kembali sistim model simultan dalam bentuk seperti Tabel 1.
b. hilangkan koefisien pada baris-baris variabel yang ada pada fungsi yang diidentifikasi.
c. hilangkan juga koefisien pada kolom-kolom yang bersangkutan.
d. tabel yang tersisa merupakan matriks koefisien-koefisien variabel yang tidak ada pada
fungsi yang diidentifikasi tetapi ada pada fungsi-fungsi lain dalam model simultan. Jika
determinan matriks ini 0, maka fungsi ini berstatus just identified atau overidentified,
maka Rank matriks ini sama dengan M-1. Sebaliknya jika tidak maka fungsi berstatus
underidentified. Jika seluruh kemungkinan (M – 1)(M – 1) determinan = 0, maka rank
matriks kurang dari M – 1, dan ini menunjukkan bahwa fungsi yang diteliti berstatus tidak
teridentifikasi (underidentified).
Secara umum, kemudian dapat disimpulkan hal-hal berikut :
1. jika K – k > m – 1 dan rank matriks = M – 1, fungsi berstatus overidentified.
2. jika K – k = m – 1 dan rank matriks = M – 1, fungsi berstatus exactly identified.
3. jika K – k > m – 1 dan rank matriks kurang dari M – 1, fungsi berstatus underidentified.
4. jika K – k < m – 1, fungsi struktural berstatus underidentified. Rank matrik dalam hal ini <
M – 1.
97
(5). Pendekatan Estimasi Parameter
Pada saat membangun sebuah model simultan yang terdiri atas M buah persamaan dan M
buah variabel endogen, peneliti dapat menggunakan dua pendekatan untuk mengestimasi koefisien
struktural, yaitu : metode informasi terbatas (limited information methods) atau disebut juga
sebagai metode persamaan tunggal (single equation methods), dan metode informasi penuh (full
information methods).
Pada metode persamaan tunggal, estimasi dilakukan pada setiap fungsi dalam model
simultan secara individual dengan memperhatikan setiap keterbatasan yang diketemukan pada
fungsi tunggal tersebut tanpa perlu merasa peduli dengan keterbatasan-keterbatasan yang ada
pada fungsi-fungsi lainnya.
Pada metode full information, estimasi parameter seluruh fungsi dilakukan serempak
dengan mempertimbangkan seluruh keterbatasan yang ada pada masing-masing fungsi, hal ini
berkaitan sekali dengan persoalan identifikasi masing-masing fungsi tunggal. Perhatikan contoh di
bawah ini :
Y1t = - 10 - 12 Y2t - 13 Y3t - 11X1t + u1t
Y2t = - 20 - 23 Y3t - 21X1t - 22X2t + U2t
Y3t = - 30 - 31 Y1t - 31X1t - 32X2t + U3t
Y4t = - 40 - 41 Y1t - 42 Y2t - 43X3t + U4t
Di mana Y adalah variabel endogen dan X adalah variabel eksogen. Jika peneliti bermaksud
mengestimasi parameter pada fungsi ke tiga saja, maka dapat digunakan metode persamaan
tunggal hanay kepada fungsi tersebut. Di lain pihak, pada metode full information, seluruh fungsi
dilibatkan untuk mengestimasi seluruh parameter yang ada dengan tetap mempertimbangkan
segala keterbatasan yang muncul pada setiap fungsi tunggalnya.
Sebuah metode full information yang telah lebih disempurnakan antara Full Information
Maximum Likelyhood (FIML)22, walaupun untuk beberapa alasan teknis, metode ini jarang
digunakan, karena : beban hitungan yang kompleks. Contoh, penelitian Klein-Goldberger (1955)
untuk mengestimasi 51 buah koefisien struktural dibutuhkan 151 koefisien tereduksi. Demikian pula
penelitian yang dilakukan The Brookings-Social Science Research Council pada tahun 1965 (SSRC),
harus membangun 150 fungsi tunggal.23
Untuk keperluan praktis, maka pembahasan akan dibatasi pada metode limited information,
khususnya : (1) Ordinary Least Squares (OLS), (2) Indirect Least Squares (ILS) dan (3) Two-stage
Least Squares (2SLS).
22 Carl F. Christ, 2001:395-401. 23 James S. Dussenberry dan kawan-kawan, 1985:265.
98
Klein menyatakan bahwa : “metode persamaan tunggal, dalam konteks sistim simultan
mungkin kurang sensitif terhadap spesifikasi error dalam hal bagian-bagian sistim yang
dispesifikasi dengan benar, bisa tidak dipengaruhi oleh kesalahan spesifikasi pada bagian lain.”
a. Model Rekursif dan OLS
Sebuah model rekursif walaupun tidak terlalu tepat diestimasi dengan OLS, namun pada
sampel besar, inkonsistensinya bisa diabaikan. Contoh model simultan rekursif berikut :
Fungsi Harga : Pt = 10 + 11 Wt-1 + 12 Rt + 13 Mt + 14 Lt + u1t . . . . . (4.62)
Fungsi Gaji : Wt = 20 + 21 UNt + 22 Pt + u2t . . . . . (4.63)
Di mana,
P = tingkat perubahan harga/unit output,
W = tingkat perubahan gaji/pegawai,
R = tingkat perubahan harga modal,
M = tingkat perubahan harga impor,
L = tingkat perubahan produktivitas buruh,
UN = tingkat pengangguran.
Seluruh variabel merupakan tingkat perubahan pada periode-t, dan dinyatakan dalam
persentase.
Persamaan harga (fungsi-4.62) mengasumsikan bahwa tingkat perubahan harga pada
periode-t merupakan fungsi dari perubahan harga modal, harga bahan baku, perubahan
produktivitas buruh pada periode yang sama dan perubahan gaji pegawai pada periode t-1.
Persamaan gaji (fungsi-4.63) menunjukkan bahwa tingkat perubahan gaji pada periode-t
ditentukan oleh perubahan harga dan tingkat pengangguran pada periode yang sama. Ini
menjelaskan bahwa hubungan sebab-akibat bermula dari Wt-1 Pt Wt, sehingga OLS dapat
diaplikasi untuk mengestimasi kedua persamaan tersebut secara individual.
b. Fungsi Just Identification dan Metode Indirect Least Squares (ILS)
Untuk persamaan struktural yang berstatus just identification, metode mengestimasi
koefisien struktural melalui metode OLS terhadap koefisien tereduksi, disebut sebagai indirect least
squares (ILS). Tiga langkah dalam prosedur ILS adalah :
(1). Lakukan terlebih dahulu reduksi terhadap persamaan struktural, hasilnya adalah fungsi
tereduksi.
99
(2). Aplikasikan OLS terhadap fungsi tereduksi secara individual. Ini bisa dilakukan mengingat
variabel eksplanatori dalam persamaan ini berstatus predetermined dan tidak berkorelasi
dengan disturbansi stokastiknya, sehingga hasil estimasi konsisten24.
(3). Estimasi koefisien struktural dapat dihitung dari koefisien tereduksi yang dihasilkan pada
langkah-(2).
Sebuah model simultan berikut :
Fungsi demand : Qdt = 0 + 1 Pt + 2 Xt + u1t . . . . . (4.64)
Fungsi suplai : Qst = 0 + 1 Pt + u2t . . . . . (4.65)
Di mana,
Q = kuantitas,
P = harga,
X = pendapatan.
Diasumsikan bahwa X adalah variabel eksogen. Pada pembahasan sebelumnya telah
dibuktikan bahwa fungsi suplai berstatus exactly identified, sedang fungsi demand tidak
teridentifikasi. Hasil reduksi terhadap persamaan struktural adalah :
Pt = 0 + 1 Xt + wt . . . . . (4.66)
Qt = 2 + 3 Xt + t . . . . . (4.67)
Di mana, parameter adalah koefisen tereduksi dan merupakan kombinasi non linier dari
koefisien struktural. w dan merupakan kombinasi linier dari disturbansi struktural, u1 dan u2.
Setiap fungsi tereduksi hanya mengandung sebuah variabel endogen yaitu variabel
dependen, sehingga parameter dari fungsi tereduksi tersebut bisa diestimasi melalui OLS; yaitu :
^ pt.xt
1 = . . . . . (4.68) xt
2
^ ^
0 = P - 1 X . . . . . (4.69)
^ qt.xt
3 = . . . . . (4.70) xt
2
^
^
0 = Q - 3 X . . . . . (4.71)
Selanjutnya adalah mengestimasi koefisien struktural dengan :
^ ^ 0 = 2 - 1 0
^
3 . . . . . (4.72) 1 =
^
1
24 W. C. Hood and Tjalling C. Koopmans, 2002:133.
100
Catatan :
Simbul-simbul dengan huruf kecil - Italic, menunjukkan variabel yang bersangkutan telah
dinormalkan (normalized variable). Simbul dengan tanda bar di atasnya adalah rata-rata sampel
masing-masing variabel yang bersangkutan.
Berikut ini contoh numerik persamaan simultan di atas (fungsi-4.64 dan fungsi-4.65) :
Fungsi demand : Qdt = 0 + 1 Pt + 2 Xt + u1t
Fungsi suplai : Qst = 0 + 1 Pt + u2t
Tabel 4.16 Indeks Produksi, Indeks Harga dan Pengeluaran Riil
Konsumen Tahun 1990 – 2004.
Tahun Indeks
Produksi (Q)
Indeks Harga
(P)
Pengeluaran Konsumen
(X)
1990 93 99 1883
1991 92 100 1909
1992 92 103 1969
1993 96 106 2015
1994 93 106 2126
1995 99 103 2239
1996 95 105 2335
1997 100 100 2403
1998 103 101 2486
1999 104 97 2534
2000 101 100 2610
2001 112 107 2683
2002 113 115 2779
2003 119 164 2945
2004 110 212 2846
Aplikasi metode ILS melalui prosedur berikut (dengan bantuan program Excel) :
(1) regresikan Q terhadap X secara individual dengan OLS, menghasilkan printout : SUMMARY OUTPUT
Regression Statistics Multiple R 0,930706 R Square 0,866213
Adjusted R Square
0,855922
Standard Error 3,264809
Observations 15
ANOVA
df SS MS F Significance F Regression 1 897,1665 897,1665 84,16998 4,84293E-02 Residual 13 138,5667 10,65898
Total 14 1035,733
101
Coefficients Standard Error
t Stat P-value
Intercept 47,2196 5,972645 7,905980 2,54455E X Variable 1 0,0228 0,002480 9,174420 4,84293E
Fungsi eksplisitnya adalah :
Qt = 47,2196 + 0,0228 Xt
(0,0025) R2 = 0,8662
t = (9,1744) (2). regresikan P terhadap X secara individual dengan OLS, menghasilkan printout : SUMMARY OUTPUT
Regression Statistics
Multiple R 0,581142
R Square 0,337726
Adjusted R Square
0,286782
Standard Error 26,58351
Observations 15
ANOVA
df SS MS F Significance F
Regression 1 4684,852 4684,852 6,629353 0,023085
Residual 13 9186,881 706,6831
Total 14 13871,73
Coefficients Standard Error
t Stat P-value
Intercept -9,4283 48,63189 -0,193872 0,849272
X Variable 1 0,05199 0,020193 2,574753 0,023085
Fungsi eksplisitnya adalah :
Pt = - 9,4283 + 0,05199 Xt
(0,0202) R2 = 0,3377 t = (2,5747)
(3) Estimasi koefisien struktural dengan persamaan-4.53.
Dari kedua fungsi tereduksi eksplisit yang dihasilkan, dapat diketahui estimasi koefisien-
koefisien tereduksi :
0 = - 9,4283 2 = 47,2196
1 = 0,0519 3 = 0,0228
Dengan persamaan-4.55, dihasilkan estimasi koefisien struktural : 0 = 51,3453 dan 1 =
0,4376.
102
Fungsi eksplisit struktural (merupakan fungsi suplai, sebab fungsi demand telah terbukti
tidak teridentifikasi) yang dihasilkan adalah :
Qt = 51,3453 + 0,4376 Pt + u2t
Untuk fungsi suplai, terlihat bahwa koeifisen harga bertanda positif.
c. Fungsi Overidentification dan Metode Twostage Least Squares (2SLS)
Berikut model simultan tentang pendapatan dan suplai uang :
Fungsi Pendapatan : Y1t = 0 + 11 Y2t + 11 X1t + 12 X2t + u1t . . . . . (4.73)
Fungsi Suplai Uang : Y2t = 20 + 21 Y1t + u2t . . . . . (4.74)
Di mana,
Y1 = pendapatan,
Y2 = persediaan uang,
X1 = pengeluaran untuk investasi,
X2 = pengeluaran pemerintah untuk belanja barang dan jasa.
X1 dan X2 merupakan variabel eksogen.
Fungsi pendapatan (fungsi-4.73) merupakan kombinasi pendekatan teori kuantitas
keynesian kepada determinasi pendapatan, menyatakan bahwa : pendapatan ditentukan oleh
suplai uang, pengeluaran investasi dan pengeluaran pemerintah. Fungsi suplai uang (fungsi-4.74)
mengasumsikan bahwa persediaan uang ditentukan (oleh sistim cadangan nasional) berbasis
kepada tingkat pendapatan.
Tampak bahwa fungsi pendapatan tidak teridentifikasi, semetara fungsi suplai uang
berstatus overidentified. Tidak banyak yang bisa dilakukan untuk merubah spesifikasi fungsi
pendapatan. Fungsi suplai uang yang overidentified tidak bisa diestimasi dengan ILS, karena ada
dua buah estimasi untuk 21 (ini bisa dibuktikan melalui koefisien tereduksi).
OLS bisa diaplikasi kepada fungsi suplai uang, tetapi hasil estimasi koefisien tidak
konsisten, karena terlihat ada korelasi antara Y1 dengan u2. Pada situasi ini harus dicari sebuah
proxy lain untuk Y1 (proxy disebut sebagai variabel instrumen, yaitu variabel lain yang berkorelasi
tinggi dengan Y1 tetapi tidak dengan u2). Jika proxy itu dapat diketemukan, maka OLS secara
langsung dapat diaplikasi untuk fungsi supal iuang tersebut. Tetapi jika tidak, pendekatan lain bisa
dilakukan, yaitu melalui metode two stage least squares (2SLS) yang dikembangkan oleh Henry
Theil25 dan Robert L. Basmann26. Prosedur dalam 2SLS adalah sebagai berikut :
25 Henry Theil, Repeated Least Squares Applied to Complete Equation Systems, 1953; dalam Gujarati, 2008. 26 Robert L.,Basmann, “A Generalized Classical Method of Linear Estimation of Coefficients in Structural
Equation”, Econometrica, vol. 20, 1997:77-83.
103
Tahap 1. Buktikan terlebih dahulu bahwa Y1 dan u2 tidak berkorelasi. Regresikan Y1 terhadap
seluruh variabel predetermined yang ada pada model simultan, bukan hanya pada fungsi yang
diidentifikasi. Pada kasus model simultan di atas, maka fungsi regresi itu adalah :
Y1t = 0 + 1 X1t + 2 X2t + et . . . . . (4.75)
Di mana et adalah residual OLS seperti biasanya. Jika fungsi-56 ini lebih diimplisitkan, maka
diperoleh fungsi berikut :
^ ^ ^
Ŷ1t = 0 + 1 X1t + 2 X2t . . . . . (4.76)
Di mana Ŷ 1t adalah estimasi nilai rata-rata Y jika nilai-nilai Xi tidak berubah. Fungsi-4.76 ini
merupakan fungsi tereduksi, karena hanya variabel eksogen saja yang muncul di sisi sebelah
kanan. Fungsi-5.76 ini kemudian dapat dituliskan secara lebih sederhana :
Ŷ1t = Y1t + et . . . . . (4.77)
Fungsi-4.77 menunjukkan bahwa Y1 stokastik mengandung dua bagian, yaitu : Ŷ1t yang
merupakan kombinasi linier dari Xi non stokastik; dan et yang bersifat random. Terbukti bahwa Ŷ1t
tidak berkorelasi dengan et.
Tahap 2. Fungsi suplai uang yang overidentified dapat dituliskan sebagai :
Y2t = 20 + 21 (Ŷ1t + et) + u2t
= 20 + 21 Ŷ1t + (u2t + 21 et)
= 20 + 21 Ŷ 1t + ut* . . . . . (4.78)
di mana ut* = u2t + 21 et. Jika dibandingkan, fungsi-4.59 dan fungsi-4.55 bertampilan mirip
antar keduanya.
Perbedaannya adalah : Y1 yang diganti dengan Ŷ 1.
Fungsi-5.78 ini lebih bermanfaat daripada fungsi-4.74, sebab pada fungsi-4.78 telah
terbukti tidak ada korelasi antara ut* dengan variabel bebasnya, sehingga OLS masih bisa
diaplikasikan kepada fungsi ini untuk mengestimasi koefisien dengan hasil yang konsisten.
Ide dasar penggunaan 2SLS ini adalah memurnikan variabel Y1 stokastik dari pengaruh
disturbansi, u2 stokastik. Ini bisa dilakukan dengan membentuk regresi tereduksi Y1 terhadap
seluruh variabel predetermined dalam model simultan (Tahap I), hasilnya adalah estimasi Ŷ1t
menggantikan Y1. Kemudian terapkan OLS kepada persamaan tereduksi (Tahap II). Hasil estimasi
koefisiennya bersifat konsisten, dan makin besar jumlah pengamatan maka nilai estimasi koefisien
makin konvergen terhadap nilai parameter sesungguhnya.
Berikut ini contoh numerik untuk memperjelas metode aplikasi 2SLS pada fungsi-4.73 dan
fungsi-4.74.
104
Tabel 4.17 GNP, Persediaan Uang, Investasi dan Pengeluaran Pemerintah
Tahun 1990 – 2004.
Tahun GNP (Y1)
Persediaan Uang (Y2)
Investasi (X1)
Pengeluaran Pemerintah (X2)
Ŷ1
1990 503,70 144,20 74,80 53,50 492,77
1991 520,10 148,70 71,70 57,40 489,78
1992 560,30 150,90 83,00 63,40 564,43
1993 590,50 156,50 87,10 64,20 587,17
1994 632,40 163,70 94,00 65,20 624,35
1995 684,90 171,30 108,10 66,90 699,26
1996 749,90 175,40 121,40 77,80 799,21
1997 793,90 186,90 116,60 90,70 816,20
1998 864,20 201,70 126,00 98,80 888,10
1999 930,30 208,70 139,00 98,80 952,21
2000 977,10 221,40 136,30 96,20 930,70
2001 1.054,90 235,30 153,70 97,60 1.020,93
2002 1.158,00 255,80 179,30 104,90 1.170,21
2003 1.294,90 271,50 209,40 106,60 1.324,03
2004 1.396,70 283,80 208,90 116,40 1.352,45
Keterangan :
Kolom Ŷ1 merupakan estimasi Y1 yang diperoleh dari fungsi-4.79.
Fungsi-4.60 merupakan fungsi yang diperoleh pada Tahap I, yaitu regresi Y1 kepada
seluruh variabel eksogen dalam model simultan (X1 dan X2) dengan pendekatan OLS.
Printout yang dihasilkan :
SUMMARY OUTPUT Regression Statistics Multiple R 0,9948363
R Square 0,9896993 Adjusted R Square
0,9879825
Standard Error 31,064100 Observations 15
ANOVA
df SS MS F Significance F Regression 2 1112591,0 556295,528 576,4849892 1,19454E Residual 12 11579,74 964,978341 Total 14 1124170,7
Coefficients Standard Error
t Stat P-value
Intercept -44,792666 39,79929 -1,12546381 0,282399158 X Variable 1 4,9321971 0,478486 10,3079179 2,57818E-07
X Variable 2 3,1521343 1,039112 3,03348604 0,010399001
105
Fungsi eskplisit dapat dituliskan sebagai :
Ŷ1t = -44,7927 + 4,9321 X1t + 3,1521 X2t . . . . . (4.79)
(0,4784) (1,0391) R2 = 0,9948
t = (10,3079) (3,0334)
(Kolom Ŷ1 pada Tabel 4.17 tersebut di atas merupakan hasil estimasi dengan menggunakan
fungsi-4.79 ini).
Selanjutnya lakukan Tahap II, yaitu meregresikan Y2 terhadap kepada Ŷ1 dengan OLS,
untuk memperkirakan fungsi suplai uang. Printout yang dihasilkan adalah :
SUMMARY OUTPUT Regression Statistics Multiple R 0,9891940 R Square 0,9785049 Adjusted R
Square
0,9768514
Standard Error 7,0381381 Observations 15
ANOVA
df SS MS F Significance F Regression 1 29314,49 29314,4972 591,7889907 3,16895E Residual 13 643,9600 49,5353880
Total 14 29958,45
Coefficients Standard Error
t Stat P-value
Intercept 60,827595 5,939481 10,2412305 1,36356E-07
X Variable 1 0,1623205 0,006672 24,3267135 3,16895E-12
Fungsi eskplisit dapat dituliskan sebagai :
Ŷ2t = 60,8275 + 0,1623 Ŷ1t . . . . . (4.80)
(0,0066) R2 = 0,9785 t= (24,3267)
Untuk menjelaskan 2SLS lebih lanjut, model simultan tersebut di atas dimodifikasi menjadi
model sebagai berikut :
Y1t = 10 + 12 Y2t + 11 X1t + 12 X2t + u1t . . . . . (4.81)
Y2t = 20 + 21 Y1t + 23 X3t + 24 X4t + u2t . . . . . (4.82)
Di mana,
Y1 = pendapatan periode sekarang, Y2 = persediaan periode sekarang. X1 = pengeluaran untuk investasi periode sekarang,
X2 = pengeluaran pemerintah periode sekarang, X3 = pendapatan pada periode sebelumnya,
X4 = suplai uang pada periode sebelumnya.
106
Kedua fungsi (4.81 dan 4.82) berstatus overidentied. Untuk mengaplikasi 2SLS, lakukan
prosedur : Tahap I, regresikan seluruh variabel endogen kepada seluruh variabel predetermined
dalam model.
Ŷ1t = 10 + 11 X1t + 12 X2t + 13 X3t + 14 X4t + e1t . . . . . (4.83)
Ŷ2t = 20 + 21 X1t + 22 X2t + 23 X3t + 24 X4t + e2t . . . . . (4.84)
Pada Tahap 2, gantikan nilai-nilai Y1 dan Y2 pada persamaan struktural awal dengan nilai-
nilai Ŷ1t dan Ŷ2t yang diperoleh dari fungsi-5.83 dan fungsi-5.84; selanjutnya terapkan OLS sebagai
berikut :
Y1t = 10 + 11 Ŷ2t + 11 X1t + 12 X2t + u1t* . . . . . (4.85)
Y2t = 20 + 21 Ŷ1t + 23 X3t + 24 X4t + u2t* . . . . . (4.86)
Di mana, u1t* = u1t + 12 e2t dan u2t
* = u2t + 21 e1t. Hasil estimasi koefisien persamaan
strukturalnya bersifat konsisten.
Karakteristik penting dari 2SLS :
(1). 2SLS dapat diaplikasi kepada fungsi tunggal yang ada dalam model simultan tanpa
mempertimbangkan fungsi-fungsi lain. Sehingga untuk menyelesaikan model ekonometrik
yang melibatkan banyak fungsi, metode ini ekonomis; sehingga 2SLS banyak digunakan
peneliti.
(2). Tidak seperti metode ILS yang menghasilkan estimasi ganda parameter pada fungsi
overidentied, 2SLS menghasilkan hanya sebuah estimasi parameter.
(3). Metode ini mudah diaplikasikan karena peneliti hanya butuh jumlah seluruh variabel
eksogen atau predetermined saja tanpa harus mengetahui variabel lain yang terlibat
dalam model simultan.
(4). Walaupun metode ini dirancang khusus untuk fungsi overodentified, metode ini juga bisa
diaplikasikan untuk fungsi yang berstatus just atau exactly identified.
(5). Jika R2 fungsi tereduksi (pada Tahap I) sangat tinggi (mendekati 0.80), estimasi OLS dan
2SLS menghasilkan estimasi parameter fungsi struktural yang mendekati sama. Jika R2
fungsi tereduksi (pada Tahap I) sangat rendah, hasil estimasi 2SLS secara praktis lebih
berarti, sebab pada Tahap II ada penggantian Y1 dengan Ŷi.
(6). Perlu diperhatikan bahwa pelaporan ILS tidak menampilkan standard error estimasi
koefisien, sedang pada 2SLS standard error of estimated coefficient (ut*) dapat ditampilkan
karena koefisien fungsi struktural dapat diestimasi dengan OLS pada Tahap II. Namun
standard error of estimated coefficient masih perlu dikoreksi, karena ut* = u2 + 21 et.
107
Koreksi itu bisa dijelaskan sebagai berikut :
Lihat fungsi pendapatan dan fungsi suplai uang pada kasus fungsi overidentified di atas :
Fungsi Pendapatan : Y1t = 0 + 11 Y2t + 11 X1t + 12 X2t + u1t . . . . . (4.73)
Fungsi Suplai Uang : Y2t = 20 + 21 Y1t + u2t . . . . . (4.74)
Untuk mengestimasi fungsi suplai uang yang overidentified pada regresi Tahap II :
Y2t = 20 + 21 Ŷ1t + ut* . . . . . . . (a)
Di mana,
ut* = u2t + 21 et
Standard error koefisien estimasi 21 diperoleh dari :
u*2
var( 21) =
ŷ1t2
di mana,
(ut*)2 (Y2t - 20 - 21 Ŷ1t)
2
u*2 = = . . . . . . (b)
N – 2 N – 2
u*2 tidak sama dengan estimasi u2
2, di mana estimasi u22 merupakan unbiased estimator
untuk varians sesungguhnya dari u2. Untuk memperoleh u22 sesungguhnya (true), dapat
digunakan formula :
u2t = Y2t - 20 - 21 Y1t
di mana 20 dan 21 merupakan estimasi koefisien yang diperoleh pada Tahap II; sehingga
:
(Y2t - 20 - 21 Y1t)2
u*2 = . . . . . . (c)
N – 2
Terlihat bahwa perbedaan persamaan-b dan persamaan-c, adalah : pada persamaan-c,
yang digunakan adalah Y1 aktual dan bukan estimasinya, Ŷ1.
Cara termudah untuk mengkoreksi standard error of estimated coefficient pada Tahap II
adalah dengan mengkalikan setiap angka estimasi standard error tersebut dengan u1/ u*.
Perlu diperhatikan, jika Y1t dan Ŷ1t berkorelasi tinggi pada Tahap I (R2 sangat tinggi), maka
faktor koreksi u1/ u* mendekati = 1.
108
DAFTAR PUSTAKA
Anderson, T. W., 1998, Introduction to Multivariate Statistical Analysis, John Wiley & Sons,
New York (ATW), 1988.
Beck, Michael s. Lewis, 2007, Regression Analysis, SAGE Publications Toppan Publishing, London.
Bowen, Earl, K., and Martin K. Starr, Basic Statistics for Business and Economics, McGraw Hill Book Company, London, 2002.
Brunk, H. D., An Introduction to Mathematical Statistics, 5th Edition, Englewood Cliff, New
Jersey, 2002/
Cohen, J, Statistical Power Analysis For the Behavioral Sciences, rev. ed. New York, Academic Press., 1997.
Doanne, David P., and Lori E. Seward, Applied Statistics in Business and Economics, McGraw-Hill Irwin, Boston, 2007.
Gessner, Guy, N. K. Maholtra, W.A. Kamakura and M.E Smijewski, Estimating Models with Binary Dependent Variables: Some Theoretical and Empirical Observations, Journal of Business Research 16(1), 1988
Gujarati, Damodar, Basic Econometrics, Sixth Edition, McGraw Hill Book Company, New York,
(DM), 2008
Freund, John E., and Irwin Miller, Probability and Statistics for Engineers, Fifth Edition,
Prentice-Hall of India, Private Limited, New Delhi, 2004.
Hald, A., Statistical Theory with Engineering Applications, John Wiley & Sons, New York, 1992.
Hair, Jr., Joseph F.; Rolph E. Anderson, Ronald L. Tatham and William C. Black, 2001; Multivariate Data Analysis, Sixth Edition, Prentica Hall International, Inc, Upper Saddle River, New Jersey.
Hines, William, H., and Douglas C. Montgomey, Probability and Statistics for Engineers in Engineering and Management Science, John Wiley ans Sons, Inc., New York, 2000.
Hoel, P., Introduction to Mathematical Statistics, 7th Ed. John Wiley & Sons, Inc., New York, 2005.
Kendall, M. G., and Stuart, A., The Advanced Theory of Statistics, Vol. 1 6th Edition, McMillan
Publishing Company, NewYork, 2005.
109
Kirkpatrick, E. G., Introductory Statistics and Probability for Engineering Science and Technology, Prentice Hall Inc., Engelwood Cliffs, N.J., 2000.
Malhotra, Naresh K., Marketing research, An Applied and Orientation, Prentice Hall
International, London (MAL), 1999.
Tabachnick, Barbara G., and Linda S. Fidell, 1999, Using Multivariate Statistics, Harper Collins Publisher, Inc., New York (TL), 1999.
110
APENDIKS
OPERASI MATRIKS DENGAN EXCEL
a. Introduksi
Matriks adalah sekumpulan angka dengan dimensi baris dan kolom, yang banyak
digunakan pada berbagai analisis kuantitatif, seperti program linier, berikut
perkembangan-perkembangannya, analisis Markov, dan lain-lain metode kuantitatif.
b. Matriks dan Operasi Matriks
Sebuah matriks adalah sekelompok angka yang berurutan dalam kolom dan baris,
dan biasanya diberi simbul tanda kurung, yang dapat menjelaskan secara efektif dalam
mempresentasikan atau menyarikan data bisnis. Contoh : matriks berdimensi 2 baris dan
3 kolom atau matriks (2 × 3) di bawah ini, bisa digunakan untuk menjelaskan kebiasaan
pemirsa memindah saluran TV pada jam 05.00 :
Saluran Sekarang
Peluang Perindahan Saluran
Saluran-6 Saluran-8 Berhenti
Menonton
Saluran-6 0,80 0,15 0,05
Saluran-8 0,20 0,70 0,10
Angka pada baris dan kolom pertama mengindikasikan ada peluang sebesar = 0,80
seorang pemirsa yang sekarang menyaksikan saluran-6, akan tetap pada saluran-6 untuk
bulan berikutnya. Mereka akan pidah ke saluran-8 pada bulan mendatang, peluangnya =
0,15. Peluang berhenti menonton dan tidak berpindah saluran = 0,05.
a) Penjumlahan dan pengurangan matriks :
Matriks dapat ditambahkan atau dikurangkan kepada matriks lain, jika dimensi
matriksnya sama, artinya banyaknya baris dan kolomnya sesuai.
Contoh :
5 4 3 6 A = 3 5 B = 2 1 2 2 1 0
111
Maka matriks A + matriks B :
5+3 4+6 8 10 A+ B = 3+2 5+1 A + B = 5 6 2+1 2+0 3 2
5-3 4-6 2 -2
A- B = 3-2 5-1 A - B = 1 4 2-1 2-0 1 2
b) Perkalian matriks :
Matriks dapat dikalikan dengan matriks lain, jika banyaknya kolom pada matriks-1
sesuai dengan banyaknya baris pada matriks-2, ini disebut korfomasi. Contoh
dimensi matriks yang diperkalikan, hasil dimensi matriks hasil kalinya :
Matriks A Matriks B Matriks C = Matriks A x Matriks B
1 x 3 3 x 1 1 x 1
2 x 4 4 x 3 2 x 3
Untuk proses perkalian, jumlahkan hasil perkalian angka pada baris matriks
pertama dengan angka pada kolom matriks kedua. Baris ke-1 pada matriks
pertama dikalikan dengan kolom ke-1 pada matriks kedua, kemudian dijumlahkan.
Contoh :
a ad ae b x d e = bd be c cd ce
3 x 1 1 x 2 3 x 2
Contoh :
5
20 30
2 x 4 6 = 8 12
3
12 18
112
3
6 2 5 x 1 = 30
2
6 2
3 4
28 40
x
=
7 1
5 8
26 36
(6)(3) + (2)(5) = 18 + 10 = 28
(7)(4) + (1)(8) = 28 + 8 = 36
5 4 3 6 A = 3 5 B = 2 1
2 2
5x3 + 4x2 5x6 + 4x1 23 34 A x B = 3x3 + 5x2 3x6 + 5x1 A x B = 19 23 2x3 + 2x2 2x6 + 2x1 10 14
Dengan bantuan program Excel, perkalian matriks ini bisa dilakukan dengan
mengaplikasikan fungsi perkalian matriks, yaitu „=MMULT(array1,array2)‟.
Contoh : buatlah di spread sheet Excel matriks tersebut di atas sbb. :
A B C D E
1 5 4
3 6
2 3 5
2 1
3 2 2
Sel-sel A1.. B3 adalah angka pada matriks A, sedang sel-sel D1.. E2 adalah angka
pada matriks B. Letakkan kursor pada sembarang sel, contoh di sel E6. Ketik pada
sel itu : =mmult(A1:B3,D1:E2), ini merupakan perintah awal untuk mengkalikan
kedua matriks tersebut. Copy-kan sel E6 itu ke blok sel E6..F8, agar nanti hasil
perkalian matriks yang terdiri atas 3 baris dan 2 kolom itu diletakkan. Kembali ke
blok E6.. F8, tekan F2, kemudian tekan bersama-sama Ctrl+Shift+Enter, hasilnya
adalah :
113
E F
6 23 34
7 19 23
8 10 14
Hasil ini sama dengan hasil perhitungan manual di atas.
c) Pembagian matriks :
Matriks dapat dibagi oleh matriks lain, jika baris dan kolomnya masing-masing
comformable. Contoh : matriks A dibagi dengan matriks B, matriks B harus terlebih
dahulu diinversikan menjadi matriks 1/B, selanjutnya kalikan matriks A dengan
matriks 1/B tersebut.
Matriks B diinversikan terlebih dahulu menjadi matriks 1/B atau B-1. Untuk
menginversikan matriks dapat digunakan bantuan program Excel, dengan
menggunakan perintah : „=MINVERSE(array)‟, ini merupakan perintah awal untuk
menginversikan matriks.
Buatlah di spread sheet Excel, angka-angka matriks tersebut :
A B C D E F G
1 5 4 3
6 3 1
2 3 5 2
1 3 0
3 2 2 0
4 2 3
Angka-angka pada sel A1.. C3 adalah matriks A, angka-angka pada sel E1.. G3
adalah matriks B. Jika matriks A dibagi dengan matriks B, maka matriks B terlebih
dahulu diinversikan. Inversi sebuah matriks adalah sebuah matriks unik dengan
dimensi yang sama dan jika dikalikan dengan matriks asli akan menghasilkan
matriks identitas,
Arahkan kursor ke sel E6, ketikkan : =MINVERSE(E1:G3). Copy-kan sel ini ke blok
sel E6.. G8, untuk meletakkan hasil inversi matriks B. Tekan F2, selanjutnya tekan
bersama-sama, Ctrl+Shift+Enter, maka hasil inversi matriks B adalah :
E F G
6 0.257143 -0.2 -0.08571
7 -0.08571 0.4 0.028571
8 -0.28571 0 0.428571
114
Selanjutnya, kalikan matriks A dengan matriks 1/B ini (atau B-1), dengan cara
seperti point-c.
Arahkan kurson ke sembarang sel, contoh : E10, ketikkan :
=MMULT(A1:B3,E6:G8). Copy-kan sel ini ke blok E10..G12, tekan F2, kemudian
tekan bersama-sama Ctrl+Shift+Enter, hasilnya adalah matriks A dibagi dengan
matriks B sebagai berikut :
E F G
10 0.085714 0.6 0.971429
11 -0.22857 1.4 0.742857
12 0.342857 0.4 -0.11429
B x B-1 = I
B-1 dapat dicari dengan membagi seluruh elemen matriks dengan nilai determinan
matriks asli.
Contoh : Inversi Matriks
3 1 2
B = 2 5 1
4 -2 -1
Determinan B = det (B) = -51, maka B-1 =
-0,28 0,2 0,36 B-1 = -0,08 0,2 -0,04
0,96 -0,4 -0,52
A B C
1 3 1 2
2 2 5 1
3 4 -2 1
4
5
=MINVERSE(A1:C3)
A B C
1 3 1 2
2 2 5 1
3 4 -2 1
4
5
-0,28
115
Kopikan sel B5 ke B5:D7 :
A B C D
1 3 1 2
2 2 5 1
3 4 -2 1
4
5
-0,28 #VALUE! #VALUE!
6 #VALUE! #VALUE! #VALUE!
7 #VALUE! #VALUE! #VALUE!
Tekan F2, kemudian tekan Ctrl+Shift+Enter, hasilnya adalah :
A B C D
1 3 1 2
2 2 5 1
3 4 -2 1
4
5
-0,28 0,2 0,36
6 -0,08 0,2 -0,04
7 0,96 -0,4 -0,52
Matriks B x B-1 = I, dengan Excel hasilnya adalah :
A B C D
1 3 1 2
2 2 5 1
3 4 -2 1
4
5
-0,28 0,2 0,36
6 -0,08 0,2 -0,04
7 0,96 -0,4 -0,52
8
9 1 0 0
10 0 1 0
11 0 0 1
Ketikkan di sel B9 : =MMULT(A1:C3;B5:D7). Kopikan sel B9 ke B9:D11, tekan F2, kemudian tekan Ctrl+Shift+Enter.
d) Menghitung determinan :
Determinan adalah sebuah nilai berkaitan dengan sebuah matriks kuadrat (matriks
kuadrat adalah matriks yang berdimensi banyaknya baris = banyaknya kolom.
116
Sebagai sebuah alat matematik, determinan adalah sebuah nilai untuk
menyelesaikan serangkaian persamaan simultan. Sebuah determinan matriks 2 x 2,
dapat diekspresikan sebagai matriks yang diapit oleh dua garis lurus sebagai
tampak berikut ini :
a b
c d
Sebuah prosedur umum untuk menghitung nilai determinan dari sebuah matriks
adalah dengan membuat garis diagonal primer dan diagonal sekunder. Pada
matriks 2 x 2, garis diagonal tersebut adalah :
primer a b
c d sekunder
Determinan = (a)(d) – ((b)(c)
Pada matriks 3 x 3 : matriks sisipan
primer a b c a b
d e f d e sekunder
g h i g h
Determinan = (a)(e)(i) + (b)(f)(g) + (c)(d)(h) – (c)(e)(g) – (a)(f)(h) – (b)(d)(i) Contoh : determinan matriks 3 x 3
3 1 2 3 1
2 5 1 2 5
4 -2 -1 4 -2
= (3)(5)(-1) + (1)(1)(4) + (2)(2)(-2) – (4)(5)(2) – (-2)(1)(3) – (-1)(2)(1) = - 51
Dengan Excel : e)
A B C
1 3 1 2
2 2 5 1
3 4 -2 -1
4
5 Det = =MDETERM(A1:C3)
117
Matriks identitas adalah matriks di mana angka-angka pada diagonal = 1, lainnya
= 0, contoh :
1 0 0 0 1 0 0 0 1
Aturan perkalian matriks pada matriks identittas juga sama dengan aturan umum perkalian.
Latihan soal :
1. Sebuah perusahaan memiliki 3 daerah pemasaran : daerah-1, daerah-2 dan daerah-3;
dan 3 orang salesman : salesman-1, salesman-2, dan salesman-3. Matriks keuntungan
pada ke tiga daerah pemasaran dan ke tiga salesman adalah :
D-1 D-2 D-3
S-1 3 2 1
S-2 4 2 2
S-3 2 1 3
Berapa keuntungan rata-rata :
a. pada daerah-1 ?
b. pada salesman-3 ?
c. Rata-rata keuntungan terbesar pada daerah berapa ?
2. Matriks A adalah :
3 2 3 2
2 4 2 1 1 4 2 2 2 5 4 2
Matriks B adalah :
2 3 2 2
1 1 1 1 0 1 1 1
0 2 0 1 Gunakan Excel untuk :
a. Hitung matriks C, di mana C = A/B.
b. Hitung matriks D, di mana D = A x B
c. Hitung matriks E, di mana E = B/A
118
d. Hitung matriks F, di mana F = B x A
3. a. Untuk soal no. 2 di atas, buat hitungan matriks D secara manual.
b. Hitung pula hitungan matriks F secara manual.
c. Gunakan Excel untuk menghitung matriks G, di mana G = A2.
top related