Person reliability 0.895 (≥ 0.80 = baik) — instrumen mampu membedakan kemampuan murid secara konsisten.
Item reliability 0.986 (≥ 0.90 = sangat baik) — hierarki kesulitan soal stabil, dapat direplikasi ke sampel lain.
Separation person 2.92 → instrumen membedakan ≈ 4 kelompok kemampuan berbeda.
Proportion correct 0.508 → targeting item–person hampir sempurna (ideal ≈ 0.50).
Seluruh 40 soal lolos uji fit (infit MNSQ 0.70–1.30). Lihat tab Saran & Celah untuk rekomendasi pengembangan.
| No | Topik | Kesulitan (logit) | Kategori | Infit MNSQ | Outfit MNSQ | SE | Benar (%) | Status |
|---|
Sumbu vertikal = skala logit (−3 bawah → +3 atas = lebih sulit/lebih mampu).
Kiri: distribusi kemampuan murid. Kanan: lokasi kesulitan setiap soal.
Soal yang setara dengan kemampuan murid (logit sama) → peluang benar tepat 50%.
Soal di atas rata-rata murid = sulit; soal di bawah = mudah bagi murid tersebut.
Gap vertikal di sisi soal = zona kemampuan yang kurang terwakili → perlu soal tambahan.
Zona hijau (0.70–1.30) = fit. Di luar zona = perlu perhatian.
Tidak ada pola → fit tidak berkorelasi dengan kesulitan = baik.
| No | Topik | Pertanyaan | Kunci | Kategori | b (logit) |
|---|
Probabilitas murid i menjawab benar item j:
exp(1.821) = e1.821 ≈ 6.179
P = 6.179 / (1 + 6.179) = 6.179 / 7.179 ≈ 0.861 → peluang benar 86.1%
P = e−2.817/(1+e−2.817) = 0.0598/1.0598 ≈ 0.056 → hanya 5.6%
Estimasi awal θ dari skor mentah r (J = jumlah soal):
Tabel konversi logit ↔ probabilitas:
| Logit (θ−b) | Peluang Benar | Interpretasi |
|---|---|---|
| −3.0 | 4.7% | Sangat sulit bagi murid ini |
| −2.0 | 11.9% | Sulit |
| −1.0 | 26.9% | Agak sulit |
| 0.0 | 50.0% | Seimbang — titik kritis Rasch |
| +1.0 | 73.1% | Agak mudah |
| +2.0 | 88.1% | Mudah |
| +3.0 | 95.3% | Sangat mudah bagi murid ini |
Contoh 1 iterasi — 1 murid (θ=0), 3 item (b=−1, 0, +1), respons=[1,1,0]:
Item2: P=0.500 W=0.250 r=1−0.500=+0.500
Item3: P=0.269 W=0.197 r=0−0.269=−0.269
Σ W = 0.197+0.250+0.197 = 0.644
Δθ = 0.500/0.644 = +0.776 → θ_baru = 0 + 0.776 = +0.776
Hitungan Infit & Outfit — Soal 21 (b=0.00), 5 murid representatif:
| Murid | θ | P | W | X | X−P | z² | W·z² |
|---|---|---|---|---|---|---|---|
| A | −2.0 | 0.119 | 0.105 | 0 | −0.119 | 0.135 | 0.014 |
| B | −0.5 | 0.378 | 0.235 | 0 | −0.378 | 0.608 | 0.143 |
| C | 0.0 | 0.500 | 0.250 | 1 | +0.500 | 1.000 | 0.250 |
| D | +0.5 | 0.622 | 0.235 | 1 | +0.378 | 0.608 | 0.143 |
| E | +2.0 | 0.881 | 0.105 | 1 | +0.119 | 0.135 | 0.014 |
| Σ | — | — | 0.930 | — | — | 2.486 | 0.564 |
MNSQ > 1.30 → Noisy / degrading — respons terlalu acak
MNSQ < 0.70 → Muted / overfit — respons terlalu prediktabel
Var_error = mean(SE²) = mean(0.116) = 0.116
Var_true = 1.379 − 0.116 = 1.263
Reliabilitas = 1.263/1.379 = 0.916
Separation = √(1.263/0.116) = √10.89 = 3.30
H = (4×3.30+1)/3 = 4.7 ≈ 4–5 kelompok
Pedoman interpretasi:
| Nilai | Kategori | Implikasi |
|---|---|---|
| < 0.67 | Lemah | Tidak layak keputusan apapun |
| 0.67–0.80 | Cukup | Keputusan kelompok saja |
| 0.80–0.90 | Baik | Kelompok & semi-individual |
| > 0.90 | Sangat baik | Keputusan individual diperbolehkan |
Geser untuk melihat perhitungan real-time dan kurva ICC.
ICC (Item Characteristic Curve) — titik merah = posisi murid saat ini
Rumus: θ = ln[r/(J−r)], J=40. Skor ekstrem (0 atau 40) tidak bisa diestimasi langsung.
- Reliabilitas item sangat tinggi (0.986) — hierarki soal sangat stabil.
- Targeting sempurna (P-correct ≈ 0.508) — soal tidak terlalu mudah atau sulit.
- Semua 40 item lolos uji fit — tidak ada soal yang harus dibuang.
- Separation 2.92 → mampu membedakan ≈ 4 kelompok kemampuan berbeda.
- Kelas 8 secara konsisten lebih mampu (θ̄=+0.64) vs Kelas 7 (θ̄=−0.52) — validitas konstruk terbukti.
- Gap di level tengah (0.0–0.3 logit): hanya 3 soal. Tambah 3–5 soal sedang untuk resolusi lebih baik.
- Unidimensionalitas belum diuji formal (EFA/PCA residual). 7 sub-topik berbeda berpotensi multidimensional — lakukan parallel analysis sebelum publikasi.
- DIF (Differential Item Functioning) belum dianalisis. Cek apakah soal tertentu bias terhadap kelas 7 atau kelas 8.
- Data simulasi ≠ data nyata. Data ini dibangun dari model Rasch ideal; data nyata akan menghasilkan 3–7 item misfit yang perlu direvisi.
- Local independence belum diuji. Soal satu topik mungkin berkorelasi residual — cek Q3 statistic di Winsteps/TAM.
- Person reliability 0.895 — baik, tapi bisa ditingkatkan ke >0.90 dengan menambah 5–8 soal di b = −0.5 s/d +0.5.
- Kumpulkan data nyata (minimal 100–200 murid untuk estimasi stabil).
- Jalankan analisis di Winsteps atau R-package
TAM/eRm. - Uji unidimensionalitas: PCA residual (varians PC1 ≥ 60% = baik).
- Cek DIF antara Kelas 7 vs Kelas 8 (Mantel-Haenszel atau Rasch DIF).
- Revisi item dengan infit MNSQ > 1.3 atau < 0.7 pada data nyata.
- Tambah soal pada gap −0.3 hingga +0.3 logit (zona sedang).
- Pertimbangkan computer adaptive testing (CAT) jika bank soal diperluas ke 80+ item.