OLS con dati ISTAT — 11 collegi Lazio
Prima verifica che i dati demografici ISTAT correlano con il comportamento di voto a livello di collegio uninominale. Due variabili (% laureati, % bassa istruzione) su 11 dei 14 collegi Camera del Lazio. I 3 collegi romani esclusi richiedono spatial join per municipio.
Errore medio nella norma di un sondaggio professionale
2 variabili spiegano il 62% della varianza del voto CDX
La variabile singola più predittiva in tutto il percorso
Su 14 totali Lazio — 3 romani esclusi per problema PROCOM
| Collegio | Voto CDX reale | Previsto OLS | Errore |
|---|---|---|---|
| Lazio 1 - U01 (Roma Centro) | 45.9% | 46.0% | +0.1pp |
| Lazio 1 - U04 (Roma VII) | 46.6% | 50.7% | +4.1pp |
| Lazio 1 - U05 (Roma X) | 58.1% | 53.5% | −4.6pp |
| Lazio 1 - U06 (Roma XI) | 55.6% | 54.8% | −0.8pp |
| Lazio 1 - U08 (Velletri) | 58.5% | 59.3% | +0.8pp |
| Lazio 1 - U09 (Guidonia) | 59.3% | 61.2% | +1.9pp |
| Lazio 2 - U01 (Viterbo) | 61.1% | 60.7% | −0.4pp |
| Lazio 2 - U02 (Rieti) | 60.7% | 60.0% | −0.7pp |
| Lazio 2 - U03 (Latina) | 66.3% | 63.1% | −3.2pp |
| Lazio 2 - U04 (Frosinone) | 54.8% | 62.4% | +7.6pp ← outlier |
| Lazio 2 - U05 (Terracina) | 65.9% | 61.0% | −4.9pp |
Fonte: ISTAT Censimento Permanente 2023 (R12 Lazio, 39.609 sezioni) ·
Eligendo OpenData Regionali Lazio 12/02/2023 ·
Script: polisim_poc_lazio_v2.py
Ridge regression e modelli per macro-area
Estensione a tutti i 146 collegi Camera italiani (esclusi 4 Trentino/SVP — outlier strutturale). Ridge regression con 6 variabili ISTAT, poi modelli separati per macro-area (Nord/Centro/Sud). Risultato principale: i coefficienti demografici hanno segno opposto tra Nord e Sud — un modello flat non è sufficiente.
Baseline — coefficienti opposti annullano il segnale
Solo esclusione Trentino migliora del 16%
Nord 6.2pp · Centro 3.6pp · Sud 4.6pp
+22% vs Ridge flat — motivazione per MRP
| Variabile ISTAT | Correlazione CDX (Lazio) | Correlazione CDX (Nazionale) | Interpretazione |
|---|---|---|---|
| pct_laureati | −0.81 | −0.36 | Più debole a livello nazionale — effetto eterogeno |
| pct_bassa_istruz | +0.83 | +0.07 | Quasi zero nazionalmente — si annulla tra aree |
| pct_occupati | −0.69 | +0.44 | Segno INVERTITO — il Sud povero vota CDX, il Nord occupato no |
| dim_media_famiglia | +0.77 | +0.01 | Lazio: famiglie grandi = CDX · Napoli: inverso |
| pct_under35 | +0.64 | −0.32 | Segno invertito — eterogeneità regionale |
La divergenza di segno tra Lazio e livello nazionale è la motivazione principale per passare a MRP con effetti per regione. Un modello con coefficienti fissi non può catturare relazioni demografiche opposte in contesti geografici diversi.
Script: polisim_nazionale.py, polisim_macroarea.py
MRP con effetti casuali per regione
Modello MRP Dirichlet-Multinomial multi-coalizione (PyMC) — architettura bayesiana che modella simultaneamente CDX, CSX, M5S e ALTRI come distribuzioni di probabilità. Produce mediane posteriori, intervalli di credibilità 90% e probabilità di vittoria per ogni coalizione in ogni collegio. Freeze 29 aprile 2026.
Lombardia 2023 — miglioramento su OLS in 5/6 regioni testate
139 politiche 2022 + 113 regionali 2021-2025
età × istruzione × occupazione × genere (ISTAT 2021)
10 divergenze su 8.000 campioni MCMC — distribuzioni stabili
Effetti casuali per regione (random intercepts uⱼ) · ordinati da più CSX a più CDX
Architettura: PyMC Dirichlet-Multinomial · freeze 29/04/2026 ·
Training: 252 obs (139 politiche 2022 + 113 regionali 2021-2025) ·
Limitazioni dichiarate: pesi demografici parzialmente stimati (±0.3-0.5pp), training set sbilanciato geograficamente (Nord sovrarappresentato), ritraining ~30min dopo nuova elezione regionale.
Dati: Eligendo OpenData ·
ISTAT Censimento 2021 ·
ITANES 2022 ·
Endpoint: POST http://109.123.247.161:8002/predict
Prossimi step · Roadmap pubblica
Cosa migliora il modello
✓ Live · Maggio 2026
Flusso Step 1→Step 2 + coerenza
Il simulatore nazionale è connesso al tool MRP per collegio. Valutazione coerenza messaggio-territorio via Claude: score 0–1, rischio rigetto, impatto stimato in pp. Override euristico con slider CDX/CSX/M5S.
✓ Live · Maggio 2026
Sondaggi PolitPro live
Quote partiti aggiornate ogni mattina da PolitPro (11 partiti). Il simulatore carica automaticamente i valori correnti all'apertura. Scraper cron 08:00 sul VPS, fallback su valori hardcodati.
Priorità alta
MRP per partiti singoli + shapefile
Il modello attuale ragiona per coalizioni aggregate (CDX/CSX/M5S). La prossima evoluzione porta le stime a livello di singolo partito e introduce shapefile per granularità di singolo collegio uninominale.