01
Proof of Concept 1 · Lazio Camera 2022

OLS con dati ISTAT — 11 collegi Lazio

Prima verifica che i dati demografici ISTAT correlano con il comportamento di voto a livello di collegio uninominale. Due variabili (% laureati, % bassa istruzione) su 11 dei 14 collegi Camera del Lazio. I 3 collegi romani esclusi richiedono spatial join per municipio.

3.91ppRMSE

Errore medio nella norma di un sondaggio professionale

0.618

2 variabili spiegano il 62% della varianza del voto CDX

−0.81Correlazione laureati/CDX

La variabile singola più predittiva in tutto il percorso

11Collegi analizzati

Su 14 totali Lazio — 3 romani esclusi per problema PROCOM

CollegioVoto CDX realePrevisto OLSErrore
Lazio 1 - U01 (Roma Centro)45.9%46.0%+0.1pp
Lazio 1 - U04 (Roma VII)46.6%50.7%+4.1pp
Lazio 1 - U05 (Roma X)58.1%53.5%−4.6pp
Lazio 1 - U06 (Roma XI)55.6%54.8%−0.8pp
Lazio 1 - U08 (Velletri)58.5%59.3%+0.8pp
Lazio 1 - U09 (Guidonia)59.3%61.2%+1.9pp
Lazio 2 - U01 (Viterbo)61.1%60.7%−0.4pp
Lazio 2 - U02 (Rieti)60.7%60.0%−0.7pp
Lazio 2 - U03 (Latina)66.3%63.1%−3.2pp
Lazio 2 - U04 (Frosinone)54.8%62.4%+7.6pp ← outlier
Lazio 2 - U05 (Terracina)65.9%61.0%−4.9pp

Fonte: ISTAT Censimento Permanente 2023 (R12 Lazio, 39.609 sezioni) · Eligendo OpenData Regionali Lazio 12/02/2023 · Script: polisim_poc_lazio_v2.py


02
Proof of Concept 2 · Nazionale · 142 collegi Camera

Ridge regression e modelli per macro-area

Estensione a tutti i 146 collegi Camera italiani (esclusi 4 Trentino/SVP — outlier strutturale). Ridge regression con 6 variabili ISTAT, poi modelli separati per macro-area (Nord/Centro/Sud). Risultato principale: i coefficienti demografici hanno segno opposto tra Nord e Sud — un modello flat non è sufficiente.

7.77ppRMSE flat (con Trentino)

Baseline — coefficienti opposti annullano il segnale

6.54ppRMSE senza SVP

Solo esclusione Trentino migliora del 16%

5.24ppRMSE macro-area

Nord 6.2pp · Centro 3.6pp · Sud 4.6pp

0.527R² macro-area

+22% vs Ridge flat — motivazione per MRP

Variabile ISTATCorrelazione CDX (Lazio)Correlazione CDX (Nazionale)Interpretazione
pct_laureati−0.81−0.36Più debole a livello nazionale — effetto eterogeno
pct_bassa_istruz+0.83+0.07Quasi zero nazionalmente — si annulla tra aree
pct_occupati−0.69+0.44Segno INVERTITO — il Sud povero vota CDX, il Nord occupato no
dim_media_famiglia+0.77+0.01Lazio: famiglie grandi = CDX · Napoli: inverso
pct_under35+0.64−0.32Segno invertito — eterogeneità regionale

La divergenza di segno tra Lazio e livello nazionale è la motivazione principale per passare a MRP con effetti per regione. Un modello con coefficienti fissi non può catturare relazioni demografiche opposte in contesti geografici diversi.
Script: polisim_nazionale.py, polisim_macroarea.py


03
Proof of Concept 3 · MRP · Mixed Linear Model

MRP con effetti casuali per regione

Modello MRP Dirichlet-Multinomial multi-coalizione (PyMC) — architettura bayesiana che modella simultaneamente CDX, CSX, M5S e ALTRI come distribuzioni di probabilità. Produce mediane posteriori, intervalli di credibilità 90% e probabilità di vittoria per ogni coalizione in ogni collegio. Freeze 29 aprile 2026.

4.3ppRMSE out-of-sample

Lombardia 2023 — miglioramento su OLS in 5/6 regioni testate

252Osservazioni training

139 politiche 2022 + 113 regionali 2021-2025

54Celle demografiche

età × istruzione × occupazione × genere (ISTAT 2021)

1.000r_hat convergenza

10 divergenze su 8.000 campioni MCMC — distribuzioni stabili

Effetti casuali per regione (random intercepts uⱼ) · ordinati da più CSX a più CDX

TOSCANA
−6.90pp
RMSE locale: 5.05pp (N=9)
EMILIA-ROMAGNA
−5.96pp
RMSE locale: 6.49pp (N=11) ← sub-regionale
CAMPANIA
−4.74pp
RMSE locale: 5.96pp (N=14)
LIGURIA
−4.06pp
RMSE locale: 3.81pp (N=4)
SARDEGNA
−3.72pp
RMSE locale: 2.59pp (N=4)
PIEMONTE
−2.61pp
RMSE locale: 4.85pp (N=10)
PUGLIA
−0.43pp
RMSE locale: 2.71pp (N=10)
MARCHE
+0.60pp
RMSE locale: 3.95pp (N=4)
SICILIA
+1.61pp
RMSE locale: 3.23pp (N=12)
FRIULI-V.G.
+1.67pp
RMSE locale: 2.63pp (N=3)
CALABRIA
+3.59pp
RMSE locale: 6.13pp (N=5)
LOMBARDIA
+4.49pp
RMSE locale: 4.32pp (N=23)
LAZIO
+6.07pp
RMSE locale: 3.89pp (N=14)
VENETO
+8.00pp
RMSE locale: 3.56pp (N=12)
TRENTINO/SVP
escluso
Outlier strutturale — SVP ≠ CDX nazionale
ABRUZZO · UMBRIA · MOLISE · BASILICATA
−2.5 / +0.8 / +0.5 / −2.5pp
N basso (1-3 collegi) — stime meno affidabili

Architettura: PyMC Dirichlet-Multinomial · freeze 29/04/2026 · Training: 252 obs (139 politiche 2022 + 113 regionali 2021-2025) · Limitazioni dichiarate: pesi demografici parzialmente stimati (±0.3-0.5pp), training set sbilanciato geograficamente (Nord sovrarappresentato), ritraining ~30min dopo nuova elezione regionale.
Dati: Eligendo OpenData · ISTAT Censimento 2021 · ITANES 2022 · Endpoint: POST http://109.123.247.161:8002/predict


Prossimi step · Roadmap pubblica

Cosa migliora il modello

✓ Live · Maggio 2026

Flusso Step 1→Step 2 + coerenza

Il simulatore nazionale è connesso al tool MRP per collegio. Valutazione coerenza messaggio-territorio via Claude: score 0–1, rischio rigetto, impatto stimato in pp. Override euristico con slider CDX/CSX/M5S.

✓ Live · Maggio 2026

Sondaggi PolitPro live

Quote partiti aggiornate ogni mattina da PolitPro (11 partiti). Il simulatore carica automaticamente i valori correnti all'apertura. Scraper cron 08:00 sul VPS, fallback su valori hardcodati.

Priorità alta

MRP per partiti singoli + shapefile

Il modello attuale ragiona per coalizioni aggregate (CDX/CSX/M5S). La prossima evoluzione porta le stime a livello di singolo partito e introduce shapefile per granularità di singolo collegio uninominale.