Fonti dati

PoliSim usa esclusivamente fonti aperte e verificabili. Nessun dato privato viene raccolto dagli utenti.

FonteUso in PoliSimCoperturaRiferimento
ITANES 2022 Profili psicografici dei 5 segmenti. Scale valoriali, fiducia istituzionale, trigger comunicativi. DOI: 10.13130/RD_UNIMI/JV77WR N=4.696 rispondenti, 326 variabili, panel ponderato post-elezioni politiche 2022 DOI: 10.13130/RD_UNIMI/JV77WR · Vezzoni et al. 2023
ISTAT Censimento Permanente 2021 Variabili demografiche per sezione di censimento (39.609 sezioni Lazio). Laureati, istruzione, occupazione, stranieri, età. Italia completa · livello sezione censimento · aggiornamento annuale istat.it · Tracciato record ufficiale
Eligendo OpenData Risultati elettorali storici per comune (Camera 2022, Regionali 2023, Senato 2022). Margini per collegio. 147 collegi Camera · 74 Senato · 7.903 comuni Ministero dell'Interno · eligendo.interno.gov.it
Shapefile collegi 2020 Spatial join sezioni censimento → collegio uninominale (match rate 99.8%). Camera + Senato · proiezione UTM32N (EPSG:32632) Ministero dell'Interno · CAMERA_CollegiUNINOMINALI_2020.shp

Segmenti psicografici — fonti empiriche

I 5 segmenti non sono costruiti su stereotipi o intuizioni teoriche. Sono derivati empiricamente da tre fonti survey complementari: ITANES 2022 (N=4.696, panel elettorale italiano, variabili valoriali e fiducia istituzionale), ESS Round 11 (N=2.865 rispondenti italiani, European Social Survey 2023-24, atteggiamenti verso immigrazione e democrazia) e TRIPOL IT (N=1.231, polarizzazione affettiva, indice WAPSV valori politici). Ogni profilo riflette le risposte reali di quel gruppo su variabili chiave.

30.7% N=1.444 rispondenti progressisti_attivisti
Progressisti e attivisti
  • Sx-dx media 2.86/10
  • % Laureati 19.8%
  • Iscritti CGIL 54.4%
  • Fiducia scienziati 93.5%
  • Fiducia magistratura 67.4%
  • Fiducia gov 33.0%
  • Usa social 4.6 gg/sett
  • Clima — molto preoc. 69.8%
34.7% N=1.628 rispondenti centrodestra
Elettorato centrodestra
  • Sx-dx media 8.72/10
  • Leader forte alta priorità
  • Ordine/sicurezza trigger chiave
  • TV e radio canale primario
  • Europeismo tiepido
  • Immigrazione massima resistenza
19.6% N=922 rispondenti qualunquisti
Qualunquisti
  • Sx-dx media 5.16/10
  • Fiducia partiti molto bassa
  • Fiducia parlamento bassa
  • Anti-casta trigger principale
  • Astensione latente alta
  • Responsabilità P9 leva chiave
11.5% N=541 rispondenti delusi_m5s
Ex M5S delusi
  • Sx-dx media 4.96/10
  • Scala valoriale fluida
  • Trasparenza priorità alta
  • Segmento più mobile
  • Digitale nativo
  • Anti-sistema residuo presente
3.4% N=161 rispondenti giovani_astensionisti
Giovani astensionisti
  • Sx-dx media 5.84/10
  • Età < 30 anni
  • Astensione storica
  • Fiducia istituzioni bassa
  • Trigger pace/clima principale
  • Instagram/TikTok canale primario

Fonti: Vezzoni et al. (2023), ITANES Panel 2022, DOI: 10.13130/RD_UNIMI/JV77WR · ESS Round 11 (2023-24), European Social Survey, N=2.865 IT · TRIPOL IT (2021-22), N=1.231. Assegnazione segmenti su scala sx-dx, età e astensione storica. Distribuzione ponderata.


Percorso di sviluppo del modello — dalla PoC al MRP

PoliSim ha attraversato un percorso documentato di raffinamento metodologico. Ogni step è riproducibile dai dati aperti pubblicati.

PoC 1 — Lazio
RMSE 3.9pp · R²=0.618 — OLS 2 variabili ISTAT su 11 collegi Camera Lazio. Prova che i dati demografici correlano col voto.
PoC 2 — Nazionale flat
RMSE 7.8pp — Ridge 6 variabili su 146 collegi. Baseline: i coefficienti demografici sono opposti tra Nord e Sud.
PoC 2 — Macro-area
RMSE 5.2pp — Tre modelli separati (Nord/Centro/Sud). Centro: 3.6pp. Nord: 6.2pp (Emilia strutturalmente diversa).
PoC 3 — MRP bayesiano
RMSE 4.3pp (out-of-sample, Lombardia 2023) — Dirichlet-Multinomial multi-coalizione (PyMC). 252 osservazioni, 54 celle demografiche per collegio. Output: mediana posteriore + IC 90% + P(vittoria). r_hat=1.000.

MRP bayesiano — Architettura e risultati

Modello attivo: Dirichlet-Multinomial multi-coalizione con PyMC · freeze 29 aprile 2026.

Architettura
Dirichlet-Multinomial — modella simultaneamente CDX, CSX, M5S, ALTRI come distribuzioni di probabilità. Più realistico di una regressione separata per coalizione.
Training set
252 osservazioni — 139 elezioni politiche 2022 + 113 elezioni regionali 2021-2025
Celle demografiche
54 celle per collegio — età × istruzione × occupazione × genere (ISTAT Censimento Permanente 2021)
Convergenza
r_hat = 1.000 · 10 divergenze su 8.000 campioni MCMC · distribuzioni posteriori stabili
Validazione
RMSE 4.3pp out-of-sample (Lombardia 2023) · miglioramento su OLS in 5/6 regioni testate
Output per collegio
Mediana posteriore + IC 90% + P(vittoria) — es: CDX 35.6% [33.8, 37.3] · P(CDX vince)=0.988
Aggiornamento
~30 minuti dopo ogni nuova elezione regionale · ritraining automatico

Le equazioni del modello

Il modello predittivo di PoliSim è completamente riproducibile dai dati aperti. Di seguito le equazioni esplicite per ogni stage.

Stage 1 — OLS baseline
% CDX = 71.49 − 0.896·pct_laureati + 0.082·pct_bassa_istruz
N=11 collegi Lazio · R²=0.618 · RMSE=3.91pp
Stage 2 — Ridge (α=10)
% CDX = β₀ + Σᵢ βᵢ·Xᵢ + λ·‖β‖²
X = [pct_laureati, pct_bassa_istruz, dim_media_famiglia, pct_under35, pct_occupati, pct_stranieri]
N=142 collegi · α=10 ottimizzato via LOO-CV · RMSE=6.54pp (flat) → 5.24pp (macro-area)
Stage 3 — MRP MixedLM
% CDXij = (β₀ + uj) + β₁·pct_laureatiij + Σₖ βₖ·Xₖᵢⱼ + εij
i = collegio, j = regione · uj ~ N(0, σ²u) effetto casuale regionale
N=142 collegi · 18 regioni · RMSE=4.44pp · R²=0.782
Effetti fissi MRP
β₀=+46.54 · pct_laureati=−7.62*** · pct_occupati=+3.90* · pct_bassa_istruz=−1.94 (ns)
*** p<0.001 · * p<0.05 · ns = non significativo
Codice e dati
Script: polisim_nazionale.py, polisim_macroarea.py, polisim_mrp.py
Repo: github.com/AlCap27/polisim (privato · apertura pianificata)
Dati: ISTAT Censimento 2023 · Eligendo OpenData · ITANES 2022

Le equazioni del modello

Il modello è completamente riproducibile dai dati aperti. Equazioni esplicite per ogni stage di sviluppo.

Stage 1 — OLS baseline
% CDX = 71.49 − 0.896·pct_laureati + 0.082·pct_bassa_istruz
N=11 collegi Lazio · R²=0.618 · RMSE=3.91pp
Stage 2 — Ridge (α=10)
% CDX = β₀ + ∑₀ βₕ·Xₕ + λ·‖β‖²
X = [pct_laureati, pct_bassa_istruz, dim_media_famiglia, pct_under35, pct_occupati, pct_stranieri]
N=142 collegi · α=10 ottimizzato via LOO-CV · RMSE=5.24pp (macro-area)
Stage 3 — MRP MixedLM
% CDXᵭⱼ = (β₀ + uⱼ) + β₁·pct_laureatiᵭⱼ + ∑ₖ βₖ·Xₖᵭⱼ + εᵭⱼ
i = collegio, j = regione · uⱼ ~ N(0, σ²) effetto casuale regionale
N=142 · 18 regioni · RMSE=4.44pp · R²=0.782
Effetti fissi MRP
β₀=+46.54 · pct_laureati=−7.62*** · pct_occupati=+3.90* · altri n.s.
*** p<0.001 · * p<0.05 · n.s. = non significativo
Codice e dati
Script: polisim_nazionale.py, polisim_macroarea.py, polisim_mrp.py
Repo: github.com/AlCap27/polisim (privato · apertura pianificata)
Dati: ISTAT Censimento 2023 · Eligendo OpenData · ITANES 2022

Le equazioni del modello

Il modello è completamente riproducibile dai dati aperti. Equazioni esplicite per ogni stage di sviluppo.

Stage 1 — OLS baseline
% CDX = 71.49 − 0.896·pct_laureati + 0.082·pct_bassa_istruz
N=11 collegi Lazio · R²=0.618 · RMSE=3.91pp
Stage 2 — Ridge (α=10)
% CDX = β₀ + Σᵢ βᵢ·Xᵢ + λ·‖β‖²  (λ ottimizzato via LOO-CV)
X = [pct_laureati, pct_bassa_istruz, dim_media_famiglia, pct_under35, pct_occupati, pct_stranieri]
N=142 collegi · α=10 · RMSE=5.24pp (modelli macro-area)
Stage 3 — MRP MixedLM
% CDXᵢⱼ = (β₀ + uⱼ) + β₁·pct_laureati + Σₖ βₖ·Xₖᵢⱼ + εᵢⱼ
i = collegio, j = regione · uⱼ ~ N(0, σ²ᵘ) effetto casuale regionale
N=142 · 18 regioni · RMSE=4.44pp · R²=0.782 · fitting: powell/nm/lbfgs
Effetti fissi MRP
β₀=+46.54 · pct_laureati=−7.62*** (p=0.000) · pct_occupati=+3.90* (p=0.012)
pct_bassa_istruz=−1.94 (n.s.) · dim_famiglia=−0.64 (n.s.) · pct_under35=−0.98 (n.s.)
*** p<0.001 · * p<0.05 · n.s. = non significativo
Codice e dati
Script: polisim_nazionale.py, polisim_macroarea.py, polisim_mrp.py
Repo: github.com/AlCap27/polisim (privato · apertura pianificata)
Dati: ISTAT Censimento 2023 · Eligendo OpenData · ITANES 2022

Flusso di analisi multistep · Vedi le PoC →

Roadmap pubblica degli sviluppi pianificati. Ogni funzionalità è dichiarata con stato di avanzamento e riferimento metodologico.

✓ Live
Swing model + segmenti ITANES 2022

Simulazione Camera e Senato con margini reali per collegio. 5 segmenti psicografici derivati empiricamente da ITANES 2022 (N=4.696). Message optimizer su 3 verticali (partiti, ONG e istituzioni pilota).

Ridge regression · Random Forest · ITANES 2022 · Eligendo · ISTAT 2021

✓ Live
MRP — Mixed Linear Model con effetti casuali per regione

Modello attivo: statsmodels MixedLM con random intercept per regione. RMSE=4.44pp, R²=0.782 su 142 collegi Camera. Serie storiche 2018-2024 (10 elezioni, 8.056 comuni) integrate come prior.

Gelman & Little 1997 · Wang et al. IJF 2021 · statsmodels MixedLM · Eligendo storico

◌ Pianificato
LightRAG · Memoria persistente dei profili territoriali

Integrazione LightRAG (ispirato al wiki-memory model di A. Karpathy) per costruire una memoria a lungo termine dei profili per collegio — tendenze storiche elezione per elezione, coalizioni locali, outlier strutturali. Il modello impara da ogni ciclo elettorale.

LightRAG · Karpathy wiki-memory architecture · Eligendo storico 2006-2022

◌ Pianificato
Shapefile collegi e upload dataset proprietari

Implementazione shapefile per swing model a livello di singolo collegio. Upload di dataset proprietari (sondaggi interni, exit poll, social listening) con strumento di anonimizzazione GDPR integrato.

CAMERA_CollegiUNINOMINALI_2020.shp · GDPR Art. 4.5, 89, 25 · Data Shield


Limitazioni dichiarate al freeze

Tre limitazioni documentate al momento del freeze (29 aprile 2026). Non compromettono la validità del modello per uso previsionale — rappresentano la frontiera di sviluppo attiva.

⚠ Limitazione 1 · Pesi demografici parzialmente stimati

I tassi occupazionali nelle 54 celle demografiche sono derivati da medie regionali, non da microdati comunali. Impatto stimato: ±0.3-0.5pp sull'RMSE. Il prossimo rilascio utilizzerà i tassi reali per comune dal Censimento Permanente ISTAT 2021.

⚠ Limitazione 2 · Training set sbilanciato geograficamente

Le regioni del Nord sono sovrarappresentate nelle elezioni regionali disponibili (2021-2025). Le stime per il Mezzogiorno si basano principalmente sulle politiche 2022. Le prossime regionali del Sud aggiorneranno automaticamente il modello.

⚠ Limitazione 3 · Modello ricalibrato dopo ogni ciclo elettorale

Le stime riflettono il comportamento elettorale osservato fino all'ultimo aggiornamento del training set. La simulazione per l'utente è in tempo reale; il ritraining richiede circa 30 minuti dopo ogni nuova elezione regionale disponibile.

DOCUMENTAZIONE

White Paper metodologico

Documentazione tecnica completa del modello PoliSim — fonti dati, architettura MRP, backtest di validazione e limitazioni dichiarate. Versione 1.0, maggio 2026.

ITALIANO
PoliSim — Piattaforma di simulazione elettorale
White Paper tecnico · Metodologia e Validazione · v1.0

PoliSim è una piattaforma computazionale a tre stadi per la simulazione elettorale nel sistema misto proporzionale-uninominale italiano (Rosatellum bis). MAE 4.01pp, RMSE 4.64pp, accuratezza vincitore 14/14 collegi nel backtest Lazio 2022.

Scarica PDF ↓ Sintesi metodologia
ENGLISH
PoliSim — Electoral Simulation Platform
Technical White Paper · Methodology & Validation · v1.0

PoliSim is a three-stage computational platform for electoral simulation in the Italian proportional-uninominal mixed system (Rosatellum bis). MAE 4.01pp, RMSE 4.64pp, 14/14 winner accuracy on Lazio 2022 backtest. MRP outperforms OLS baseline by 1.04pp RMSE.

Download PDF ↓ English overview

Citazione: Capetola A. (2026). PoliSim — Electoral Simulation Platform. Technical White Paper v1.0. polisim.dev