«Ricomincio sempre a scorrere le foto all’infinito e ridere da solo, pensa tu che scemo»: è questo il ritornello di “Prima o poi”, il pezzo di Michele Bravi che si presenta al via del 76simo Festival di Sanremo come il più sanremese di tutti. O, per dirla in termini quantitativi, quello con l’indice di sanremesità più alto.

Si tratta di quell’indicatore che InfoData creò lo scorso anno impiegando l’intelligenza artificiale per analizzare i testi delle canzoni in gara e confrontarli con quelli delle prime tre classificate delle dieci edizioni precedenti. Usate, queste ultime, come base per definire la sanremesità. In occasione dell’edizione 2026, la scelta è stata quella di aggiornare le modalità di calcolo dell’indice. Non soltanto perché sono stati inseriti i testi finiti sul podio del 2025 e rimossi quelli del 2015 (resta fuori il pezzo con cui Geolier arrivò secondo nel 2024 perché scritto in napoletano). Ma anche perché si è scelto di dare un peso maggiore alle canzoni prime classificate e uno minore a quelle sui gradini più bassi del podio.

Il risultato è che il pezzo con l’indice di sanremesità più alto, pari a 0,9233 su un massimo di 1, è appunto quello di Michele Bravi. Seguono “Male necessario” di Fedez e Marco Masini, con 0,9112, e “Le cose che non sai di me” di Mara Sattei, con 0,8461. La canzone meno sanremese, almeno dal punto di vista testuale, è invece “Opera” di Patty Pravo, con appena 0,1397.

Il peso maggiore nel calcolo dell’indice, pari al 35%, riguarda il profilo tematico delle canzoni, i temi di cui parlano. Per calcolarlo, l’algoritmo ripulisce i testi da articoli, preposizioni, pronomi, ausiliari e verbi molto comuni come fare, dire o andare, estraendo così quelle che vengono definite parole contenuto, quelle cioé che caratterizzano il tema di una canzone. Quindi viene costruito un vocabolario tematico pesato, che da cioé a una parola un peso maggiore in base alla sua frequenza di uso. L’ultimo passaggio riguarda l’eliminazione di parole che compaiono in un solo brano come la cumbia di Angelina Mango o il karma di Francesco Gabbani. Restano così 300 parole trasversali alle canzoni da podio dell’ultimo decennio, che vengono poi ricercate nelle canzoni in gara quest’anno per capire quante di queste parole trasversali sono presenti.

Pesa invece per il 29%, nasce dall’analisi lessicale dei testi in gara. In particolare, viene preso in considerazione il rapporto tra parole uniche e totali, quindi la lunghezza media delle parole, nell’assunto che parole più corte indichino un registro più colloquiale e il numero totale di parole. Curiosità, in media le canzoni vincitrici hanno 275 parole.

Ci sono poi due ultimi elementi, dei quali ognuno concorre per il 18% alla costruzione dell’indice di sanremesità. Il primo riguarda la densità delle ripetizioni, ovvero il calcolo di un rapporto tra le singole parole che compaiono più di una volta nel testo e il totale delle parole. Si tratta di un modo per riconoscere i ritornelli, quegli elementi che più facilmente restano in testa: un testo con molta ripetizione ha probabilmente un ritornello forte e ricorrente. E ovviamente funziona, nel senso che i vincitori dell’ultimo decennio hanno una densità media di circa 0,73 su 1.

L’ultimo tema è il rapporto tra le righe di testo, ovvero intere frasi, che compaiono più di una volta e il totale delle righe. Cattura la presenza non solo di ritornelli ma più in generale di sezioni ripetute: se un blocco di versi torna identico più volte, la metrica sale. I vincitori hanno una media di circa 0,45, cioè quasi metà del testo è composta da sezioni che si ripetono.

Vale la pena di ribadire che non si tratta di una previsione rispetto al vincitore del Festival di Sanremo, nel senso che quest’analisi non tiene in considerazione né la melodia, né l’interpretazione sul palco, due elementi centrali in un contesto come quello dell’Ariston. Senza dimenticare che anche a Sanremo può arrivare il cigno nero, ovvero la novità che smentisce tutte le statistiche.

L’indice di sanremesità è stato calcolato utilizzando Claude Opus4.6. Tutta la documentazione è consultabile su GitHub a questo link.

