Le foto dei problemi della seconda prova della maturità del liceo sicentifico, quella di matematica, affidate all’intelligenza artificiale con un prompt molto semplice: «Ti carico delle immagini con i testi di alcuni problemi matematici. Risolvili». Un po’ come avrebbe potuto fare, sbrigativamente, uno studente non esattamente preparato ieri mattina. InfoData ha voluto mettere alla prova quattro diversi modelli di AI per vedere come se la sarebbero cavata. Il risultato? Tutti bocciati. O almeno questo è il giudizio di Domenico Brunetto, professore associato al Dipartimento di matematica del Politecnico di Milano.
Il peggiore di tutti, o il migliore se lo si guarda dal punto di vista dei docenti, è stato Gemini, il modello sviluppato da Google. «Come modello linguistico, non posso “vedere” o elaborare direttamente il contenuto delle immagini», ci ha risposto, «per poterti aiutare a risolvere i problemi, ti chiedo gentilmente di trascrivere il testo di ciascun problema in formato testuale». Non esattamente quello che uno studente, scappato in bagno per copiare, avesse il tempo di fare.
E gli altri? «ChatGPT ha fatto molto male sui problemi, nel senso che non ha considerato il secondo, cosa che ci può stare visto che all’esame se ne deve svolgere solo uno, ma anche il primo non lo ha affrontato completamente», spiega Brunetto, «ha anche commesso un errore semantico, scambiando f con meno uno con f alla meno uno, che è l’inverso di una funzione, un’entità matematica riconosciuta. Probabilmente questo è dovuto al fatto che è partito da un’immagine». Il voto? «Su una scala da 1 a 10, sicuramente 1».
Sui quesiti, ovvero sulla seconda parte della prova, «ha gestito meglio quelli più procedurali, mentre male su quelli concettuali. Anche in questo caso, siamo sotto la sufficienza: «il voto è 4». Restando sui quesiti, gli altri due modelli utilizzati, ovvero DeepSeek e Claude, non vanno tanto meglio. Per il docente dell’ateneo milanese entrambi prendono 5. E sui problemi?
«Claude parla di derivate laterali, che è un termine che non ho mai sentito, immagino possa essere una traduzione sbagliata. In italiano, ma anche in inglese, si parla di derivata destra e sinistra». Trovare questo termine nella soluzione di un compito di maturità, in altre parole, avrebbe fatto aggrottare le sopracciglia ai docenti. Il voto è un 4.
L’unica sufficienza, un misero 6, la ottiene la cinese DeepSeek lavorando sui problemi. «Intanto devo dire che ho trovato una sintesi estrema nelle sue risposte, che mi ha ricordato gli elaborati dei miei studenti cinesi, molto corretti ma sempre molto sintetici e puntuali», afferma Brunetto. Un portato della cultura matematica cinese riflesso in un modello di AI sviluppato in quel paese?
Tornando ai problemi, «DeepSeek propone di affrontare il secondo utilizzando i prodotti scalari». Si tratta di un concetto «che tutti i liceali affrontano in fisica, non tutti in matematica». Con una complicazione ulteriore, legata al fatto che ne suggerisce l’uso per verificare che un triangolo sia rettangolo, problema per il quale la stragrande maggioranza degli studenti avrebbe scelto il caro vecchio teorema di Pitagora. Insomma, «vedendo il ricorso ai prodotti scalari, qualche dubbio mi sarebbe venuto».
In generale, conclude Brunetto, «non mi aspettavo un risultato così catastrofico». Meglio sarebbe potuta andare con un prompt più preciso, che fornisse maggiore contesto all’AI, spiegando ad esempio che per la soluzione si sarebbero dovute usare solo le competenze acquisite da uno studente del quinto anno dello scientifico. E magari dedicare del tempo, prima dell’esame, per addestrare un modello a risolvere i problemi degli esami di maturità degli ultimi anni. Ma a quel punto sarebbe stato più efficace dedicare quello stesso tempo a studiare.
Le risposte generate dai quattro modelli utilizzati sono consultabili a questo link
Caro Chatbot ti scrivo (così mi distraggo un po’) è una serie di Info Data che sperimenta prompt. Dove si pongono domande e si analizzano le risposte. Perlopiù fuori contesto. Perché in fondo a rispondere siamo capaci tutti.
Per approfondire.
Tre domande su Sanremo a Gpt4 #PromptAnalysis
Chi vincerà quest’anno Sanremo? Le previsioni della “critica”