Le prove INVALSI, dalla somministrazione CBT alla valutazione degli apprendimenti

INTRODUZIONE

Grazie per questo invito, è la prima uscita dopo la presentazione del Rapporto nazionale, il 10 luglio scorso.
Da un certo punto di vista il Rapporto 2019 ha segnato un grande cambiamento: finalmente si discute dei risultati e meno di altri aspetti. Si è insomma realizzato quello che si sperava: lo sviluppo di una grande discussione e di una inedita attenzione.
Credo che gli esiti delle prove di quest’anno, per quanto si tratti di quantificazioni a tutti più o meno note, abbiano prodotto un radicale cambiamento del punto di vista. E’ finalmente evidente la dimensione del problema che abbiamo davanti, al punto che è inutile continuare a fare domande del tipo “perché il Paese non cresce”, è giunto il momento di prendere il toro per le corna. Quindi benissimo continuare a discutere degli strumenti e di trovarne di migliori, però, adesso, il problema che abbiamo di fronte è di altra natura, ed è tremendamente preoccupante.

Cercherò di chiarire alcuni aspetti proprio in un’ottica operativa, perché la drammaticità della situazione impone a tutti di essere estremamente concreti, operativi e possibilmente semplici, in modo tale che i messaggi riescano a passare.

LA RESTITUZIONE DEI RISULTATI

L’elemento caratterizzante la novità delle prove INVALSI non è tanto o non è solo la modalità di somministrazione (mediante computer), ma la modalità di restituzione dei risultati. Questo è il punto di svolta.
La modalità con la quale i risultati vengono restituiti mette in evidenza un problema del nostro sistema: in Italia, le Indicazioni e le Linee Guida Nazionali pongono i traguardi, ma non gli standard. L’assenza di standard lascia le scuole in grosse difficoltà..

A livello nazionale e internazionale ci sono due tipi di valutazione:

Valutazione criterion-referenced: essa valuta conoscenze e competenze di uno studente rispetto a standard predefiniti o altri determinati criteri, e non è influenzata dai risultati degli altri studenti né è a quelli comparata.

Valutazione norm – referenced: valuta conoscenze e competenze di uno studente rispetto ai risultati degli altri studenti della classe, ai quali sono comparate e dai quali sono influenzate.

A livello nazionale e internazionale sempre più le scuole hanno predisposto quadri di riferimento (QdR) per la promozione di una valutazione criterion-referenced e non norm-referenced, ossia riferendosi a criteri condivisi a livello generale e non individuali o di classe (Decataldo, Fiore; 2018).
Il D. Lgs. n. 62/2017 (art. 1, comma 2) rafforza le funzioni criterion-referenced mediante il richiamo esplicito al PTOF e alle Indicazioni nazionali.
Ricordo, ad esempio, che in base all’accordo sottoscritto il 12 dicembre 2012 dalla Presidenza del Consiglio dei ministri e dalla Conferenza Stato-Regioni, il titolo di licenza di scuola secondaria di 1° grado corrisponde al livello I dell’EQF (Quadro europeo delle qualifiche e dei titoli per l’apprendimento permanente).

Tornando alla questione degli standard, va sottolineato che per italiano e matematica il nostro legislatore non ha posto degli standard, per cui di fronte a questa assenza dobbiamo cercarli nei dati, con tutte le implicazioni che questo comporta. Abbiamo dovuto costruirli a partire dai dati della prima rilevazione, che vanno a costituire un punto di riferimento, e in funzione di questi ci si va a confrontare nel tempo. Ovviamente la ricerca di questi standard, di questi criteri, non è fatta a caso, ma attraverso valutazioni qualitative e in base al quadro di riferimento relativo ai traguardi delle Indicazioni nazionali.

Questo vale per italiano e matematica, mentre per l’inglese la situazione è diversa: il quadro europeo di riferimento stabilisce traguardi e standard, che sono stati recepiti dall’Italia. Voglio sottolineare che laddove gli standard ci sono noi li assumiamo, questo per fugare affermazioni spesso arbitrarie. E’ bene comunque ricordare che per l’inglese, all’elaborazione di quegli standard europei non hanno partecipato degli italiani. Non c’è stato nessun processo democratico nella determinazione di quegli standard, c’è ovviamente la validità scientifica. Questo mi permette di dire, se volete in modo polemico, una prima cosa: invece di discutere del “sesso degli angeli”, cerchiamo di capire se sugli standard definiti ci ritroviamo.

Il padre della metodologia usata è Rasch, e, come tutti i modelli, ha dei limiti. Sulla stessa scala cerco di mettere il risultato dello studente, indicato con un punteggio, e la descrizione di quello che lo studente sa e sa fare.
Questa metodologia ci consente di definire dei livelli in base ai quali se uno studente ha un determinato punteggio è ragionevole attendersi che sappia fare determinate cose, che vengono descritte in termini di compiti che l’allievo è in grado di svolgere. Esattamente come avviene per il quadro europeo di riferimento delle lingue, se io ho il C2 non è detto che sia ugualmente bravo di un altro C2, quello di Alessandra per esempio. Però se tutti e due abbiamo il C2, anche se Alessandra sa l’inglese meglio di me, potete ragionevolmente aspettarvi che anch’io con il mio C2 me la cavi piuttosto bene, come indicato dai descrittori del livello C2.
I dati dell’Invalsi dal 2018 per la terza secondaria di 1° grado e la seconda secondaria di 2° grado e dal 2019 per la quinta secondaria di 2° grado sono costruiti secondo questa metodologia. Si sono costruiti i livelli e si è tentato di legare, e avverrà sempre di pù in futuro, i livelli ai gradi scolastici, cioè ai traguardi dei gradi scolastici medesimi.

Vediamo i vari passaggi.

La banca delle domande

Gli studenti rispondono a forme diverse del test, assemblate secondo regole (automated test assembly) che ne garantiscono l’equivalenza misuratoria (questo ha prodotto la caduta verticale del cheating).
Le domande sono molte di più di quelle che possono essere somministrate a singolo studente.
Il risultato della rilevazione è sia un punteggio sia una descrizione del grado di abilità* e conoscenze* possedute dagli allievi.

La costruzione della scala

Tipologie dei livelli

Come già detto:

per Inglese, i livelli sono stati individuati e descritti sulla base del QCER (Quadro comune europeo di riferimento per la conoscenza delle lingue).

per Italiano e Matematica, i livelli sono stati individuati e descritti sulla base della distribuzione degli studenti e delle domande.

Per esempio in terza secondaria di 1° grado in matematica, tanto per fare un esempio, il livello 3 corrisponde grosso modo ad un accettabile raggiungimento dei traguardi previsti dopo 8 anni di studio della matematica a scuola. Chi definisce questa accettabilità? Gli esperti e il quadro di riferimento. Chi sta al livello 1? Al livello 1 si trovano gli studenti in grado di raggiungere i traguardi della quinta primaria.
Quindi prima informazione: se una scuola ha in uscita una determinata percentuale di studenti di terza secondaria di 1° grado al livello 1, vuol dire che sono stati licenziati, nel senso scolastico del termine, ragazzini che hanno competenze pari alla quinta primaria, che sono cioè circa tre anni indietro rispetto alle competenze che dovrebbero padroneggiare alla fine del 1° ciclo. Stesso discorso per le scuole secondarie di 2° grado.

Quindi cerchiamo di vederli così i risultati: fatte tutte le premesse che volete, tutte le considerazioni psico-pedagogiche che volete, quando una scuola ha il 20% degli alunni che escono al livello 1, significa che in quella scuola il 20% degli alunni sono tre anni in ritardo in matematica. E’ chiaro che questa situazione è una bomba ad orologeria che scoppierà rapidamente, e ci si troverà a gestire fenomeni gravi e complessi, dispersione, assenza di motivazione e tutto quello che conoscete.

**I RISULTATI DELLE PROVE INVALSI 2019 PER IL GOVERNO DELLA SCUOLA**

Procedo in modo sintetico perché vorrei affrontare tre concetti.

Prendendo come unità di riferimento la scuola, non il sistema scolastico, i focus di interesse dei risultati dell’INVALSI sono tre.

I risultati medi di scuole e di classe.
I livelli di risultato.
La variabilità degli esiti.

Il primo mi dice come è governato un istituto in termini di apprendimenti raggiunti dagli studenti, per come questi sono osservabili tramite le prove INVALSI.
Il secondo mi indica i livelli, come abbiamo visto prima.
Il terzo si riferisce alla variabilità, ossia, detto più concretamente, è una misura dell’equità all’interno dell’istituto.
Poi è chiaro che per palati più raffinati dentro i dati ci possono essere tantissime altre informazioni, ma anche solo questi tre focus possono determinare elementi di riflessione per anni.

I livelli di risultato

Il grafico sopra è relativo ai livelli di Italiano dopo 13 anni di scuola, ossia in 5^ secondaria di 2° grado.
Dal grafico si vede che ci sono regioni del Paese dove oltre il 50% degli studenti dopo 13 anni di scuola è ampiamente sotto i traguardi previsti. I livelli segnati in rosso più intenso danno risultati che grosso modo ci si potrebbe aspettare in esito alla terza secondaria di 1° grado, non alla 5^ di 2° grado!
Di fronte a questi esiti possiamo discutere di tutto, possiamo fare tutte le considerazioni che volete, ma il problema rimane enorme. Ed è questo di cui stiamo parlando ed è questo di cui stanno parlando i giornali, confondendo però spesso, a mio modesto avviso, la questione degli esiti con quella del contesto, come se fosse l’una la giustificazione dell’altra. E’ del tutto evidente che il contesto determina o influisce profondamente sui livelli di risultato, non c’è dubbio e lo sappiamo tutti, ma questo non attenua la gravità del risultato, sono due facce della stessa medaglia.
Il contesto aiuterà a capire perché si ha quel determinato risultato, ma rimane il fatto che quello è il risultato.

Vorrei essere ancora più concreto. Per lo studente o per la famiglia dello studente è del tutto irrilevante sapere perché ha raggiunto un determinato risultato, ciò che conta è il risultato raggiunto. Se mi trovo in un contesto che pesa negativamente è certo che questo ha una sua importanza se lo considero come scuola, ma per me studente non è molto rilevante sapere che il contesto ha pesato negativamente.

In Calabria oltre il 50% degli studenti termina la scuola secondaria di 2° grado senza competenze sufficienti e questo determina un depauperamento enorme delle risorse disponibili per quel territorio. Quelli con i risultati più alti tenderanno ad iscriversi in atenei che sono collocati a nord dell’Appennino tosco emiliano, aggravando ulteriormente il depauperamento della zona.

E vorrei fare notare che la Calabria è una delle regioni a maggior numero di lodi nella maturità e non è il sistema che obbliga a dare delle lodi, anzi la norma prevede un ancoraggio rispetto ai traguardi delle Indicazioni nazionali e quindi una coerenza tra le valutazioni a livello nazionale. C’è dunque ampia materia da analizzare e discutere e su cui agire.

Passiamo alla matematica

I risultati per la matematica sono ancora più agghiaccianti. Il portato del grafico sopra è assolutamente evidente. Significa che se prendo una classe di 20 studenti (il numero medio di studenti in quinta secondaria di 2° grado quest’anno veleggiava a 18,2, dati dichiarati dalle scuole, ma facciamo 20 per semplicità), il 60% di quei 20 ragazzi, ossia 12, non hanno raggiunto le competenze previste dopo 13 anni di scuola.
E se torno in Calabria e osservo il livello rosso intenso che grosso modo equivale alla terza della secondaria di 1° grado, vedo che il 30% di quei 12, circa 6, potrebbero essere collocati in terza secondaria di 1° grado, con un ritardo di 5 anni!. Questo è il problema che abbiamo, questo è ciò di cui dobbiamo con urgenza occuparci!.

Infine l’inglese

L’inglese è il colpo di grazia. Nel grafico sopra si tratta del listening, ossia dell’ascolto. Il livello che da anni è previsto dal nostro legislatore dopo 13 anni di scuola (5^ classe della secondaria di 2° grado) è il B2. I nostri dati si leggono da soli. A livello nazionale il 35% degli studenti non raggiunge l’obiettivo.
E vorrei precisare nuovamente che questa è una prova costruita secondo i criteri del quadro di riferimento europeo approvati dall’Italia.
E’ chiaro che si può auspicare, e io sono d’accordo, anche una riapertura del dibattito sulla scelta dei traguardi, ma ricordiamoci che la letteratura internazionale ci dice che i Paesi che hanno i risultati migliori in assoluto sono quelli che puntano ai traguardi più alti già al grado 10, cioè dopo dieci anni di scuola ed eventualmente recuperano sugli altri tre. Tutti i Paesi europei dopo 13 anni di scuola fissano tutti il livello a B2, e c’è anche chi lo fissa a C1. Ed è del tutto evidente che poi ci sarà una media, ma il drammatico è che da noi solo il 35% raggiunge il traguardo, il 65% ne è al di sotto.

La variabilità dei risultati

Qui parliamo di equità.
Per equità di un sistema scolastico, soprattutto di base, si intende la capacità di garantire agli studenti opportunità formative mediamente uguali per tutti, senza offrire a quelli più fortunati per provenienza familiare o sociale le migliori possibilità, e viceversa. Poi spetterà allo studente A o allo studente B mettere in gioco le proprie risorse per affrontare e capitalizzare le offerte della scuola. Questo è il disegno di equità che viene comunemente accettato nei paesi occidentali.

Come misuriamo l’equità? C’è un sistema abbastanza semplice.
Guardate il grafico sopra: le barre verdi sono le scuole e quelle blu l’Italia. Ogni scuola ha questo dato, tanto più alte sono le barre verdi tanto meno la scuola è equa.
L’analisi della variabilità dei risultati delle prove INVALSI ci dà una misura di quanto i risultati dei singoli studenti si discostano fra loro e dalla media. Grazie ad alcune tecniche statistiche è poi possibile stabilire quanta della variabilità totale è dovuta a differenze fra le scuole, fra le classi, o fra gli alunni della stessa classe. Mentre la variabilità all’interno della stessa classe è attribuibile a differenze fra i ragazzi, le altre due costituiscono uno degli indicatori di equità del sistema educativo. In realtà, nessun sistema scolastico può assicurare una perfetta equità. Quella fra scuole, in particolare, è difficile da raggiungere, perché i territori in cui si trovano e dai quali provengono i loro studenti sono diversi. A quella fra classi invece ci si può avvicinare più facilmente, perché dipende da come le classi vengono formate.
Nel primo ciclo d’istruzione la variabilità tra scuole e tra classi cresce procedendo da nord a sud. Questo significa che non solo i risultati nelle prove sono al sud e nelle isole complessivamente più bassi, ma anche che essi differiscono maggiormente da una scuola all’altra e da una classe all’altra rispetto a quanto accade nel resto dell’Italia: il sistema scolastico è dunque nel mezzogiorno non solo meno efficace ma anche meno equo, cioè meno capace di assicurare agli alunni le stesse opportunità educative.

La variabilità tra scuole e tra classi in inglese è ovunque più elevata che in italiano e matematica. Ciò può avere diverse spiegazioni, come ad esempio una diversa qualità d’insegnamento da una scuola all’altra o anche un accesso differenziato a opportunità d’apprendimento della lingua inglese al di fuori del sistema formale d’istruzione.

Nel 2° ciclo le cose sono più complesse e meno risolvibili rispetto al 1° ciclo, perché c’è il problema della canalizzazione degli studenti nei vari indirizzi scolastici.

IL VALORE AGGIUNTO: UNA MISURA DELL’EFFETTO SCUOLA

Valore aggiunto o effetto scuola

Il “valore aggiunto” o “effetto scuola” è una misura delle competenze degli studenti “al netto” di tre fattori esogeni, che non dipendono dalla scuola (v. figura sotto):

il contesto socio-culturale del territorio (contesto sociale generale);
il contesto socio-culturale della famiglia di ciascun alunno (contesto sociale individuale);
le competenze che gli studenti già possedevano all’ingresso della scuola, (preparazione precedente degli studenti).

Ciascun fattore viene pesato grazie a un modello statistico.

Senza questa essenziale operazione di separazione dell’effetto della scuola rispetto ai fattori esogeni, cioè esterni alla sua azione e su cui essa non ha possibilità di intervenire, la qualità della scuola e la qualità degli apprendimenti degli studenti rimarrebbero inevitabilmente confuse tra loro.
La misurazione dell’effetto scuola, o valore aggiunto, è stata resa possibile dalla disponibilità, dopo oltre dieci anni di Prove INVALSI, dei risultati dei ragazzi all’ingresso e all’uscita dai cicli scolastici. Il calcolo avviene sottraendo al punteggio ottenuto dagli studenti alla fine del ciclo scolastico quello d’ingresso, ottenuto al termine del ciclo precedente, tenendo conto anche di quello che gli allievi possedevano al momento dell’ingresso.

La dimensione dell’effetto scuola è espressa in 5 categorie:

effetto scuola negativo
effetto scuola leggermente negativo
effetto scuola pari alla media nazionale
effetto scuola leggermente positivo
effetto scuola positivo.

Come si vede nel grafico a fianco, quanto più è verde l’effetto scuola, tanto più esso è positivo, mentre tanto più è rosso tanto più esso è negativo.

Stiamo parlando di una misura di efficacia relativa della scuola cioè al netto del peso del contesto. Questo significa che una scuola potrebbe collocarsi in cima, nella zona verde, pur avendo risultati assoluti molto bassi, perché tale collocazione è dovuta alla sua azione molto efficace rispetto alla propria popolazione scolastica nel contesto dato. Per la scuola è importante avere questa informazione, perché è la misura della sua azione, che indica che, anche se i risultati assoluti sono ancora scarsi, è però sulla strada giusta perché sta migliorando relativamente ai suoi risultati precedenti, e questo gioca anche sul fattore di motivazione per tutti

L’effetto scuola è misurato, come si vede nella figura sotto, rispetto all’effetto medio a livello nazionale, di macro-area e della regione di appartenenza. Ad esempio effetto scuola leggermente positivo vuol dire che date le caratteristiche individuali e aggregate degli studenti dell’istituzione scolastica, l’effetto scuola è più alto di quello medio nazionale, di macro-area e della regione: ciò significa che la scuola ottiene risultati medi più alti di quelli che ci si poteva aspettare in base alle caratteristiche della sua popolazione studentesca.

Come già detto, gli indicatori di valore aggiunto sono importanti per valutare l’efficacia degli interventi posti in essere dall’istituto, tolto il peso dei fattori esogeni, tuttavia, il livello delle competenze raggiunte dagli allievi è dato dal punteggio osservato. E’ dunque importante osservare il risultato di una scuola attraverso la valutazione congiunta dell’effetto scuola e del punteggio osservato come mostrato nella tavola sotto.

Per rendere meglio l’idea, immaginate che ci sia un cancello all’ingresso della scuola. Il cancello pone un discrimine molto importante. Se guardo la scuola dentro al cancello, sono interessato a tutte le determinanti dei risultati, a tutte quelle variabili cioè che incidono sul funzionamento della scuola, perché sono quelle su cui si può sperare di poter agire.

Se invece guardo fuori dal cancello della scuola le determinanti di quei risultati non interessano più, interessa il risultato, perché quando ci si iscrive al passo successivo non importa più a nessuno qual è stata la causa dei risultati che uno si porta appresso, interessa il risultato.
E allora dobbiamo tenere insieme questi due elementi, perché lo sguardo al contesto è fondamentale, ma non riduce l’urgenza di migliorare i risultati assoluti, perché è lì che poi giochiamo la vera inclusione, la vera possibilità della scuola di cambiare le cose.

Torniamo alla tabella sopra.

Nella prima colonna a sinistra è indicato il punteggio osservato: 1) sopra la media, 2) nella media, 3) sotto la media.
Nelle altre colonne è indicato l’effetto scuola: 1) positivo, 2) leggermente positivo, 3) in media, 4) negativo, 5) molto negativo.

In questo modo è possibile incrociare le due dimensioni. Esaminiamo alcune situazioni.. Prendiamo il primo quadratino verde in alto a sinistra: a) punteggio osservato sopra la media, b) effetto scuola positivo. Questo incrocio mi dice che quella scuola raggiunge risultati buoni con un apporto molto evidente della scuola stessa. Potremmo dire che siamo in presenza della “Ferrari” delle scuole!
Prendiamo ora l’ultimo quadratino bianco in alto a destra: a) punteggio osservato sopra la media, b) apporto della scuola inadeguato. Questo incrocio mi dice che quella scuola raggiunge risultati buoni per il contesto, non perché la scuola sia efficace.
Prendiamo ora il primo quadratino bianco in basso a sinistra: a) punteggio osservato sotto la media, b) apporto della scuola molto evidente. Questo incrocio mi dice che c’è ancora da migliorare, ma che la scuola è assolutamente sulla buona strada.
Prendiamo infine l’ultimo quadratino rosso in basso a destra: a) punteggio osservato sotto la media, b) apporto della scuola inadeguato. Questo incrocio mi dice che quella scuola raggiunge risultati molto scadenti e che la scuola non ha fatto nulla per migliorarli, sta perdendo velocità.
In conclusione, non è detto che una scuola che ha ottenuto punteggi alti alle Prove INVALSI sia in realtà così buona, né che una scuola che ha ottenuto punteggi bassi non lo sia. Infatti, come abbiamo visto, i risultati degli studenti possono essere influenzati da fattori che non dipendono affatto dalla scuola, o che non dipendono interamente da questa.

Così, mentre una scuola con risultati alti potrebbe aver aggiunto poco o nulla a quella che sarebbe stata la naturale evoluzione di ragazzi già preparati e motivati, una scuola con risultati più modesti potrebbe avere invece migliorato la preparazione dei propri studenti nonostante una situazione di partenza molto difficile, ed essere in realtà più efficace di quella che ha avuto il risultato più alto.

La scuola che funziona bene infatti non è solo quella che ottiene risultati eccellenti.
È anche quella che, nonostante condizioni difficili, ha saputo comunque migliorare la preparazione degli allievi, riducendo le disuguaglianze di partenza.

A questo punto permettetemi un’osservazione polemica. Vi ricordate tutte le discussioni che si sono avute da dieci anni a questa parte? “Questionario sì, questionario no”, “Poveri i bimbi disturbati con richieste della professione del papà e della mamma”, “ Non è giusto farlo”, ecc… ecc… Ebbene, il questionario serve esattamente a determinare il contesto, perché se il contesto ha un peso, e sappiamo che l’ha, lo si deve necessariamente misurare. Se non lo si misura vuol dire che interessa solo il risultato assoluto, vuol dire, tanto per fare un esempio, che chi osserva la scuola di Scampia e dei Parioli lo fa con la stessa lente.

I RISULTATI DELLE PROVE INVALSI PER LA DIDATTICA

Vorrei infine segnalarvi che abbiamo aperto un sito nuovo che può essere molto utile per chi vuole fare interventi di miglioramento, il nome è programmatico INVALSIopen.

INVALSIopen nasce con la finalità di comunicare in modo diretto, accessibile, esaustivo e trasparente il lavoro di ricerca sulla valutazione scolastica e l’impegno nel misurare gli esiti di apprendimento degli studenti nella scuola italiana.

Il linguaggio è semplice e sintetico, ma anche rigoroso e scientifico.

C’è tutto il materiale articolato per livelli con la guida alla lettura.
Oltre alle guide alla lettura c’è l’apparato di commento didattico, i processi che mettiamo in gioco e il tentativo di ancorare i traguardi e i quesiti alle indicazioni nazionali.
Considerate INVALSIopen un ausilio alle azioni di cui tutti dovremmo farci carico per affrontare l’emergenza istruzione, che il Rapporto INVALSI 2019 ha mostrato in tutta la sua drammaticità.