Tipologia
Nazionale

Text mining: trasformiamo i documenti in dati

Immaginiamo di dover leggere 7.000 documenti, ognuno con una lunghezza media di 200 pagine. Sono in totale 1.400.000 pagine: un numero enorme, se pensiamo che tutti i libri di Harry Potter messi insieme ne hanno meno di 4.000. Ma immaginiamo anche di doverli successivamente classificare in base agli argomenti trattati e poi metterli in relazione con altri documenti, che trattano argomenti simili. Per svolgere questa attività servirebbero un team di ricerca dedicato e un lavoro di mesi. Ogni ricercatore applicherebbe ovviamente una certa soggettività, rendendo necessario un ulteriore lavoro per rendere omogenei i risultati.
Immaginiamo anche che, finito il lavoro, i documenti vengano aggiornati con una nuova versione, magari completamente diversa…bisognerebbe ricominciare da capo.

Questo è un frangente in cui l’applicazione di tecniche di text-mining si rivela fondamentale, perché permette di utilizzare sistemi automatici per ricavare informazioni strutturate dai testi. In quanto strumento di intelligenza artificiale, è però necessario che il sistema impari a svolgere l’attività, anche in relazione al contesto in cui deve operare: per fare questo è necessario “allenare il sistema”, mostrandogli il risultato dell’operazione su un sottoinsieme di documenti, piccolo ma abbastanza rappresentativo da ridurre i potenziali errori futuri.

Il CSI ha applicato queste tecniche di analisi automatizzata dei testi sui PTOF (Piani Triennali dell’Offerta Formativa) che le scuole italiane pubblicano annualmente. 
Si tratta appunto di un gran numero di documenti, circa 7.000, che sono stati analizzati e strutturati per supportare INDIRE (Istituto Nazionale di Documentazione, Innovazione e Ricerca Educativa) a orientare in modo sempre più efficace gli interventi a sostegno di iniziative di interesse strategico, quali ad esempio inclusione, parità di genere, educazione al rispetto, contrasto al bullismo e al cyberbullismo. 

Si tratta anche di un importante traguardo tecnologico e culturale: non è più solo l’essere umano a definire un insieme di regole, che poi altri umani o elaboratori applicano. La macchina stessa è in grado di imparare dai dati e, in base a questi, di individuare le migliori strade da percorrere. E questo, combinato all’elaborazione di testi o in generale di contenuti non strutturati, consente di generare una grande quantità di nuova informazione e conoscenza. 

Argomenti
Scuola lavoro
Eccellenze e Temi strategici
Data strategy
Intelligenza artificiale