Grazie al lavoro di due docenti e del loro team, l’ateneo genovese è l’unico in Italia a usare machine learning e language processing per migliorare la vita (online) degli studenti. Compresi quelli stranieri

Genova - Il futuro dell’Università di Genova passa da una stanza al settimo piano del Dad, il dipartimento di Architettura e Design, quello che una volta era la facoltà di Architettura. È il Futuro con la “effe” maiuscola, quello legato a Internet, che sembra virtuale, ma ha importanti e concreti effetti sul mondo reale. Sugli studenti, in questo caso.

È in questa stanza, invasa dal sole e affacciata su stradone Sant’Agostino, nel cuore del centro storico del capoluogo ligure, che due docenti, Annalisa Barla, informatica del Dibris, e Andrea Vian, designer del Dad, insieme con 5 giovani collaboratori, stanno ridefinendo i siti che appartengono al dominio unige.it. Usando l’intelligenza artificiale e i big data, unici in Italia a farlo e probabilmente fra i pochi al mondo.

Il primo restyling di 130 siti dedicati ai corsi



«Siamo partiti nel 2017 dai 128 corsi di laurea che fanno capo all’Università di Genova - hanno spiegato Barla e Vian in un lungo- con l’idea di ottimizzare le informazioni per gli studenti, che siano già iscritti o intenzionati a iscriversi, creando un sito specifico per ogni corso. Attenzione:, ma replicando su ognuno i testi che sono comuni a tutti (per esempio sulle sedi, le modalità di iscrizione, le biografie dei docenti e così via), grazie a un procedimento che abbiamo inventato qui».

Nella pratica: se per 35 corsi di laurea la procedura di iscrizione è uguale, il testo che la spiega non viene scritto 35 volte da 35 persone diverse (che è più o meno quello che accadeva in passato), ma viene preparato una sola volta e poi ripetuto sui 35 siti per cui va bene; diversamente, se 5 corsi di laurea hanno una procedura di iscrizione specifica, magari con la richiesta di un preciso documento, o legata al superamento di un esame di ammissione, solo per quei 5 corsi viene preparato un testo di spiegazione dedicato.

Questa razionalizzazione ha permesso non solo di gestire meglio le risorse umane impegnate su unige.it, ma anche di migliorare la cosiddetta “user experience”, dando agli studenti solo le informazioni che stanno cercando davvero: «Se un ragazzo vuole diventare un dottore e dunque studiare Medicina - è la tesi del professor Vian - è inutile fargli fare 15 clic per leggere pagine e pagine e pagine su come iscriversi in generale all’università, per poi alla fine dirgli “se vuoi fare Medicina, clicca qui e vai sul sito di Medicina”, dove dovrà ricominciare la sua ricerca dall’inizio». Insomma, in un’epoca in cui siamo (tutti) travolti da una mole di dati e informazioni impressionante e spesso sopraffacente, l’idea è di offrirne meno, e però giuste.

Per riuscirci, il gruppo di lavoro ha fatto da “filtro”, analizzato i contenuti di tutti i vecchi siti dedicati alle vecchie facoltà, capito quali informazioni erano ripetute e dunque riutilizzabili per più corsi di laurea e anche studiato quali fossero i percorsi di navigazione dei ragazzi: dove cliccavano, che cosa cercavano, che cosa volevano sapere, a seconda che fossero già studenti, intenzionati a iscriversi, laureandi, già laureati. Non è stato un lavoro semplicissimo: «Solo il sito di Architettura aveva oltre 65mila pagine - ha ricordato Vian con un mezzo sorriso - Ma ce l'abbiamo fatta, abbiamo fatto ordine dal disordine. E a primavera 2018 siamo andati online con le pagine nuove (sono accessibili partendo da qui, ndr)».

foto: siti a confronto, Biotecnologie dopo e prima della "cura"

Università di Genova, il sito della Scuola di Biotecnologie dopo il restyling

Università di Genova, il sito della Scuola di Biotecnologie prima del restyling

Che cosa c’entra l’intelligenza artificiale

Questa “analisi di processo per blocchi” (di testo) si è dimostrata talmente efficace che non solo l’Università di Genova l’ha protetta con un brevetto, ma anche ha deciso di "potenziarla" e usarla per riprogettare il sito unige.it. Che è composto da circa mezzo milione di pagine, talmente tante che i 2 docenti e il loro team hanno deciso di farsi aiutare dall’intelligenza artificiale: «Abbiamo affidato a un pc che abbiamo qui in sede - è ancora la professoressa Barla a parlare - l’analisi di tutti i testi presenti su tutte le pagine, per trovare argomenti, parole, espressioni ricorrenti e raggrupparle in macroaree, così da capire che cosa salvare e che cosa eventualmente buttare». Sempre nell’ottica del “less is more”.

Il processo è quello del “crawling” (in inglese, “crawl” è “strisciare”, o comunque avanzare lentamente), ed è lo stesso che usa Google per farci trovare quello che cerchiamo online: in questo caso, l’utilizzo dell’intelligenza artificiale, e nello specifico delle sue capacità di machine learning (di recente, ne abbiamo scritto qui) e natural language processing, permette al computer di farsi largo in questa gigantesca mole di dati riconoscendo quali termini vengono usati più frequentemente e in quale contesto e portandolo alle fine a creare una sorta di “mappa” del sito divisa per parole chiave (come: iscrizione, laurea, erasmus, documenti e così via, un esempio è qui sotto). Per l’Università di Genova, la macchina che lo fa è un server con circa 4 terabyte di disco rigido, 128 gigabyte di Ram e soprattutto due schede grafiche di Nvidia (Tesla e Titan), che lavorano accoppiate per velocizzare i processi di machine learning, perché negli anni si è scoperto che per questo tipo di compiti le gpu sono più performanti delle cpu.

L'esempio di una "mappa" di un sito: in fucsia, gli argomenti più ricorrenti, "nodi" attraverso cui passa la maggior parte del traffico

I risultati di tutto questo lavoro dovrebbero vedersi entro la primavera del 2020, quando dovrebbe debuttare online (“andare live”, come si dice in gergo) una parte piuttosto significativa del nuovo unige.it. In realtà, alcuni frutti sono già stati raccolti: «Dall’estate del 2018, la prima dopo il debutto delle nuove pagine Web dedicate ai corsi di laurea - ci ha raccontato Barla - sono triplicate le richieste di iscrizione di studenti dall’estero. Perché finalmente trovano le informazioni di cui hanno bisogno e finalmente trovano scritte in inglese quelle sui corsi in inglese, che poi sono quelli che vogliono seguire».

Le versioni in inglese e il futuro

Anche qui, il merito va ancora all’intelligenza artificiale, perché gran parte delle traduzioni che si trovano su corsi.unige.it sono realizzate in maniera automatica dal software della tedesca Deepl, che si basa sulle reti neurali e da molti è considerato pari a Google Translate, se non addirittura superiore. Ma che comunque non sostituirà le persone, almeno nel breve periodo: «Molti testi in inglese vengono rivisti da uno di noi - ha chiarito Barla - e quando non succede scriviamo in modo chiaro che “Questa traduzione è stata realizzata da una macchina”».

E in futuro, sul lungo periodo? «Stiamo già impostando il lavoro perché la navigazione dei siti dell’Università possa essere guidata dal computer, che sarà in grado di capire quali informazioni servono a chi accede a una specifica pagina (di nuovo, per sapere come iscriversi, quali documenti portare, quali tasse pagare e così via, ndr). Alcuni grandi siti, come quelli di e-commerce, adottano già tecnologie simili, e presto speriamo di poterlo fare anche noi».