Automatizzare la descrizione alternativa delle immagini

Durante la collaborazione con un editore scolastico per il progetto pilota di un libro di testo, ci siamo chiesti se fosse possibile semplificare (e possibilmente automatizzare) il processo di descrizione delle immagini. Da questa domanda, è nato un progetto pilota – presentato per la prima volta al Digital Publishing Summit del 2019 a Parigi – sulla possibilità di generare automaticamente le descrizioni alternative delle immagini attraverso l’utilizzo dell’intelligenza artificiale.

I grandi operatori tecnologici (Microsoft, Google, Amazon, Facebook) offrono già servizi basati sulle reti neurali artificiali e sul machine learning per aggiungere una descrizione automatica delle fotografie pubblicate dagli utenti nelle loro piattaforme. Ci siamo chiesti, perciò, se fosse possibile usare l’AI per automatizzare la descrizione alternativa delle immagini anche nel mondo dell’editoria.

A causa della complessità delle immagini presenti nei libri, le normali soluzioni al momento disponibili sul mercato non sono sufficienti. Partendo da queste considerazioni, come Fondazione LIA abbiamo iniziato un progetto di ricerca per testare l’uso di alcuni algoritmi di AI già disponibili sul mercato applicati ora a pubblicazioni digitali.

Le fasi del progetto

Prima di iniziare è stato necessario definire un template per la creazione delle descrizioni alternative, composto da due parti complementari tra loro:

image category, una tassonomia di categorie per classificare i diversi tipi di immagini (ad esempio: art, comic, drawing, logo, photograph, ecc.);
image description, ovvero la descrizione vera e propria del contenuto della figura.

Una volta scelti i servizi tra quelli esistenti e addestrato un algoritmo, abbiamo sviluppato un tool che riceve in input un file EPUB, estrae tutte le immagini presenti al suo interno e crea automaticamente la descrizione alternativa, formata dai suoi due elementi (category e description). Sono state escluse alcune tipologie di immagini, come fumetti, grafici, mappe e firme, per cui gli output ottenuti dai servizi testati risultano totalmente aleatori.

A questo punto, come fase conclusiva, è stato possibile testare il prototipo su alcuni file forniti dagli editori, ottenendo i seguenti risultati:

image category generata automaticamente: 42% di accuratezza
image description generata automaticamente: 50% di accuratezza

Prossimi sviluppi

Grazie al lavoro svolto durante il progetto pilota, abbiamo potuto constatare innanzitutto che gli algoritmi di riconoscimento dell’immagine attualmente disponibili sul mercato sono stati ottimizzati per le fotografie, più presenti nel web, mentre non sono in grado di descrivere altre immagini (come disegni, opere d’arte, loghi, grafici e infografiche), maggiormente presente nelle pubblicazioni di ogni tipo.

Pensiamo che l’accuratezza dell’image category si possa migliorare, affinando il dataset iniziale di addestramento del servizio utilizzato, mentre per la description è necessario ancora aspettare un’evoluzione degli algoritmi disponibili sul mercato. Tuttavia, considerando la rapidità con cui la tecnologia avanza oggi, come Fondazione LIA abbiamo in programma nuovi test nei prossimi due anni per verificare eventuali miglioramenti nell’automazione.

A fianco alla ricerca su questo tema, durante l’anno lavoriamo per creare più consapevolezza nel mondo editoriale sull’importanza di descrizione alternative accurate. Lo facciamo attraverso la formazione in specifici incontri rivolti ad addetti del settore: editor, redattori editoriali, grafici e illustratori.

Non solo: proponiamo un servizio di consulenza alle aziende e alle case editrici specificatamente rivolto alla scrittura di descrizioni alternative puntuali e adatte al contesto in cui si trovano. Visita la pagina Conversione per saperne di più.