Cerca
Fotografia di un tavolo su cui sono disposte delle Polaroid con diversi soggetti fotografati Fotografia di un tavolo su cui sono disposte delle Polaroid con diversi soggetti fotografati
leggi tutte le news

Abbiamo testato la nuova funzione di Edge che fornisce descrizioni automatiche alle immagini

Ricerca e Sviluppo

Usando l’Intelligenza Artificiale, Microsoft Edge è ora in grado di fornire descrizioni alternative per le immagini che ne sono sprovviste. Fondazione LIA ha testato questa nuova funzionalità su diversi siti web e per diversi tipi di immagini. Condividiamo i risultati in questo articolo.

 

Fornire un testo alternativo per le immagini non decorative è uno dei requisiti più importanti quando si tratta di accessibilità. I testi alternativi (alt text o descrizioni alternative) permettono agli utenti che utilizzano delle tecnologie assistive di accedere al contenuto e alle informazioni fornite da un’immagine. I testi alternativi rappresentano una descrizione testuale del contenuto visuale di un’immagine, che sarebbe altrimenti inaccessibile per gli utenti con disabilità visiva.

Scrivere buone descrizioni alternative non è un compito facile, richiede tempo e sforzo. Molte immagini presenti nel web hanno testi alternativi inappropriati, o nessun testo alternativo. Per colmare questa lacuna, Microsoft ha aggiunto una nuova funzionalità a Microsoft Edge: fornirà un testo alternativo generato automaticamente per quelle immagini che non ne presentano uno. La nuova funzione si basa sulla moderna tecnologia di riconoscimento delle immagini basata sull’Intelligenza Artificiale e sugli algoritmi di apprendimento automatico, che possono elaborare automaticamente un’immagine e fornire una breve descrizione testuale di essa. I testi alternativi automatici possono non essere ancora perfetti, ma, per gli utenti che utilizzano screen reader, avere una qualche descrizione è meglio che non avere alcuna descrizione.

In Microsoft Edge, gli utenti possono attivare questa nuova funzione nelle impostazioni del browser. Una volta che l’utente ha dato il consenso, Edge invierà le immagini che non hanno testo alternativo al suo servizio Computer Vision API di Azure Cognitive Service per essere elaborate. Sono supportati i formati immagine più comuni (JPEG, PNG, GIF, WEBP e altri). Vision API analizza le immagini e crea un breve sommario descrittivo del contenuto dell’immagine, che lo screen reader leggerà all’utente come descrizione dell’immagine.

Al momento, la descrizione può essere generata in 5 lingue (inglese, spagnolo, giapponese, portoghese, e cinese semplificato), ma la funzione è anche in grado di riconoscere il testo contenuto nelle immagini in oltre 120 lingue, incluso l’italiano. Per informare l’utente che il testo alternativo che sta leggendo è generato automaticamente, le descrizioni vengono precedute dalla formula “Sembra essere” (“Appears to be” in inglese), mentre il testo contenuto nell’immagine e riconosciuto automaticamente è introdotto dalla formula “Sembra dire” (“Appears to say” in inglese). Alcuni tipi di immagini, come le immagini eccessivamente grandi o piccole, quelle marcate come decorative dai creatori del contenuto, e le immagini categorizzate da Vision API come esplicite, non verranno descritte dall’AI.

Microsoft sta lanciando questa funzione in Microsoft Edge per Windows, Mac e Linux, mentre per ora non sarà disponibile in Edge su Android e su iOS. Secondo Microsoft, “gli algoritmi non sono perfetti, e la qualità della descrizione varierà”, ma i miglioramenti costanti del riconoscimento delle immagini e degli algoritmi affineranno gradualmente la qualità del servizio.

Risultati del test

Fondazione LIA ha testato questa funzione con differenti tipi di immagini: fotografie, grafici, dipinti, illustrazioni e fumetti. I risultati che abbiamo ottenuto mostrano che la descrizione automatica delle immagini di Microsoft Edge funziona da “abbastanza bene” a “molto bene” quando si tratta di fotografie, ma ha ancora un ampio margine di miglioramento per quanto riguarda altri tipi di immagini. Anche le descrizioni delle fotografie non sono ancora perfette e talvolta la descrizione è piuttosto fuorviante. Prendiamo l’esempio che abbiamo testato di una fotografia di una persona con le braccia allargate di fronte a un muro, la cui ombra assumeva il classico profilo di un supereroe: la descrizione (in lingua inglese) è stata “Sembra essere: una persona in piedi di fronte a un gruppo di persone”. In un altro caso, un cane è stato scambiato per un gatto. Al contrario, ci sono state volte in cui la descrizione è stata abbastanza accurata (anche se concisa).  Nel caso di fotografie di personaggi pubblici, come Donald Trump o Viktor Orbán, il riconoscimento è avvenuto correttamente.

Per quanto riguarda i grafici, gli algoritmi di Microsoft Vision API sono in grado di distinguere il tipo di grafico, classificandolo come un grafico a barre, un grafico a linee o un grafico a torta, ma la descrizione si ferma qui, seguita dal riconoscimento e dalla trascrizione di qualsiasi testo contenuto nell’immagine. Abbiamo testato anche delle infografiche, ma la descrizione data è stata semplicemente “diagramma”.

Per gli altri tipi di immagini, abbiamo riscontrato una grande variabilità nella qualità dei risultati. Disegni e illustrazioni sono state, tra le immagini testate, le categorie dove abbiamo ottenuto i risultati più casuali, con disegni classificati come “mappe” (maps), “cartoni animati” (cartoons), “motivi di sfondo” (background pattern). Un estratto di un fumetto è stato annunciato dallo screen reader come “Appears to be: diagram”.

Un tentativo è stato fatto anche con immagini di dipinti e sculture. In questo caso, le descrizioni automatiche si sono dimostrate più vicine al contenuto delle immagini, che sono state quasi sempre classificate correttamente come “un quadro di” (a painting of) o “una statua di” (a statue of). Tuttavia, dal test è emerso che Vision API non riconosce le opere d’arte famose e fornisce quindi solo una descrizione generica. Per esempio, l’Apollo e Dafne di Lorenzo Bernini è stato descritto (in inglese) come “Una statua di una donna e un uomo”, mentre la famosa Pietà di Michelangelo è stata così descritta: “Una statua di un uomo seduto su un trono”, che naturalmente non è il vero contenuto dell’immagine.

Anche se non perfetto e con un margine di miglioramento di cui Microsoft ha già detto di essere consapevole, la nuova funzione di Microsoft Edge è comunque un primo passo importante verso un web più accessibile.

Il progetto pilota di LIA del 2019

I risultati ottenuti durante il nostro test mostrano che le fotografie ottengono descrizioni migliori rispetto agli altri tipi di immagini. Questo risultato non è sorprendente ed era da noi atteso.

Infatti, già nel 2019 Fondazione LIA ha lavorato a un progetto pilota sulla possibilità di generare automaticamente descrizioni alternative delle immagini attraverso l’uso dell’Intelligenza Artificiale. Il progetto si è concentrato sul testare alcuni algoritmi di AI per il riconoscimento, la descrizione e la classificazione delle immagini, scelti tra quelli disponibili sul mercato, applicati alle pubblicazioni digitali, dove possiamo trovare immagini complesse come grafici, diagrammi, illustrazioni, disegni.

In questa occasione, abbiamo verificato che gli algoritmi di riconoscimento delle immagini allo stato dell’arte erano ottimizzati per le fotografie, una tendenza che la nuova funzionalità di Microsoft Edge ora conferma. In attesa di una nuova generazione di algoritmi di descrizione automatica delle immagini, le descrizioni fornite dai creatori di contenuto offriranno probabilmente un’esperienza migliore per gli utenti screen reader.

Se siete interessati a questo argomento, Fondazione LIA ha una lunga esperienza e offre corsi specifici sulle descrizioni alternative per editori e compagnie. Per scoprire di più, visitate la pagina Formazione del nostro sito.