Gran parte di questi contenuti riflette, per giunta, una prospettiva spesso centrata sugli Stati Uniti. La Commissione Europea ha più volte sottolineato come l'obiettivo di digitalizzare il vasto patrimonio culturale europeo sia ancora lontano dalla piena realizzazione. I leader europei riconoscono apertamente che, senza interventi urgenti, questo squilibrio non è solo una questione di identità, ma anche di rilevanza commerciale. Un'AI che non comprende appieno le lingue, le storie e i valori dell'Europa non potrà servire a pieno i suoi cittadini, le sue imprese o il suo futuro. È in questo contesto che Microsoft ha ampliato il proprio impegno per il futuro digitale dell'Europa con due nuove, significative iniziative, annunciate a Parigi. L'obiettivo principale è rendere più aperti e accessibili elementi unicamente europei: le sue lingue e la sua cultura. Queste novità si inseriscono e rafforzano ulteriormente l'impegno di Microsoft nell'ambito dell'European Digital Commitement, annunciato quest'anno per espandere le infrastrutture cloud e AI, fortificare la resilienza digitale e la protezione della privacy dei dati, migliorare la cybersicurezza e sostenere la sovranità digitale e l'economia del continente.



Un primo passo, essenziale per lo sviluppo di un numero maggiore di LLM multilingue per e nell'Europa, vede Microsoft posizionare i team di due dei propri centri di innovazione a Strasburgo, in Francia. Questa città, da sempre crocevia di culture e ora sede di importanti istituzioni europee, diventa un fulcro strategico. I centri di Strasburgo lavoreranno per ampliare la disponibilità di dati multilingue utili allo sviluppo dell'AI, sfruttando la piattaforma Microsoft Azure, le competenze tecniche e le partnership esistenti in tutta Europa per promuovere una rappresentazione linguistica più inclusiva nei modelli di intelligenza artificiale. Parallelamente a questo impegno, Microsoft lancerà un bando per presentare proposte volte a contribuire all'ampliamento dell'offerta di contenuti digitali per dieci lingue europee. In secondo luogo, per assicurare che la ricchezza culturale dell'Europa sia adeguatamente rappresentata e accessibile nel mondo digitale, Microsoft sta espandendo l'iniziativa Culture AI.



Questo progetto aiuta a salvaguardare lingue, monumenti e artefatti attraverso repliche digitali e una stretta collaborazione sui dati. Dal 2019, Microsoft ha già contribuito alla conservazione digitale di icone del patrimonio culturale mondiale, come l'antica Olimpia in Grecia, il Mont Saint-Michel in Francia, la Basilica di San Pietro a Roma e l'80° anniversario dello sbarco alleato in Normandia. Un nuovo annuncio rivela che questo autunno Microsoft avvierà una collaborazione con il Ministero della Cultura francese e la società francese Iconem per creare una replica digitale di Notre Dame, il capolavoro gotico parigino di 862 anni, recentemente restaurato. Queste attività a supporto dell'Europa e della sua diversità non sono certo una novità per Microsoft. Le iniziative presentate oggi, volte a sostenere le lingue e la cultura, si basano su quarant'anni di esperienza al servizio di paesi e culture in tutta Europa e nel mondo.



L'azienda ha sempre ritenuto che, affinché le persone possano sfruttare al meglio la tecnologia, le soluzioni offerte debbano essere disponibili nelle lingue parlate in ogni parte del mondo. Non a caso, oggi Windows supporta oltre novanta lingue, incluse tutte le lingue ufficiali dell'Unione Europea e altre lingue regionali come il basco, il catalano, il galiziano, il lussemburghese e il valenciano. Allo stesso modo, Microsoft 365 offre un ampio supporto attraverso le applicazioni Office in più di trenta lingue europee, comprese tutte quelle ufficiali dell'Unione Europea. L'urgenza di colmare il divario linguistico è palpabile. L'Unione Europea conta ventiquattro lingue ufficiali, con decine di altre lingue riconosciute a livello nazionale o regionale. Nondimeno, molte di queste lingue, perfino quelle ufficiali come il danese, il finlandese, lo svedese e il greco, costituiscono meno dello 0,6% dei contenuti web. Altre, tra cui il maltese, l'irlandese, l'estone, il lettone e lo sloveno, sono quasi invisibili online.



E pensare che solo il 5% della popolazione mondiale parla inglese come prima lingua, mentre il testo in inglese rappresenta la metà dei contenuti web, dominando in modo schiacciante i dati utilizzati per addestrare i modelli di AI. Questa sottorappresentazione digitale ha conseguenze concrete, poiché gli LLM si affidano in larga misura ai contenuti web per la loro formazione. Se una lingua non ha una presenza online sufficiente, rischia concretamente di essere esclusa dai futuri servizi di AI. Anche se i modelli più grandi e generici possono gestire più lingue, possono comunque perdere le sfumature linguistiche, il contesto culturale e la profondità regionale necessarie per applicazioni davvero inclusive. Gli LLM addestrati su dati limitati sono meno precisi, tendono a "allucinazioni" ed errori più marcati, mostrano difficoltà con il vocabolario specifico e riflettono in misura maggiore i pregiudizi presenti nei dati di partenza. Ad esempio, Llama 3.1, un popolare modello open source, mostra un divario di prestazioni di oltre quindici punti percentuali tra le risposte in inglese e quelle in greco.



Il divario supera i venticinque punti percentuali quando si confronta l'inglese con il lettone. Se questo modello fosse uno studente, eccellerebbe in inglese, avrebbe risultati medi in greco e sarebbe carente in lettone. Questa disparità tra le lingue è un dato evidente in tutti i principali test sulle prestazioni degli LLM. In molti casi, lingue con un profondo patrimonio culturale, come il bretone, l'occitano e il romancio, che l'UNESCO classifica come in via di estinzione, sono in gran parte non supportate dai principali sistemi di AI odierni. Questo sviluppo asimmetrico dei modelli linguistici ha ripercussioni economiche tangibili. Quando i sistemi di AI non riescono a comprendere o a rispondere nella lingua di una regione specifica, limitano l'accesso a servizi e opportunità, con impatti negativi sia per le imprese locali sia per la crescita economica generale. L'ampia diffusione dell'AI, intesa come adozione e utilizzo in tutti gli ambiti economici, sarà uno dei più importanti motori di innovazione e crescita della produttività nel prossimo decennio.



Come l'elettricità e altre tecnologie di uso generale in passato, l'intelligenza artificiale rappresenta la fase successiva dell'industrializzazione. Per le comunità le cui lingue sono sottorappresentate online, i vantaggi dell'AI rischiano di rimanere fuori portata. Pensiamo a un piccolo imprenditore di Malta che parla solo maltese. Attualmente, gli strumenti avanzati di AI per attività come l'analisi di mercato o la generazione di contenuti probabilmente non funzionano in maltese, limitando le possibilità di questo imprenditore di sfruttare l'intelligenza artificiale. Oppure, uno studente di lingua polacca in una città fuori Varsavia che non riesce a trovare risorse educative sull'intelligenza artificiale nella sua lingua, può subire un potenziale impatto sulle opportunità di apprendimento. E anche quando una piattaforma di AI supporta teoricamente una lingua, l'esperienza può essere di scarsa qualità. I governi e le istituzioni europee hanno riconosciuto l'importanza di affrontare questa situazione.



Per promuovere la competitività economica nell'era dell'AI, l'Europa dovrà abbattere le barriere linguistiche e stimolare la diffusione dell'AI in tutto il continente. Secondo la Commissione Europea, solo il 13,5% delle imprese dell'UE utilizza l'intelligenza artificiale. Il piano d'azione dell'UE AI Continent Action Plan rileva che l'abbattimento delle barriere linguistiche nel mercato unico potrebbe aumentare gli scambi commerciali all'interno dell'UE fino a 360 miliardi di Euro. Per contribuire a colmare questo divario linguistico, Microsoft collaborerà con partner europei per aumentare la disponibilità di dati multilingue. In un'importante sinergia con il Laboratorio ICube dell'Università di Strasburgo, un'istituzione dedicata all'ingegneria, all'informatica e all'imaging, Microsoft sosterrà gli sforzi di formazione sull'intelligenza artificiale posizionando personale del Microsoft Open Innovation Center (MOIC) e del Microsoft AI for Good Lab a Strasburgo, in Francia.



Questo team sarà supportato da una rete interna globale di oltre settanta ingegneri, data scientist e professionisti delle policy di Microsoft. La collaborazione tra il MOIC, il Microsoft AI for Good Lab e l'Università di Strasburgo finanzierà anche due ricercatori post-dottorato e fornirà fino a un milione di dollari in crediti Azure. Questo team inizierà attingendo all'archivio di dati multilingue di Microsoft, rendendolo accessibile e trasparente al pubblico europeo, inclusi gli sviluppatori open source. Ciò comprende, per esempio, i dati di testo multilingue da GitHub e i set di dati vocali. Il MOIC e GitHub collaboreranno con Hugging Face, una popolare piattaforma di collaborazione per lo sviluppo di modelli di intelligenza artificiale, per ospitare e rendere i dati ampiamente accessibili. Questa collaborazione capitalizza la relazione esistente tra Microsoft e Hugging Face per rendere disponibile un'ampia gamma di modelli aperti nella raccolta di modelli Hugging Face per la distribuzione con un solo clic nel catalogo dei modelli di Azure, incluso il rilascio, avvenuto la scorsa settimana, degli ultimi contributi all'intelligenza artificiale multilingue: il modello SmoILM3, un modello multilingue con parametri del modello da 3B altamente efficiente e supporto per sei lingue: inglese, francese, spagnolo, tedesco, italiano e portoghese.



Il MOIC collaborerà anche con Common Crawl, uno dei più grandi archivi gratuiti e aperti di dati scansionati sul web. Il MOIC finanzierà il lavoro di Common Crawl, avvalendosi di personale madrelingua per annotare e inserire i dati delle lingue europee nel set di dati di Common Crawl disponibile al pubblico. Inoltre, il MOIC e l'AI for Good Lab pubblicheranno un bando per presentare proposte volte a contribuire all'ampliamento dell'offerta di contenuti digitali per dieci lingue europee, rendendo disponibili le loro raccolte di testi in modo responsabile ed etico e alle proprie condizioni, così da promuovere lo sviluppo e le esperienze multilingue dell'AI. Le domande di sovvenzione saranno disponibili sul sito web dell'AI for Good Lab a partire dal 1° settembre 2025. Nella selezione, il MOIC e l'AI for Good Lab si concentreranno sull'opportunità di sbloccare i dati in lingue con una rappresentazione relativamente bassa nei contenuti online, come l'estone, l'alsaziano, lo slovacco, il greco e il maltese.



Le sovvenzioni forniranno ai destinatari crediti Azure e supporto ingegneristico e tecnico. Se da un lato è essenziale disporre di un maggior numero di dati multilingue, dall'altro possono essere utili strumenti tecnologici e know-how specifici. Per esempio, molte lingue utilizzano script (sistemi di scrittura) che attualmente pongono sfide ai modelli originariamente progettati per l'alfabeto latino. I caratteri cirillici, l'alfabeto greco e la scrittura corsiva araba hanno proprietà diverse. I "tokenizzatori" standard spesso interrompono questi script in modi non ottimali. Questo può compromettere la capacità di un modello di apprendere un contesto più ampio o un'ortografia accurata in quelle lingue. Nuovi progressi nelle tecniche che consentano a un modello di gestire qualsiasi script in modo uniforme possono essere di grande aiuto. Anche meccanismi migliori per creare dati sintetici e per elaborare e gestire tali dati si rivelano utili, soprattutto quando gestiscono in modo efficace i problemi relativi alla privacy e ai dati sensibili. Il MOIC e l'AI for Good Lab lavoreranno per facilitare lo sviluppo e la condivisione di conoscenze, strumenti e capacità per affrontare queste problematiche e offrire risorse agli sviluppatori europei.



L'AI for Good Lab pubblicherà un piano dettagliato su come creare set di dati linguistici di alta qualità e addestrare gli LLM locali per ottenere più potenza dai dati esistenti. Questi due gruppi sosterranno anche la ricerca, organizzeranno convegni, co-investiranno in progetti di dati comuni e garantiranno che le conoscenze, gli strumenti e le capacità siano disponibili dove sono più necessari. I team continueranno anche a supportare iniziative come quelle del Barcelona Supercomputing Center, del Basque Center for Language Technology e dell'Università di Santiago de Compostela per rilasciare modelli di intelligenza artificiale addestrati in spagnolo, catalano, basco e galiziano in Azure AI Foundry. Questa iniziativa permette agli sviluppatori di creare sistemi di intelligenza artificiale che operano nelle lingue ufficiali della Spagna, promuovendo innovazione e inclusività. Infine, per far progredire la ricerca responsabile sull'intelligenza artificiale e contribuire a colmare il divario linguistico, Microsoft sta avviando due nuove collaborazioni accademiche in Europa: con l'Università di Strasburgo e con la IE University School of Science & Technology in Spagna.



L'AI for Good Lab di Microsoft e il MOIC collaboreranno con l'Università di Strasburgo per fornire sovvenzioni Azure a sostegno della ricerca congiunta sull'intelligenza artificiale. Parallelamente, presso la IE University School of Science & Technology, il Microsoft AI for Good Lab offrirà sovvenzioni Azure per supportare la ricerca congiunta rivolta ai linguaggi con poche risorse, incluso il sostegno per progetti finali correlati ad accelerare nuove soluzioni incentrate sul linguaggio e sull'intelligenza artificiale. Dal 2019, l'iniziativa Culture AI di Microsoft si è focalizzata sull'uso dell'intelligenza artificiale a livello globale per contribuire a preservare le lingue, i luoghi, le storie e gli artefatti che definiscono la storia umana. Alimentata dall'AI for Good Lab e attraverso partnership con organizzazioni non profit, università, governi e istituzioni culturali, l'iniziativa sostiene progetti di digitalizzazione e protezione del patrimonio culturale, dalle lingue in via di estinzione ai monumenti iconici, in Francia, Italia e Grecia.



Sia che si tratti di creare repliche digitali di siti storici o di rendere più accessibili le collezioni museali, l'obiettivo è garantire che l'identità culturale e la diversità non siano solo conservate, ma rese più inclusive e accessibili nell'era digitale. Oggi è stato annunciato un nuovo progetto: la costruzione di una replica digitale in collaborazione con il Ministero della Cultura francese e lo studio francese Iconem. Al centro di questo progetto c'è la creazione di un gemello digitale di Notre Dame a Parigi, un punto di riferimento architettonico e culturale plasmato nel corso dei secoli. La costruzione di Notre Dame iniziò nel 1163 e proseguì per quasi duecento anni, dando vita a un capolavoro gotico lungo centoventotto metri con torri gemelle che si innalzano a sessantanove metri sopra la Senna. Dopo un devastante incendio nel 2019, Notre Dame ha riaperto al pubblico alla fine del 2024. Il progetto utilizzerà la tecnologia e i metodi sviluppati con Iconem per creare un gemello digitale della Basilica di San Pietro lo scorso anno, basato su oltre quattrocentomila foto e algoritmi avanzati di intelligenza artificiale, in collaborazione con il Vaticano.



Proprio come il progetto del Vaticano per San Pietro, questo nuovo progetto creerà una replica digitale che conserverà in modo permanente in forma digitale ogni dettaglio di Notre Dame, assicurando che la sua struttura, la sua storia e il suo simbolismo siano protetti e accessibili per le generazioni future. Combinando l'imaging avanzato con l'intelligenza artificiale, Microsoft creerà e donerà allo Stato francese un gemello digitale che potrà essere utilizzato dai team dedicati alla conservazione ed essere esposto nel futuro Musée Notre Dame de Paris. Oltre al progetto a Notre Dame, Microsoft ha anche annunciato una partnership con la Bibliothèque Nationale de France e, sempre in collaborazione con Iconem, per digitalizzare quasi millecinquecento scenografie in stile cinematografico di spettacoli dell'Opéra National de Paris tra il 1800 e il 1914. I set digitalizzati saranno resi disponibili attraverso esperienze interattive ed educative e mostre, e come set di dati resi disponibili sulla piattaforma Gallica della Bibliothèque Nationale de France per l'intelligenza artificiale culturale e i progetti di ricerca.



Infine, Microsoft avvierà una collaborazione con il Musée des Arts Décoratifs per rendere accessibili al pubblico le descrizioni digitali dettagliate di circa un milione e mezzo di manufatti dal Medioevo ai giorni nostri. Questa iniziativa consentirà ai ricercatori di storia, storia dell'arte e conservazione di accedere a queste nuove informazioni per lo studio e per l'utilizzo nella propria ricerca basata sull'intelligenza artificiale. Guardando al futuro, Microsoft compie questi nuovi passi con umiltà e profondo rispetto, riconoscendo che la conservazione della diversità linguistica e culturale dell'Europa è un compito degli europei, che deve essere guidato dagli europei stessi. L'Unione Europea ha già avviato uno sforzo tra i Paesi per mettere in comune i dati linguistici dell'UE e digitalizzare ogni tipo di patrimonio culturale. Il ruolo di Microsoft è quello di contribuire e sostenere questi e altri simili sforzi. Nessuna delle iniziative annunciate oggi comporterà la creazione di dati o tecnologie proprietarie per Microsoft.



Per rispondere efficacemente a queste esigenze in Europa, è fondamentale fornire a più persone competenze sull'AI. Come ha recentemente osservato la Commissione Europea, la carenza di competenze digitali nel settore culturale sta ostacolando gli sforzi per digitalizzare le opere del patrimonio culturale in tutta Europa. Per contribuire a colmare questo divario di competenze, il MOIC e l'AI for Good Lab condivideranno conoscenze e apprendimenti su come svolgere questo lavoro cruciale. La tecnologia dovrebbe riflettere la ricchezza dell'umanità, non ridurla. Con azioni mirate, è possibile far sì che l'intelligenza artificiale valorizzi, invece di minacciare, la diversità linguistica e culturale. Questa rappresenta una delle sfide di equità dell'era dell'intelligenza artificiale. Solo lavorando insieme, con determinazione e urgenza, sarà possibile colmare il divario e costruire un futuro digitale che onori ogni lingua, ogni cultura e ogni comunità in tutta Europa.