Les modèles de langage développés par le Golfe inscrivent l'arabe au cœur de l'IA

Les États du Golfe cherchent à devenir des leaders de l'IA en investissant dans la recherche et le développement et dans les start-ups (Photo, MBZUAI).
Les États du Golfe cherchent à devenir des leaders de l'IA en investissant dans la recherche et le développement et dans les start-ups (Photo, MBZUAI).
Short Url
Publié le Mardi 10 octobre 2023

Les modèles de langage développés par le Golfe inscrivent l'arabe au cœur de l'IA

  • ChatGPT comprend les demandes en arabe, mais les réponses peuvent sembler artificielles ou inadaptées
  • Désormais, les grands modèles de langage locaux peuvent saisir les nuances linguistiques et même comprendre les dialectes et les références culturelles

DUBAÏ: Lorsque ChatGPT a fait ses débuts l'année dernière, le programme d'intelligence artificielle a fait sensation dans le monde entier, car les utilisateurs ont pu communiquer avec une machine capable de se faire passer pour un autre être humain.

Toutefois, l'enthousiasme des technophiles du monde arabe s'est quelque peu émoussé en raison de la maîtrise limitée de l'arabe par ChatGPT, due en partie à la complexité de la langue, aux signes diacritiques, au système d'inflexion et aux dialectes régionaux.

Bien que ChatGPT, qui est basé sur un grand modèle linguistique (LLM), puisse comprendre les demandes en arabe et soit capable de les traduire, en particulier lorsqu'il utilise l'arabe standard moderne, les réponses peuvent sembler peu naturelles, tandis que les traductions littérales se révèlent parfois inadaptées.

C'est pourquoi Jais, un LLM conçu pour prendre en charge l'arabe, a été dévoilé en juillet, faisant entrer dans le courant dominant de l'intelligence artificielle (IA) l'une des langues les plus parlées au monde, bien que parfois négligée.

Jais, dont le nom rappelle le plus haut sommet des Émirats arabes unis à Ras al-Khaimah, est le fruit du travail d'une équipe d'universitaires et d'ingénieurs qui se sont lancés dans ce projet après avoir constaté que rares sont les LLM véritablement multilingues.

Le robot humanoïde Ameca accueille les visiteurs au musée du futur de Dubaï (Photo, AFP).

Téléchargeable sur la plateforme d'apprentissage automatique Hugging Face, Jais est le fruit d'une collaboration entre Cerebras Systems, l'université d’intelligence artificielle Mohammed ben Zayed (MBZUAI), et Inception, une filiale de la société G42, basée à Abu Dhabi.

«Il est essentiel que de grands modèles de langage soient développés pour des langues autres que l'anglais afin de garantir une innovation accessible à tous», a déclaré Andy Jackson, président-directeur général (PDG) d'Inception, à Arab News.

«Un LLM arabe de qualité est essentiel pour tous les secteurs, entreprises et organisations, ainsi que pour les particuliers. L'innovation prospère lorsque nous collaborons, et Jais établit une nouvelle norme pour le progrès de l'IA au Moyen-Orient, en veillant à ce que la langue arabe, avec sa profondeur et son héritage, trouve sa voix dans le paysage de l'IA.»

«Jais témoigne de notre engagement en faveur de l'excellence et de notre volonté de démocratiser l'IA et de promouvoir l'innovation.»

Les LLM sont des modèles fonctionnels d'apprentissage automatique qui utilisent des algorithmes d'apprentissage profond pour traiter et comprendre le langage humain naturel. Ces modèles sont ensuite entraînés sur de grandes quantités de données textuelles afin d'apprendre des modèles dans le langage.

Ces programmes, qui prolifèrent dans le sillage du succès de ChatGPT, sont capables de générer des textes sur un éventail apparemment infini de sujets, allant des articles académiques à la poésie.

Ce qui impressionne particulièrement, c'est leur capacité à créer des réponses à des questions de manière si convaincante qu'elles ressemblent à celles d'un être humain, dans presque tous les langages, y compris le codage.

Mais pour que ces langages soient convaincants, des programmeurs humains de langue maternelle sont souvent nécessaires pour fournir un niveau crucial de contexte et de compréhension qui peut améliorer la précision et la fiabilité.

«Jais est spécialement conçu pour la langue arabe et excelle à en saisir les subtilités et les nuances, ce qui garantit des réponses extrêmement précises et pertinentes sur le plan contextuel – un avantage certain par rapport aux modèles à usage général», a déclaré M. Jackson.

Les programmes d'IA adaptés à la langue arabe pourraient accroître l'accès à une nouvelle technologie révolutionnaire (Photo, MBZUAI).

«Cette spécialisation constitue un développement essentiel, car elle offre aux gouvernements, aux entreprises et aux particuliers du monde arabe la possibilité d'exploiter le potentiel de l'IA générative.»

Actuellement considéré comme l'un des principaux LLM arabes, Jais, un modèle à 13 milliards de paramètres, a été entraîné sur un nouvel ensemble de données de 395 milliards de tokens arabes et anglais sur Condor Galaxy, l'un des plus grands supercalculateurs d'IA en nuage au monde, lancé par G42 et Cerebras en juillet en utilisant 116 milliards de tokens arabes et 279 milliards de tokens anglais.

«Jais est né à Abu Dhabi et offre à plus de 400 millions d'arabophones la possibilité d'exploiter le potentiel de l'IA générative», a déclaré à Arab News Preslav Nakov, professeur et directeur adjoint du département de traitement du langage naturel au MBZUAI.

«Il facilitera et accélérera l'innovation, soulignant la place prépondérante d'Abu Dhabi en tant que plaque tournante de l'IA, de l'innovation, de la préservation de la culture et de la collaboration internationale.»

En tant que modèle à code source ouvert, Jais devrait inciter les scientifiques, les universitaires et les développeurs à accélérer la croissance d'un écosystème d'IA en langue arabe. Il pourrait également servir de modèle pour d'autres langues actuellement sous-représentées dans l'IA traditionnelle.

EN BREF

- Les grands modèles de langage, ou LLM, sont un type d'intelligence artificielle capable d'imiter l'intelligence humaine

- L'arabe est parlé par 400 millions de personnes, mais représente 1% du contenu mondial en ligne

- Jais a été créé par Cerebras, MBZUAI et une filiale de G42 appelée Inception

«Jais surpasse de loin les modèles arabes existants», a déclaré M. Nakov. «Il rivalise également avec les modèles anglais de taille similaire, bien qu'il ait été entraîné sur un nombre de données anglaises nettement inférieur.»

«Ce résultat passionnant montre que la composante anglaise du modèle a appris à partir des données arabes et vice versa, ce qui ouvre une nouvelle ère dans le développement et la formation de LLM.»

Lors du développement de Jais, une attention particulière a été accordée au prétraitement du texte arabe, en améliorant la prise en charge des caractéristiques uniques de la langue, y compris son style d'écriture et l'ordre des mots.

Jais maintient également un ensemble de données équilibré entre l'arabe et l'anglais pour des performances optimales, offrant une nette amélioration par rapport aux modèles dont la proportion de texte arabe est limitée.

Ses développeurs affirment que Jais, contrairement à d'autres modèles, saisit les nuances linguistiques et comprend même les différents dialectes arabes et les références culturelles.

«Jais facilite une personnalisation plus rapide pour des cas d'utilisation spécifiques en arabe et dissipe les inquiétudes concernant la propriété des données car il est basé aux Émirats arabes unis, offrant une solution rassurante pour les entreprises locales», a déclaré M. Jackson, PDG d'Inception.

Les LLM sont des modèles fonctionnels d'apprentissage automatique qui utilisent des algorithmes d'apprentissage profond pour traiter et comprendre le langage humain naturel (Photo fournie).

Le ministère des Affaires étrangères et le ministère de l'Industrie et des Technologies avancées des Émirats arabes unis, la Compagnie pétrolière nationale et le ministère de la Santé d'Abu Dhabi, Etihad Airways, First Abu Dhabi Bank et le groupe technologique mondial e& prévoient d'utiliser Jais, offrant des perspectives précieuses pour améliorer le modèle et ses applications dans leurs secteurs d'activité.

Compte tenu des efforts considérables de transformation numérique déployés par plusieurs gouvernements du Golfe, accompagnés d'investissements importants dans les industries de haute technologie et les startups technologiques locales, les programmes d'IA adaptés à la langue arabe pourraient élargir l'accès à une nouvelle technologie transformationnelle et remettre en question le monopole d'une poignée d'entreprises de la Silicon Valley.

Le mois dernier, le Technology Innovation Institute (TII), un centre de recherche émirati situé à Abu Dhabi, a lancé Falcon 180b, un modèle d'IA à code source ouvert. Fondé en 2020, le TII a présenté Falcon 40b, la première version de son modèle d'IA à code source ouvert, en mai dernier, après avoir dévoilé Noor, un modèle d'IA basé sur la langue arabe, l'année dernière.

Selon un rapport publié dans le magazine The Economist, TII est la branche de recherche appliquée de l'Advanced Technology Research Council (ATRC), une agence gouvernementale qui emploie un personnel multinational de 800 personnes travaillant sur des sujets allant de la biotechnologie et de la robotique à l'informatique quantique.

«Nous entrons dans le jeu pour bousculer les principaux acteurs», a déclaré Faisal al-Bannai, secrétaire général de l'ATRC, à The Economist, ajoutant que le TII créera de nouveaux modèles et applications destinés à des domaines spécifiques tels que la médecine et le droit.

Pour sa part, l'Arabie saoudite a lancé sa stratégie nationale pour les données et l'intelligence artificielle en octobre 2020, visant à devenir un leader mondial dans le domaine, alors qu'elle cherche à attirer 20 milliards de dollars (1 dollar = 0,95 euro) d'investissements étrangers et locaux d'ici 2030.

Le Royaume est également déterminé à préparer l'avenir de sa main-d'œuvre, dans un premier temps en formant et en développant plus de 20 000 spécialistes de l'IA et des données. En mai dernier, l'institut d'IA de Deloitte a été officiellement inauguré lors de la conférence Experience Analytics à Riyad.

La semaine dernière, l'Arabie saoudite a lancé des Olympiades nationales de programmation et d'intelligence artificielle ouvertes à tous les élèves des collèges et lycées. Selon les médias, environ 300 000 élèves seront sélectionnés parmi 3 millions de participants pour suivre une formation en programmation et en intelligence artificielle.

Cette initiative est le fruit d'une collaboration entre l'Autorité saoudienne des données et de l'intelligence artificielle, le ministère de l'Éducation et la Fondation du roi Abdelaziz et de ses compagnons pour le talent et la créativité (Photo, Mawhiba).

L'adoption par l'Arabie saoudite de la numérisation et des technologies émergentes devrait contribuer à hauteur de 2,4% à son produit intérieur brut d'ici 2030, selon un récent rapport du cabinet de conseil mondial PwC.

En termes de croissance annuelle moyenne de la contribution de l'IA par région, l'Arabie saoudite devrait obtenir une part de 31,3% dans l'expansion de la technologie entre 2018 et 2030, ajoute le rapport de PwC.

«L'IA se développe rapidement, et son impact se fera de plus en plus sentir dans tous les secteurs et domaines de la vie», a déclaré Nakov de MBZUAI. «Dans ce contexte, il est essentiel que le monde arabe ait accès à un LLM avancé qui puisse être adapté et utilisé dans tous les secteurs.»

«Les progrès rapides de l'IA signifient que les organisations qui ne parviennent pas à s'adapter et à commencer à utiliser l'IA le plus tôt possible seront laissées pour compte, ce qui rend encore plus essentiel l'accès du monde arabe à des LLM de qualité.»

Au-delà de ses applications commerciales, cependant, un aspect crucial d'un programme tel que Jais est sa capacité à soutenir les langues négligées, à les préserver dans une économie en évolution rapide et à promouvoir l'inclusion numérique.

Bien que l'arabe soit une langue officielle dans 22 pays et qu'il soit partiellement parlé dans 11 autres, il ne représente que 1% du contenu mondial en ligne, selon les créateurs de Jais. On peut espérer que l'avènement de l'IA et l'automatisation de la traduction rapide changeront la donne.

En plaçant la langue au premier plan de la révolution de l'IA, Jais et ses successeurs pourraient contribuer à maintenir la place prépondérante de l'arabe dans le monde et sa particularité culturelle à l'ère du numérique.

Ce texte est la traduction d’un article paru sur Arabnews.com 


Entre peur et attente: au Maroc, des habitants évacués sous le choc des inondations

Dans certaines localités, des enfants et des personnes âgées ont attendu les secours sur les toits de leurs habitations, encerclées par les eaux, avant d'être évacués par la gendarmerie royale à l'aide de petites embarcations. (AFP)
Dans certaines localités, des enfants et des personnes âgées ont attendu les secours sur les toits de leurs habitations, encerclées par les eaux, avant d'être évacués par la gendarmerie royale à l'aide de petites embarcations. (AFP)
Short Url
  • Près de Kénitra, à une cinquantaine de kilomètres au nord de Rabat, les autorités ont installé un vaste campement où s'alignent à perte de vue de petites tentes bleues accueillant la population déplacée par les récentes inondations
  • Plus de 7.800 familles, soit plus de 38.700 personnes, y ont trouvé refuge

KENITRA: Dans son village de l'ouest du Maroc, Kasia El Selami a compris qu'il fallait fuir lorsque les haut-parleurs de la mosquée ont appelé à évacuer en raison des intempéries. Rapidement, elle s'est retrouvée dans un immense camp provisoire, sans visibilité sur son retour.

"Nous avons ressenti une grande peur (...) surtout pour nos enfants", raconte à l'AFP cette Marocaine de 67 ans originaire d'Ouled Ameur, en étendant une couverture sur un fil tendu devant sa tente.

Près de Kénitra, à une cinquantaine de kilomètres au nord de Rabat, les autorités ont installé un vaste campement où s'alignent à perte de vue de petites tentes bleues accueillant la population déplacée par les récentes inondations, liées à des épisodes de précipitations exceptionnels.

Plus de 7.800 familles, soit plus de 38.700 personnes, y ont trouvé refuge.

Au total, plus de 150.000 habitants ont été évacués depuis la semaine dernière dans le nord-ouest du pays. Dimanche, les autorités locales de Tétouan (nord) ont annoncé la mort de quatre personnes dans des crues soudaines.

Dans certaines localités, des enfants et des personnes âgées ont attendu les secours sur les toits de leurs habitations, encerclées par les eaux, avant d'être évacués par la gendarmerie royale à l'aide de petites embarcations.

Des distributions d'aide humanitaire ont également été effectuées par hélicoptère, de nombreuses routes restant submergées.

"L'eau continue de monter" 

De fortes pluies, des averses orageuses avec risque de grêle et de fortes rafales de vent ont encore été annoncées dimanche jusqu'à mardi dans plusieurs provinces par la Direction générale de la météorologie (DGM).

Autour des tentes du camp près de Kénitra, la vie s'organise. Une femme frotte son linge dans une bassine avec une planche à laver à quelques mètres d'enclos abritant vaches, chevaux, poules et moutons, eux aussi déplacés par les eaux.

Sur place, des vétérinaires administrent piqûres et traitements aux animaux affaiblis. Près du campement, une brebis et son agneau gisent, morts.

Plus loin, une longue file s'étire devant une clinique mobile qui reçoit des personnes malades ou légèrement blessées.

"La hauteur de l'eau était d'environ un mètre et demi", se souvient Ali El Aouni, assis sous sa toile de tente, entouré de sa famille et de quelques ustensiles dont des verres à thé, un tajine et plusieurs assiettes.

"Nous avons peur de retourner (dans notre village, NDLR), de crainte que l'eau ne revienne", raconte le sexagénaire originaire d'une commune dans les environs de Kénitra.

Il évoque des "jours très difficiles", marqués par le froid et l'angoisse. Ses enfants, dit-il, étaient "terrifiés".

Son fils aîné a voulu rester pour surveiller leur propriété. Il "communique avec nous par téléphone, nous disant que l'eau continue de monter", explique-t-il.

Secouristes en jet-ski 

A quelques kilomètres de là, au dernier endroit accessible depuis Kénitra en direction de Tanger par la route nationale, le trafic est interrompu. Seule l'autoroute reste ouverte.

Des membres de la protection civile avancent dans les eaux en bateau ou en jet-ski. Dans les zones submergées, seules dépassent les cimes des arbres.

L'Espagne et le Portugal ont aussi subi des intempéries ces derniers jours. En cause, selon la DGM: la rencontre d'air froid venu du nord et d'air chaud et humide du sud, qui déstabilise l'atmosphère et favorise des pluies abondantes.

Au Maroc, les apports hydriques enregistrés au cours des cinq derniers mois ont dépassé la moyenne annuelle des dix dernières années, avait indiqué fin janvier le ministère de l'Eau à l'AFP, après sept années consécutives d'une grave sécheresse.

Dans le camp provisoire, la protection civile distribue des sacs de provisions.

"Des tentes, couvertures et matelas ont été fournis, ainsi que des aides alimentaires et des fournitures essentielles pour les personnes affectées, en plus de soins de santé et de suivi vétérinaire pour le bétail", rapporte Adil Al-Khatabi, un responsable de la province de Kénitra sur place.

Kasia El Selami, elle, ne pense qu'à regagner son foyer: "Nous attendons que cette épreuve prenne fin au plus vite afin de pouvoir rentrer chez nous."


Liban: le Premier ministre promet la reconstruction dans le sud, dévasté par le conflit Israël-Hezbollah

En visite à Tayr Harfa, à environ trois km de la frontière, et Yarine, à proximité, M. Salam a déclaré que les villes et villages frontaliers avaient subi "une véritable catastrophe". (AFP)
En visite à Tayr Harfa, à environ trois km de la frontière, et Yarine, à proximité, M. Salam a déclaré que les villes et villages frontaliers avaient subi "une véritable catastrophe". (AFP)
Short Url
  • De larges secteurs des régions méridionales du Liban, proches de la frontière avec Israël, restent désertées et en ruines, plus d’un an après le cessez-le-feu qui visait à mettre fin à un an d'hostilités entre le Hezbollah pro-iranien et Israël
  • Aux termes de l'accord de trêve de novembre 2024, le gouvernement libanais s’est engagé à désarmer le Hezbollah, ce que l’armée a déclaré le mois dernier avoir mené à bien dans la zone entre le fleuve Litani et la frontière israélienne

TAYR HARFA: Le Premier ministre libanais, Nawaf Salam, a promis samedi d'oeuvrer à la reconstruction dans le sud, lors d'une visite de localités dévastées par des frappes israéliennes, la première depuis que l’armée a annoncé avoir désarmé le Hezbollah dans la zone.

De larges secteurs des régions méridionales du Liban, proches de la frontière avec Israël, restent désertées et en ruines, plus d’un an après le cessez-le-feu qui visait à mettre fin à un an d'hostilités (dont deux mois de guerre ouverte) entre le Hezbollah pro-iranien et Israël.

Aux termes de l'accord de trêve de novembre 2024, le gouvernement libanais s’est engagé à désarmer le Hezbollah, ce que l’armée a déclaré le mois dernier avoir mené à bien dans la zone entre le fleuve Litani et la frontière israélienne, à une trentaine de km plus au sud.

En visite à Tayr Harfa, à environ trois km de la frontière, et Yarine, à proximité, M. Salam a déclaré que les villes et villages frontaliers avaient subi "une véritable catastrophe".

A Dhayra, la délégation officielle a été saluée par des habitants rassemblés sur les gravats, et à Bint Jbeil, plus à l’est, elle a tenu une réunion avec des responsables, dont des députés du Hezbollah et de son allié, le mouvement Amal.

M. Samal a promis aux habitants des localités concernées le lancement de projets clés de reconstruction, portant notamment sur la réhabilitation des routes et le rétablissement des réseaux de communication et d’eau.

L’an dernier, la Banque mondiale avait annoncé avoir débloqué 250 millions de dollars pour soutenir la reconstruction post-guerre du Liban. Elle a estimé les coûts de reconstruction et de relance du pays à environ 11 milliards de dollars.

La deuxième phase du plan gouvernemental de désarmement du Hezbollah concerne la zone située entre les fleuves Litani et Awali, à environ 40 km  au sud de Beyrouth.

Israël, qui accuse le Hezbollah de se réarmer, a jugé insuffisants les progrès de l'armée libanaise, tandis que le Hezbollah a rejeté les appels à remettre ses armes.

Malgré l'accord de cessez-le-feu, Israël mène des frappes régulières contre ce qu’il présente généralement comme des cibles du Hezbollah et maintient des troupes dans cinq zones du sud du Liban.

Des responsables libanais ont accusé Israël de chercher à empêcher la reconstruction dans le sud, un bastion du Hezbollah, en menant des frappes répétées visant notamment des engins de chantier.


Cinq morts dans l'effondrement d'un immeuble au Liban 

Le président libanais Joseph Aoun a demandé la mobilisation de tous les services d'urgence pour fournir notamment "un abri aux résidents de l'immeuble ainsi qu'à ceux des bâtiments voisins qui ont été évacués", a indiqué son bureau dans un communiqué. (AFP)
Le président libanais Joseph Aoun a demandé la mobilisation de tous les services d'urgence pour fournir notamment "un abri aux résidents de l'immeuble ainsi qu'à ceux des bâtiments voisins qui ont été évacués", a indiqué son bureau dans un communiqué. (AFP)
Short Url
  • Le bâtiment, ancien, se trouvait dans le quartier pauvre de Bab al-Tabbaneh, où les forces de sécurité ont évacué les immeubles voisins par précaution, a indiqué l'Agence nationale d'information (ANI)
  • "Huit personnes ont été secourues jusqu'à présent", a-t-elle ajouté, précisant que cinq autres, dont un enfant et une femme âgée, étaient mortes

BEYROUTH: Au moins cinq personnes ont été tuées dimanche dans l'effondrement d'un immeuble à Tripoli, dans le nord du Liban, où les secouristes sont à la recherche de survivants de cet incident, le deuxième du genre en quelques semaines, a rapporté l'agence officielle ANI.

Le bâtiment, ancien, se trouvait dans le quartier pauvre de Bab al-Tabbaneh, où les forces de sécurité ont évacué les immeubles voisins par précaution, a indiqué l'Agence nationale d'information (ANI).

"Huit personnes ont été secourues jusqu'à présent", a-t-elle ajouté, précisant que cinq autres, dont un enfant et une femme âgée, étaient mortes.

Le chef de la Défense civile, Imad Khreish, a indiqué à la presse locale que le bâtiment comprenait deux blocs, chacun constitué de six appartements.

Le président libanais Joseph Aoun a demandé la mobilisation de tous les services d'urgence pour fournir notamment "un abri aux résidents de l'immeuble ainsi qu'à ceux des bâtiments voisins qui ont été évacués", a indiqué son bureau dans un communiqué.

Fin janvier, un autre immeuble de Tripoli s'était effondré, causant des morts.

Le Liban compte de nombreux bâtiments délabrés. Beaucoup d'immeubles ont été construits illégalement, notamment pendant la guerre civile de 1975-1990, tandis que certains propriétaires ont ajouté des étages à des bâtiments sans autorisation.

En 2024, l'organisation de défense des droits humains Amnesty International estimait que "des milliers de personnes" vivaient encore dans des bâtiments à risques à Tripoli, plus d'un an après un puissant séisme ayant surtout frappé la Turquie et la Syrie.

Elle précisait que la crise économique persistante privait "les habitants des moyens de financer des réparations ou un autre logement" et exhortait les autorités à "évaluer d'urgence la sécurité des bâtiments dans tout le pays".