Les modèles de langage développés par le Golfe inscrivent l'arabe au cœur de l'IA

Les États du Golfe cherchent à devenir des leaders de l'IA en investissant dans la recherche et le développement et dans les start-ups (Photo, MBZUAI).
Les États du Golfe cherchent à devenir des leaders de l'IA en investissant dans la recherche et le développement et dans les start-ups (Photo, MBZUAI).
Short Url
Publié le Mardi 10 octobre 2023

Les modèles de langage développés par le Golfe inscrivent l'arabe au cœur de l'IA

  • ChatGPT comprend les demandes en arabe, mais les réponses peuvent sembler artificielles ou inadaptées
  • Désormais, les grands modèles de langage locaux peuvent saisir les nuances linguistiques et même comprendre les dialectes et les références culturelles

DUBAÏ: Lorsque ChatGPT a fait ses débuts l'année dernière, le programme d'intelligence artificielle a fait sensation dans le monde entier, car les utilisateurs ont pu communiquer avec une machine capable de se faire passer pour un autre être humain.

Toutefois, l'enthousiasme des technophiles du monde arabe s'est quelque peu émoussé en raison de la maîtrise limitée de l'arabe par ChatGPT, due en partie à la complexité de la langue, aux signes diacritiques, au système d'inflexion et aux dialectes régionaux.

Bien que ChatGPT, qui est basé sur un grand modèle linguistique (LLM), puisse comprendre les demandes en arabe et soit capable de les traduire, en particulier lorsqu'il utilise l'arabe standard moderne, les réponses peuvent sembler peu naturelles, tandis que les traductions littérales se révèlent parfois inadaptées.

C'est pourquoi Jais, un LLM conçu pour prendre en charge l'arabe, a été dévoilé en juillet, faisant entrer dans le courant dominant de l'intelligence artificielle (IA) l'une des langues les plus parlées au monde, bien que parfois négligée.

Jais, dont le nom rappelle le plus haut sommet des Émirats arabes unis à Ras al-Khaimah, est le fruit du travail d'une équipe d'universitaires et d'ingénieurs qui se sont lancés dans ce projet après avoir constaté que rares sont les LLM véritablement multilingues.

Le robot humanoïde Ameca accueille les visiteurs au musée du futur de Dubaï (Photo, AFP).

Téléchargeable sur la plateforme d'apprentissage automatique Hugging Face, Jais est le fruit d'une collaboration entre Cerebras Systems, l'université d’intelligence artificielle Mohammed ben Zayed (MBZUAI), et Inception, une filiale de la société G42, basée à Abu Dhabi.

«Il est essentiel que de grands modèles de langage soient développés pour des langues autres que l'anglais afin de garantir une innovation accessible à tous», a déclaré Andy Jackson, président-directeur général (PDG) d'Inception, à Arab News.

«Un LLM arabe de qualité est essentiel pour tous les secteurs, entreprises et organisations, ainsi que pour les particuliers. L'innovation prospère lorsque nous collaborons, et Jais établit une nouvelle norme pour le progrès de l'IA au Moyen-Orient, en veillant à ce que la langue arabe, avec sa profondeur et son héritage, trouve sa voix dans le paysage de l'IA.»

«Jais témoigne de notre engagement en faveur de l'excellence et de notre volonté de démocratiser l'IA et de promouvoir l'innovation.»

Les LLM sont des modèles fonctionnels d'apprentissage automatique qui utilisent des algorithmes d'apprentissage profond pour traiter et comprendre le langage humain naturel. Ces modèles sont ensuite entraînés sur de grandes quantités de données textuelles afin d'apprendre des modèles dans le langage.

Ces programmes, qui prolifèrent dans le sillage du succès de ChatGPT, sont capables de générer des textes sur un éventail apparemment infini de sujets, allant des articles académiques à la poésie.

Ce qui impressionne particulièrement, c'est leur capacité à créer des réponses à des questions de manière si convaincante qu'elles ressemblent à celles d'un être humain, dans presque tous les langages, y compris le codage.

Mais pour que ces langages soient convaincants, des programmeurs humains de langue maternelle sont souvent nécessaires pour fournir un niveau crucial de contexte et de compréhension qui peut améliorer la précision et la fiabilité.

«Jais est spécialement conçu pour la langue arabe et excelle à en saisir les subtilités et les nuances, ce qui garantit des réponses extrêmement précises et pertinentes sur le plan contextuel – un avantage certain par rapport aux modèles à usage général», a déclaré M. Jackson.

Les programmes d'IA adaptés à la langue arabe pourraient accroître l'accès à une nouvelle technologie révolutionnaire (Photo, MBZUAI).

«Cette spécialisation constitue un développement essentiel, car elle offre aux gouvernements, aux entreprises et aux particuliers du monde arabe la possibilité d'exploiter le potentiel de l'IA générative.»

Actuellement considéré comme l'un des principaux LLM arabes, Jais, un modèle à 13 milliards de paramètres, a été entraîné sur un nouvel ensemble de données de 395 milliards de tokens arabes et anglais sur Condor Galaxy, l'un des plus grands supercalculateurs d'IA en nuage au monde, lancé par G42 et Cerebras en juillet en utilisant 116 milliards de tokens arabes et 279 milliards de tokens anglais.

«Jais est né à Abu Dhabi et offre à plus de 400 millions d'arabophones la possibilité d'exploiter le potentiel de l'IA générative», a déclaré à Arab News Preslav Nakov, professeur et directeur adjoint du département de traitement du langage naturel au MBZUAI.

«Il facilitera et accélérera l'innovation, soulignant la place prépondérante d'Abu Dhabi en tant que plaque tournante de l'IA, de l'innovation, de la préservation de la culture et de la collaboration internationale.»

En tant que modèle à code source ouvert, Jais devrait inciter les scientifiques, les universitaires et les développeurs à accélérer la croissance d'un écosystème d'IA en langue arabe. Il pourrait également servir de modèle pour d'autres langues actuellement sous-représentées dans l'IA traditionnelle.

EN BREF

- Les grands modèles de langage, ou LLM, sont un type d'intelligence artificielle capable d'imiter l'intelligence humaine

- L'arabe est parlé par 400 millions de personnes, mais représente 1% du contenu mondial en ligne

- Jais a été créé par Cerebras, MBZUAI et une filiale de G42 appelée Inception

«Jais surpasse de loin les modèles arabes existants», a déclaré M. Nakov. «Il rivalise également avec les modèles anglais de taille similaire, bien qu'il ait été entraîné sur un nombre de données anglaises nettement inférieur.»

«Ce résultat passionnant montre que la composante anglaise du modèle a appris à partir des données arabes et vice versa, ce qui ouvre une nouvelle ère dans le développement et la formation de LLM.»

Lors du développement de Jais, une attention particulière a été accordée au prétraitement du texte arabe, en améliorant la prise en charge des caractéristiques uniques de la langue, y compris son style d'écriture et l'ordre des mots.

Jais maintient également un ensemble de données équilibré entre l'arabe et l'anglais pour des performances optimales, offrant une nette amélioration par rapport aux modèles dont la proportion de texte arabe est limitée.

Ses développeurs affirment que Jais, contrairement à d'autres modèles, saisit les nuances linguistiques et comprend même les différents dialectes arabes et les références culturelles.

«Jais facilite une personnalisation plus rapide pour des cas d'utilisation spécifiques en arabe et dissipe les inquiétudes concernant la propriété des données car il est basé aux Émirats arabes unis, offrant une solution rassurante pour les entreprises locales», a déclaré M. Jackson, PDG d'Inception.

Les LLM sont des modèles fonctionnels d'apprentissage automatique qui utilisent des algorithmes d'apprentissage profond pour traiter et comprendre le langage humain naturel (Photo fournie).

Le ministère des Affaires étrangères et le ministère de l'Industrie et des Technologies avancées des Émirats arabes unis, la Compagnie pétrolière nationale et le ministère de la Santé d'Abu Dhabi, Etihad Airways, First Abu Dhabi Bank et le groupe technologique mondial e& prévoient d'utiliser Jais, offrant des perspectives précieuses pour améliorer le modèle et ses applications dans leurs secteurs d'activité.

Compte tenu des efforts considérables de transformation numérique déployés par plusieurs gouvernements du Golfe, accompagnés d'investissements importants dans les industries de haute technologie et les startups technologiques locales, les programmes d'IA adaptés à la langue arabe pourraient élargir l'accès à une nouvelle technologie transformationnelle et remettre en question le monopole d'une poignée d'entreprises de la Silicon Valley.

Le mois dernier, le Technology Innovation Institute (TII), un centre de recherche émirati situé à Abu Dhabi, a lancé Falcon 180b, un modèle d'IA à code source ouvert. Fondé en 2020, le TII a présenté Falcon 40b, la première version de son modèle d'IA à code source ouvert, en mai dernier, après avoir dévoilé Noor, un modèle d'IA basé sur la langue arabe, l'année dernière.

Selon un rapport publié dans le magazine The Economist, TII est la branche de recherche appliquée de l'Advanced Technology Research Council (ATRC), une agence gouvernementale qui emploie un personnel multinational de 800 personnes travaillant sur des sujets allant de la biotechnologie et de la robotique à l'informatique quantique.

«Nous entrons dans le jeu pour bousculer les principaux acteurs», a déclaré Faisal al-Bannai, secrétaire général de l'ATRC, à The Economist, ajoutant que le TII créera de nouveaux modèles et applications destinés à des domaines spécifiques tels que la médecine et le droit.

Pour sa part, l'Arabie saoudite a lancé sa stratégie nationale pour les données et l'intelligence artificielle en octobre 2020, visant à devenir un leader mondial dans le domaine, alors qu'elle cherche à attirer 20 milliards de dollars (1 dollar = 0,95 euro) d'investissements étrangers et locaux d'ici 2030.

Le Royaume est également déterminé à préparer l'avenir de sa main-d'œuvre, dans un premier temps en formant et en développant plus de 20 000 spécialistes de l'IA et des données. En mai dernier, l'institut d'IA de Deloitte a été officiellement inauguré lors de la conférence Experience Analytics à Riyad.

La semaine dernière, l'Arabie saoudite a lancé des Olympiades nationales de programmation et d'intelligence artificielle ouvertes à tous les élèves des collèges et lycées. Selon les médias, environ 300 000 élèves seront sélectionnés parmi 3 millions de participants pour suivre une formation en programmation et en intelligence artificielle.

Cette initiative est le fruit d'une collaboration entre l'Autorité saoudienne des données et de l'intelligence artificielle, le ministère de l'Éducation et la Fondation du roi Abdelaziz et de ses compagnons pour le talent et la créativité (Photo, Mawhiba).

L'adoption par l'Arabie saoudite de la numérisation et des technologies émergentes devrait contribuer à hauteur de 2,4% à son produit intérieur brut d'ici 2030, selon un récent rapport du cabinet de conseil mondial PwC.

En termes de croissance annuelle moyenne de la contribution de l'IA par région, l'Arabie saoudite devrait obtenir une part de 31,3% dans l'expansion de la technologie entre 2018 et 2030, ajoute le rapport de PwC.

«L'IA se développe rapidement, et son impact se fera de plus en plus sentir dans tous les secteurs et domaines de la vie», a déclaré Nakov de MBZUAI. «Dans ce contexte, il est essentiel que le monde arabe ait accès à un LLM avancé qui puisse être adapté et utilisé dans tous les secteurs.»

«Les progrès rapides de l'IA signifient que les organisations qui ne parviennent pas à s'adapter et à commencer à utiliser l'IA le plus tôt possible seront laissées pour compte, ce qui rend encore plus essentiel l'accès du monde arabe à des LLM de qualité.»

Au-delà de ses applications commerciales, cependant, un aspect crucial d'un programme tel que Jais est sa capacité à soutenir les langues négligées, à les préserver dans une économie en évolution rapide et à promouvoir l'inclusion numérique.

Bien que l'arabe soit une langue officielle dans 22 pays et qu'il soit partiellement parlé dans 11 autres, il ne représente que 1% du contenu mondial en ligne, selon les créateurs de Jais. On peut espérer que l'avènement de l'IA et l'automatisation de la traduction rapide changeront la donne.

En plaçant la langue au premier plan de la révolution de l'IA, Jais et ses successeurs pourraient contribuer à maintenir la place prépondérante de l'arabe dans le monde et sa particularité culturelle à l'ère du numérique.

Ce texte est la traduction d’un article paru sur Arabnews.com 


Liban: au moins sept morts dans une nouvelle attaque sur le centre de Beyrouth

Des personnes se rassemblent sur le site d’une frappe de drone ayant visé une voiture à Ramlet al-Baida, sur la Corniche de Beyrouth, après une escalade entre le Hezbollah et Israël dans le contexte du conflit opposant les États-Unis et Israël à l’Iran, à Beyrouth, au Liban, le 12 mars 2026. (REUTERS)
Des personnes se rassemblent sur le site d’une frappe de drone ayant visé une voiture à Ramlet al-Baida, sur la Corniche de Beyrouth, après une escalade entre le Hezbollah et Israël dans le contexte du conflit opposant les États-Unis et Israël à l’Iran, à Beyrouth, au Liban, le 12 mars 2026. (REUTERS)
Short Url
  • Une frappe israélienne sur le front de mer de Beyrouth a fait au moins 7 morts et 21 blessés, tandis que le Hezbollah a lancé un nouveau barrage de missiles vers Israël
  • Le conflit s’intensifie avec des frappes israéliennes au Liban et des attaques du Hezbollah, provoquant plus de 800 000 déplacés dans le pays

BEYROUTH: Les autorités du Liban ont fait état jeudi de sept morts dans une frappe israélienne sur le front de mer à Beyrouth, une nouvelle attaque au coeur de la capitale au moment où le Hezbollah tirait un barrage de missiles supplémentaire vers Israël.

Les médias locaux ont diffusé des images montrant de la fumée le long de la côte après cette frappe sur la plage de Ramlet al-Bayda où des personnes déplacées dorment à la belle étoile depuis le déclenchement du dernier conflit entre Israël et le groupe armé libanais pro-iranien.

"La frappe de l'ennemi israélien sur Ramlet al-Bayda, à Beyrouth, a entraîné un bilan initial de sept morts et 21 blessés", a déclaré le ministère de la Santé dans un communiqué.

Il s'agit de la troisième attaque au coeur de la capitale depuis le début de la guerre au Moyen-Orient, après une frappe contre un hôtel en bord de mer dimanche et un raid contre un appartement mercredi.

Les Gardiens de la Révolution avaient annoncé peu avant que l'Iran avait réalisé une opération de frappes "conjointe et intégrée" avec son allié du Hezbollah visant Israël.

Le groupe armée libanais a indiqué avoir tiré des missiles sur une base du renseignement militaire israélien dans la banlieue de Tel-Aviv.

L'armée israélienne a déclaré de son côté jeudi avoir atteint dix cibles liées au Hezbollah dans le sud de Beyrouth, dont un quartier général du renseignement, des centres de commandement, et "des dizaines de lanceurs".

Selon l'agence officielle libanaise Ani, des frappes israéliennes ont également ciblé jeudi matin plusieurs villes du sud du Liban, dont Taybeh, al-Sultaniyya ainsi que Qana.

- 800.000 déplacés -

Le Liban a été entraîné dans la guerre au Moyen-Orient la semaine dernière lorsque le Hezbollah a attaqué Israël en riposte à la mort du guide suprême iranien, l’ayatollah Ali Khamenei, tué lors de frappes américano-israéliennes.

Israël, qui poursuivait ses frappes au Liban même avant la guerre malgré un cessez-le-feu conclu en 2024 avec le Hezbollah, a depuis lancé des raids aériens dans tout le pays et envoyé des troupes au sol dans les zones frontalières.

Selon un nouveau bilan des autorités mercredi, plus de 630 personnes ont été tuées par les opérations israéliennes depuis le 2 mars et plus de 800.000 personnes déplacées, dont plus de 120.000 hébergées dans des centres d'accueil.

Le président français Emmanuel Macron a appelé Israël à "clairement renoncer à une offensive terrestre au Liban" et le Hezbollah à "immédiatement mettre fin à ses attaques", après s'être entretenu avec son homologue libanais Joseph Aoun.

Après une nouvelle journée de pilonnage du Liban mercredi,l'armée israélienne avait annoncé mercredi soir avoir déclenché une nouvelle série de frappes "à grande échelle" visant la banlieue sud de Beyrouth, bastion du Hezbollah régulièrement bombardé depuis dix jours et dont une grande partie de la population a fui.


L’Arabie saoudite salue une résolution de l’ONU alors que les attaques iraniennes contre les États du Golfe se poursuivent

Short Url
  • Le Conseil de sécurité de l’ONU a adopté la résolution 2817 condamnant fermement les attaques iraniennes contre les États du Golfe et la Jordanie comme une violation du droit international
  • L’Arabie saoudite appelle à la cessation immédiate des attaques et réaffirme son droit, selon la Charte de l’ONU, de défendre sa sécurité et sa souveraineté

RIYAD : Le ministère saoudien des Affaires étrangères a salué l’adoption par le Conseil de sécurité de l’ONU de la résolution n° 2817, présentée par l’Arabie saoudite, Bahreïn, les Émirats arabes unis, le Qatar, Oman, le Koweït et la Jordanie. Cette résolution condamne avec la plus grande fermeté les attaques odieuses lancées par l’Iran contre les États du Golfe et la Jordanie, et estime que ces actes constituent une violation du droit international ainsi qu’une grave menace pour la paix et la sécurité internationales.

« Le Royaume se félicite du contenu de la résolution, notamment de la condamnation de l’attaque contre des zones résidentielles et du ciblage d’objets civils, ainsi que des pertes civiles qui en ont résulté, des dommages causés aux bâtiments civils et de l’expression de solidarité avec ces pays et leurs peuples », indique le communiqué.

Le ministère a évoqué le soutien international et la condamnation des attaques iraniennes, appelant à leur cessation immédiate et inconditionnelle, ainsi qu’à l’arrêt de toute provocation ou menace envers les pays voisins.

« Le Royaume réaffirme le contenu de la résolution et son plein droit de prendre des mesures pour garantir la protection de sa sécurité, de sa souveraineté et de son intégrité territoriale, et pour dissuader toute agression, comme le reconnaît l’article 51 de la Charte des Nations unies », a-t-elle déclaré. 

Ce texte est la traduction d’un article paru sur Arabnews.com


Nouvelles frappes d'Israël sur le sud de Beyrouth, le Hezbollah tire des «dizaines de roquettes»

Israël a annoncé mercredi soir avoir déclenché une nouvelle série de frappes "à grande échelle" sur la banlieue sud de Beyrouth contre le Hezbollah, qui a de son côté tiré des roquettes vers le nord d'Israël. (AFP)
Israël a annoncé mercredi soir avoir déclenché une nouvelle série de frappes "à grande échelle" sur la banlieue sud de Beyrouth contre le Hezbollah, qui a de son côté tiré des roquettes vers le nord d'Israël. (AFP)
Short Url
  • Les frappes israéliennes ont fait huit morts dans l'est du Liban, a rapporté le ministère libanais de la Santé, après une nouvelle journée de pilonnage de l'armée israélienne qui dit viser le Hezbollah pro-iranien
  • D'après un communiqué du ministère, huit personnes ont été tuées et trois blessées dans le district de Baalbek (est)

BEYROUTH: Israël a annoncé mercredi soir avoir déclenché une nouvelle série de frappes "à grande échelle" sur la banlieue sud de Beyrouth contre le Hezbollah, qui a de son côté tiré des roquettes vers le nord d'Israël.

Les frappes israéliennes ont fait huit morts dans l'est du Liban, a rapporté le ministère libanais de la Santé, après une nouvelle journée de pilonnage de l'armée israélienne qui dit viser le Hezbollah pro-iranien.

D'après un communiqué du ministère, huit personnes ont été tuées et trois blessées dans le district de Baalbek (est).

Quatre autres personnes sont mortes à Burj al-Shemali, près de Tyr (sud), et 17 ont été blessées dans une série de raids sur la banlieue sud de Beyrouth, selon la même source.

A Beyrouth, des journalistes de l'AFP ont entendu des explosions dans toute la ville, tandis que les images de l'AFPTV ont montré de la fumée s'élever de la banlieue sud. L'agence officielle Ani a fait état d'importantes frappes dans cette zone qui est un bastion du Hezbollah.

Après avoir visé plusieurs parties du territoire libanais dans la journée, Israël "a commencé une série de frappes à grande échelle contre des infrastructures du Hezbollah" dans la banlieue sud, a annoncé l'armée dans un communiqué.

Elle "agira bientôt avec une force considérable" contre le mouvement libanais pro-iranien, a averti le porte-parole en langue arabe des militaires israéliens, le colonel Avichay Adraee.

L'armée avait peu avant fait état de tirs de roquettes nourris du Hezbollah.

Celui-ci a dit avoir "tiré des dizaines de roquettes", en direction de bases à Safed et à Haïfa, deux villes septentrionales d'Israël, en réponse à son "agression criminelle".

L'Iran a affirmé avoir réalisé une opération de frappes "conjointe et intégrée" avec son allié du Hezbollah sur Israël, selon un communiqué des Gardiens de la Révolution diffusé par les médias iraniens.

"Feu continu" 

"L'opération conjointe et intégrée du Corps des Gardiens et de la Résistance libanaise" a consisté en "un feu continu pendant une période de cinq heures" de missiles tirés par les Gardiens et de drones et de missiles du Hezbollah contre "plus de 50 cibles" sur le territoire israélien, selon le communiqué diffusé par les agences de presse Fars et Tasnim.

Plus tôt mercredi, Israël a visé un quartier densément peuplé du coeur de la capitale libanaise, au dixième jour d'une guerre avec le Hezbollah qui a fait plus de 600 morts et des centaines de milliers de déplacés.

Le Liban a été entraîné le 2 mars dans la guerre au Moyen-Orient lorsque le Hezbollah pro-iranien a lancé une attaque sur Israël.

Toute la journée, l'aviation israélienne a effectué frappe après frappe sur la banlieue sud de Beyrouth, dont une grande partie de la population a fui.

Dimanche déjà, une attaque avait visé le coeur de Beyrouth, où les déplacés de la banlieue sud et de la partie méridionale du Liban ont afflué. Un hôtel du front de mer avait été pris pour cible.

L'Iran a accusé Israël d'avoir "assassiné" quatre de ses diplomates en poste au Liban dans cette frappe. Israël soutient avoir visé des Gardiens de la révolution iraniens qui encadrent le Hezbollah.

"Fidélité" 

Selon un nouveau bilan des autorités mercredi, 634 personnes ont été tuées par les opérations israéliennes depuis le 2 mars et plus de 800.000 personnes déplacées, dont plus de 120.000 hébergées dans des centres d'accueil.

Mercredi, huit personnes ont perdu la vie dans la ville de Tibnine (sud).

Selon l'Agence nationale d'information (Ani), un bâtiment occupé par des déplacés a été atteint et cinq membres d'une même famille figurent parmi les victimes.

Ailleurs, dans la plaine de la Bekaa (est), une frappe sur une maison où se trouvaient des réfugiés syriens a fait sept morts, ont affirmé les autorités.

Dans le sud, les frappes israéliennes sur deux localités dans la région de Tyr ont fait 12 morts et cinq blessés, a dit le ministère de la Santé.

Toujours à Tyr, un secouriste de la Croix-Rouge libanaise a succombé à des blessures qui lui ont été infligées deux jours auparavant, lorsque "l'ennemi israélien a visé son ambulance", d'après le ministère de la Santé.

La mort du secouriste, auquel ses camarades ont rendu un émouvant hommage pendant ses funérailles mercredi, porte à 15 le nombre des morts au sein du personnel médical depuis le début de la guerre, selon les autorités.

Près de la frontière avec Israël, des combattants du Hezbollah ont attaqué à plusieurs reprises des troupes israéliennes près des villes de Khiam et d'Odaisseh, a écrit dans un communiqué cette formation libanaise.

Une vingtaine d'Etats soutenant la force de maintien de la paix de l'ONU au Liban, ainsi que la sous-secrétaire générale des Nations unies Rosemary DiCarlo, ont appelé à une "désescalade", au cours d'une réunion du Conseil de sécurité consacrée au conflit.