Les modèles de langage développés par le Golfe inscrivent l'arabe au cœur de l'IA

Les États du Golfe cherchent à devenir des leaders de l'IA en investissant dans la recherche et le développement et dans les start-ups (Photo, MBZUAI).
Les États du Golfe cherchent à devenir des leaders de l'IA en investissant dans la recherche et le développement et dans les start-ups (Photo, MBZUAI).
Short Url
Publié le Mardi 10 octobre 2023

Les modèles de langage développés par le Golfe inscrivent l'arabe au cœur de l'IA

  • ChatGPT comprend les demandes en arabe, mais les réponses peuvent sembler artificielles ou inadaptées
  • Désormais, les grands modèles de langage locaux peuvent saisir les nuances linguistiques et même comprendre les dialectes et les références culturelles

DUBAÏ: Lorsque ChatGPT a fait ses débuts l'année dernière, le programme d'intelligence artificielle a fait sensation dans le monde entier, car les utilisateurs ont pu communiquer avec une machine capable de se faire passer pour un autre être humain.

Toutefois, l'enthousiasme des technophiles du monde arabe s'est quelque peu émoussé en raison de la maîtrise limitée de l'arabe par ChatGPT, due en partie à la complexité de la langue, aux signes diacritiques, au système d'inflexion et aux dialectes régionaux.

Bien que ChatGPT, qui est basé sur un grand modèle linguistique (LLM), puisse comprendre les demandes en arabe et soit capable de les traduire, en particulier lorsqu'il utilise l'arabe standard moderne, les réponses peuvent sembler peu naturelles, tandis que les traductions littérales se révèlent parfois inadaptées.

C'est pourquoi Jais, un LLM conçu pour prendre en charge l'arabe, a été dévoilé en juillet, faisant entrer dans le courant dominant de l'intelligence artificielle (IA) l'une des langues les plus parlées au monde, bien que parfois négligée.

Jais, dont le nom rappelle le plus haut sommet des Émirats arabes unis à Ras al-Khaimah, est le fruit du travail d'une équipe d'universitaires et d'ingénieurs qui se sont lancés dans ce projet après avoir constaté que rares sont les LLM véritablement multilingues.

Le robot humanoïde Ameca accueille les visiteurs au musée du futur de Dubaï (Photo, AFP).

Téléchargeable sur la plateforme d'apprentissage automatique Hugging Face, Jais est le fruit d'une collaboration entre Cerebras Systems, l'université d’intelligence artificielle Mohammed ben Zayed (MBZUAI), et Inception, une filiale de la société G42, basée à Abu Dhabi.

«Il est essentiel que de grands modèles de langage soient développés pour des langues autres que l'anglais afin de garantir une innovation accessible à tous», a déclaré Andy Jackson, président-directeur général (PDG) d'Inception, à Arab News.

«Un LLM arabe de qualité est essentiel pour tous les secteurs, entreprises et organisations, ainsi que pour les particuliers. L'innovation prospère lorsque nous collaborons, et Jais établit une nouvelle norme pour le progrès de l'IA au Moyen-Orient, en veillant à ce que la langue arabe, avec sa profondeur et son héritage, trouve sa voix dans le paysage de l'IA.»

«Jais témoigne de notre engagement en faveur de l'excellence et de notre volonté de démocratiser l'IA et de promouvoir l'innovation.»

Les LLM sont des modèles fonctionnels d'apprentissage automatique qui utilisent des algorithmes d'apprentissage profond pour traiter et comprendre le langage humain naturel. Ces modèles sont ensuite entraînés sur de grandes quantités de données textuelles afin d'apprendre des modèles dans le langage.

Ces programmes, qui prolifèrent dans le sillage du succès de ChatGPT, sont capables de générer des textes sur un éventail apparemment infini de sujets, allant des articles académiques à la poésie.

Ce qui impressionne particulièrement, c'est leur capacité à créer des réponses à des questions de manière si convaincante qu'elles ressemblent à celles d'un être humain, dans presque tous les langages, y compris le codage.

Mais pour que ces langages soient convaincants, des programmeurs humains de langue maternelle sont souvent nécessaires pour fournir un niveau crucial de contexte et de compréhension qui peut améliorer la précision et la fiabilité.

«Jais est spécialement conçu pour la langue arabe et excelle à en saisir les subtilités et les nuances, ce qui garantit des réponses extrêmement précises et pertinentes sur le plan contextuel – un avantage certain par rapport aux modèles à usage général», a déclaré M. Jackson.

Les programmes d'IA adaptés à la langue arabe pourraient accroître l'accès à une nouvelle technologie révolutionnaire (Photo, MBZUAI).

«Cette spécialisation constitue un développement essentiel, car elle offre aux gouvernements, aux entreprises et aux particuliers du monde arabe la possibilité d'exploiter le potentiel de l'IA générative.»

Actuellement considéré comme l'un des principaux LLM arabes, Jais, un modèle à 13 milliards de paramètres, a été entraîné sur un nouvel ensemble de données de 395 milliards de tokens arabes et anglais sur Condor Galaxy, l'un des plus grands supercalculateurs d'IA en nuage au monde, lancé par G42 et Cerebras en juillet en utilisant 116 milliards de tokens arabes et 279 milliards de tokens anglais.

«Jais est né à Abu Dhabi et offre à plus de 400 millions d'arabophones la possibilité d'exploiter le potentiel de l'IA générative», a déclaré à Arab News Preslav Nakov, professeur et directeur adjoint du département de traitement du langage naturel au MBZUAI.

«Il facilitera et accélérera l'innovation, soulignant la place prépondérante d'Abu Dhabi en tant que plaque tournante de l'IA, de l'innovation, de la préservation de la culture et de la collaboration internationale.»

En tant que modèle à code source ouvert, Jais devrait inciter les scientifiques, les universitaires et les développeurs à accélérer la croissance d'un écosystème d'IA en langue arabe. Il pourrait également servir de modèle pour d'autres langues actuellement sous-représentées dans l'IA traditionnelle.

EN BREF

- Les grands modèles de langage, ou LLM, sont un type d'intelligence artificielle capable d'imiter l'intelligence humaine

- L'arabe est parlé par 400 millions de personnes, mais représente 1% du contenu mondial en ligne

- Jais a été créé par Cerebras, MBZUAI et une filiale de G42 appelée Inception

«Jais surpasse de loin les modèles arabes existants», a déclaré M. Nakov. «Il rivalise également avec les modèles anglais de taille similaire, bien qu'il ait été entraîné sur un nombre de données anglaises nettement inférieur.»

«Ce résultat passionnant montre que la composante anglaise du modèle a appris à partir des données arabes et vice versa, ce qui ouvre une nouvelle ère dans le développement et la formation de LLM.»

Lors du développement de Jais, une attention particulière a été accordée au prétraitement du texte arabe, en améliorant la prise en charge des caractéristiques uniques de la langue, y compris son style d'écriture et l'ordre des mots.

Jais maintient également un ensemble de données équilibré entre l'arabe et l'anglais pour des performances optimales, offrant une nette amélioration par rapport aux modèles dont la proportion de texte arabe est limitée.

Ses développeurs affirment que Jais, contrairement à d'autres modèles, saisit les nuances linguistiques et comprend même les différents dialectes arabes et les références culturelles.

«Jais facilite une personnalisation plus rapide pour des cas d'utilisation spécifiques en arabe et dissipe les inquiétudes concernant la propriété des données car il est basé aux Émirats arabes unis, offrant une solution rassurante pour les entreprises locales», a déclaré M. Jackson, PDG d'Inception.

Les LLM sont des modèles fonctionnels d'apprentissage automatique qui utilisent des algorithmes d'apprentissage profond pour traiter et comprendre le langage humain naturel (Photo fournie).

Le ministère des Affaires étrangères et le ministère de l'Industrie et des Technologies avancées des Émirats arabes unis, la Compagnie pétrolière nationale et le ministère de la Santé d'Abu Dhabi, Etihad Airways, First Abu Dhabi Bank et le groupe technologique mondial e& prévoient d'utiliser Jais, offrant des perspectives précieuses pour améliorer le modèle et ses applications dans leurs secteurs d'activité.

Compte tenu des efforts considérables de transformation numérique déployés par plusieurs gouvernements du Golfe, accompagnés d'investissements importants dans les industries de haute technologie et les startups technologiques locales, les programmes d'IA adaptés à la langue arabe pourraient élargir l'accès à une nouvelle technologie transformationnelle et remettre en question le monopole d'une poignée d'entreprises de la Silicon Valley.

Le mois dernier, le Technology Innovation Institute (TII), un centre de recherche émirati situé à Abu Dhabi, a lancé Falcon 180b, un modèle d'IA à code source ouvert. Fondé en 2020, le TII a présenté Falcon 40b, la première version de son modèle d'IA à code source ouvert, en mai dernier, après avoir dévoilé Noor, un modèle d'IA basé sur la langue arabe, l'année dernière.

Selon un rapport publié dans le magazine The Economist, TII est la branche de recherche appliquée de l'Advanced Technology Research Council (ATRC), une agence gouvernementale qui emploie un personnel multinational de 800 personnes travaillant sur des sujets allant de la biotechnologie et de la robotique à l'informatique quantique.

«Nous entrons dans le jeu pour bousculer les principaux acteurs», a déclaré Faisal al-Bannai, secrétaire général de l'ATRC, à The Economist, ajoutant que le TII créera de nouveaux modèles et applications destinés à des domaines spécifiques tels que la médecine et le droit.

Pour sa part, l'Arabie saoudite a lancé sa stratégie nationale pour les données et l'intelligence artificielle en octobre 2020, visant à devenir un leader mondial dans le domaine, alors qu'elle cherche à attirer 20 milliards de dollars (1 dollar = 0,95 euro) d'investissements étrangers et locaux d'ici 2030.

Le Royaume est également déterminé à préparer l'avenir de sa main-d'œuvre, dans un premier temps en formant et en développant plus de 20 000 spécialistes de l'IA et des données. En mai dernier, l'institut d'IA de Deloitte a été officiellement inauguré lors de la conférence Experience Analytics à Riyad.

La semaine dernière, l'Arabie saoudite a lancé des Olympiades nationales de programmation et d'intelligence artificielle ouvertes à tous les élèves des collèges et lycées. Selon les médias, environ 300 000 élèves seront sélectionnés parmi 3 millions de participants pour suivre une formation en programmation et en intelligence artificielle.

Cette initiative est le fruit d'une collaboration entre l'Autorité saoudienne des données et de l'intelligence artificielle, le ministère de l'Éducation et la Fondation du roi Abdelaziz et de ses compagnons pour le talent et la créativité (Photo, Mawhiba).

L'adoption par l'Arabie saoudite de la numérisation et des technologies émergentes devrait contribuer à hauteur de 2,4% à son produit intérieur brut d'ici 2030, selon un récent rapport du cabinet de conseil mondial PwC.

En termes de croissance annuelle moyenne de la contribution de l'IA par région, l'Arabie saoudite devrait obtenir une part de 31,3% dans l'expansion de la technologie entre 2018 et 2030, ajoute le rapport de PwC.

«L'IA se développe rapidement, et son impact se fera de plus en plus sentir dans tous les secteurs et domaines de la vie», a déclaré Nakov de MBZUAI. «Dans ce contexte, il est essentiel que le monde arabe ait accès à un LLM avancé qui puisse être adapté et utilisé dans tous les secteurs.»

«Les progrès rapides de l'IA signifient que les organisations qui ne parviennent pas à s'adapter et à commencer à utiliser l'IA le plus tôt possible seront laissées pour compte, ce qui rend encore plus essentiel l'accès du monde arabe à des LLM de qualité.»

Au-delà de ses applications commerciales, cependant, un aspect crucial d'un programme tel que Jais est sa capacité à soutenir les langues négligées, à les préserver dans une économie en évolution rapide et à promouvoir l'inclusion numérique.

Bien que l'arabe soit une langue officielle dans 22 pays et qu'il soit partiellement parlé dans 11 autres, il ne représente que 1% du contenu mondial en ligne, selon les créateurs de Jais. On peut espérer que l'avènement de l'IA et l'automatisation de la traduction rapide changeront la donne.

En plaçant la langue au premier plan de la révolution de l'IA, Jais et ses successeurs pourraient contribuer à maintenir la place prépondérante de l'arabe dans le monde et sa particularité culturelle à l'ère du numérique.

Ce texte est la traduction d’un article paru sur Arabnews.com 


Les défenses saoudiennes interceptent des drones visant le champ de Shaybah d’Aramco

Une photo d’archive montre Shaybah, site de l’usine de liquides de gaz naturel et de production pétrolière d’Aramco dans le désert isolé de la Rub’ al-Khali, proche des Émirats arabes unis. (Photo AFP)
Une photo d’archive montre Shaybah, site de l’usine de liquides de gaz naturel et de production pétrolière d’Aramco dans le désert isolé de la Rub’ al-Khali, proche des Émirats arabes unis. (Photo AFP)
Short Url
  • Les forces de défense saoudiennes continuent d’intercepter des drones en direction de Shaybah
  • Le porte-parole du ministère de la Défense annonce que des drones se dirigeant vers le champ de Shaybah ont été interceptés et détruits dans la Rub’ al-Khali

RIYAD : Les défenses aériennes de l’Arabie saoudite ont stoppé une nouvelle vague de frappes aériennes, cette fois ciblant le champ de Shaybah d’Aramco, a indiqué le ministère de la Défense samedi matin.

Dans une série de publications sur X, le porte-parole du ministère, le général de division Turki Al-Maliki, a déclaré qu’un total de 16 drones en direction du champ de Shaybah, répartis en quatre vagues, ont été interceptés et détruits dans la Rub’ al-Khali.

Dans des messages distincts, Al-Maliki a aussi annoncé « l’interception et la destruction » d’un missile balistique et d’un missile de croisière tirés vers la base aérienne Prince Sultan à Al-Kharj.

Un autre drone a été intercepté à l’est de la capitale nationale, Riyad, a tweeté le porte-parole.

La menace de missile constitue la troisième tentative de frappe consécutive sur Al-Kharj, une zone industrielle clé située à environ 80 kilomètres au sud-est de Riyad.

La tentative sur le champ de Shaybah est la première depuis le 28 février, date à laquelle Israël et les États-Unis ont lancé une campagne aérienne massive contre l’Iran, déclenchant une vague de frappes de représailles de Téhéran contre divers objectifs dans le Golfe, y compris des raffineries et des sites industriels.

Les forces de défense saoudiennes ont continué d’intercepter les drones en approche de Shaybah, de la base aérienne Prince Sultan et de Riyad, selon un communiqué officiel du ministère samedi.

Situé au cœur de la Rub’ al-Khali, également connu sous le nom de Quart Vide, Shaybah est l’un des champs « super-géants » les plus vitaux de l’Arabie saoudite. Au-delà de ses immenses réserves pétrolières, le champ constitue une pierre angulaire de la stratégie gazière du Royaume, avec une usine de récupération high-tech fournissant des liquides de gaz naturel (LGN) essentiels au secteur pétrochimique.

Les attaques aériennes contre l’Arabie saoudite s’inscrivent dans une montée massive de l’agression aérienne dans tout le Golfe. Au cours des dernières 24 heures seulement, la région a vu les Émirats arabes unis intercepter plus de 125 drones et 6 missiles balistiques.

Vendredi, les défenses aériennes saoudiennes ont abattu cinq missiles dirigés vers la base aérienne Prince Sultan, quatre drones dans la région est de Riyad et un drone chacun dans la Province orientale et à Al-Kharj.

Jeudi, le Royaume a détruit trois missiles de croisière ciblant Al-Kharj, quelques heures seulement après qu’une attaque de drone ait été stoppée au-dessus de la raffinerie de Ras Tanura dans la Province orientale.

Ces attaques se poursuivent malgré les protestations et condamnations émises par le Conseil de coopération du Golfe (CCG), la Ligue arabe et l’Organisation de la coopération islamique.

Lors d’une réunion ministérielle extraordinaire tenue à Riyad le 1er mars, le CCG a affirmé le droit collectif des États membres à défendre leurs territoires contre « l’agression perfide iranienne ».

Suite à une session du Cabinet présidée par le prince héritier Mohammed ben Salmane le 3 mars, l’Arabie saoudite a déclaré se réserver le « plein droit » de riposter. Le Cabinet a souligné que le Royaume prendra toutes les mesures nécessaires pour protéger son territoire, ses citoyens et ses résidents contre ces frappes persistantes. 

Ce texte est la traduction d’un article paru sur Arabnews.com


L'Iran ne frappera plus ses voisins sauf s'il est visé depuis ces pays, dit son président

Le président iranien Masoud Pezeshkian, Gholam‑Hossein Mohseni‑Eje’i, le chef du pouvoir judiciaire, et Alireza Arafi, vice‑président de l’Assemblée des experts, assistent à la réunion du conseil de direction intérimaire de l’Iran dans un lieu inconnu en Iran le 1ᵉʳ mars 2026. (WANA via Reuters)
Le président iranien Masoud Pezeshkian, Gholam‑Hossein Mohseni‑Eje’i, le chef du pouvoir judiciaire, et Alireza Arafi, vice‑président de l’Assemblée des experts, assistent à la réunion du conseil de direction intérimaire de l’Iran dans un lieu inconnu en Iran le 1ᵉʳ mars 2026. (WANA via Reuters)
Short Url
  • Le président iranien Masoud Pezeshkian annonce que l'Iran ne frappera plus ses voisins du Golfe, sauf en cas d’attaque venant de ces pays
  • Il présente des excuses aux pays voisins pour les attaques précédentes, alors que 13 personnes ont été tuées depuis le début du conflit, dont une fillette de 11 ans au Koweït

TEHERAN: Le président iranien Masoud Pezeshkian a affirmé samedi que ses voisins du Golfe ne seraient plus attaqués par l'Iran, sauf si des frappes étaient tirées depuis ces pays.

"Le conseil de direction provisoire a décidé (vendredi) qu'il n'y aurait plus d'attaques sur les pays voisins, plus de missiles tirés, sauf si une attaque sur l'Iran provenait de ces pays", a-t-il déclaré dans un discours diffusé à la télévision d'Etat.

Plusieurs pays du Golfe abritent des bases militaires américaines. Les voisins de l'Iran ont été ciblés par des drones et missiles depuis le début du conflit le 28 février. L'Iran a affirmé ne viser que des intérêts ou bases américains, ce qu'ont contesté les pays visés.

"Je m'excuse (...) auprès des pays voisins qui ont été attaqués par l'Iran", a aussi déclaré le président iranien.

Treize personnes ont été tuées dans les pays du Golfe depuis le début de la guerre, dont une fillette de 11 ans touchée par des débris dans une zone résidentielle du Koweit.


Les attaques "illégales" au Moyen-Orient risquent de devenir incontrôlables, alerte le chef de l'ONU

Une famille déplacée des banlieues sud de Beyrouth après l’avertissement de l’armée israélienne, qui a poussé les habitants à évacuer avant des frappes aériennes. (Reuters)
Une famille déplacée des banlieues sud de Beyrouth après l’avertissement de l’armée israélienne, qui a poussé les habitants à évacuer avant des frappes aériennes. (Reuters)
Short Url
  • Le chef de l’Organisation des Nations unies avertit que l’escalade des attaques au Moyen-Orient pourrait devenir incontrôlable et appelle à des négociations diplomatiques
  • L’ONU alerte sur l’augmentation des besoins humanitaires, notamment à Gaza et au Liban, et sur les risques pour l’économie mondiale

NATIONS-UNIES: La situation provoquée par "toutes les attaques illégales" au Moyen-Orient et au-delà risque de devenir incontrôlable, a alerté vendredi le secrétaire général de l'ONU, tandis que l'organisation s'inquiète des besoins humanitaires qui augmentent.

"Toutes les attaques illégales au Moyen-Orient et au-delà provoquent des souffrances et des préjudices immenses aux civils à travers la région, et pose un grand risque pour l'économie mondiale, en particulier les populations les plus vulnérables", a-t-il déclaré dans un communiqué.

"La situation pourrait devenir incontrôlable pour tout le monde. Il est temps d'arrêter les combats et d'engager des négociations diplomatiques sérieuses. Les risques ne pourraient pas être plus grands", a-t-il ajouté.

Lors d'une conférence à New York, le chef des opérations humanitaires de l'ONU (Ocha), Tom Fletcher, a lui fustigé les sommes "ahurissantes" dépensées chaque jour dans cette guerre "tandis que les hommes politiques continuent à se vanter de couper les budgets d'aide".

"Nous assistons à une alliance de plus en plus mortifère entre la technologie et des tueries en toute impunité. Nous assistons à une attaque persistante contre les systèmes et les lois censés freiner nos plus bas instincts et des guerres irréfléchies", a-t-il ajouté.

Le diplomate s'est en particulier inquiété d'une guerre qui "ravage les marchés, les chaînes d'approvisionnement, les prix alimentaires", et perturbe les couloirs maritimes comme le détroit d'Ormuz.

Alors "nous nous mobilisons en prévision d'une augmentation des besoins humanitaires dans toute la région", en prépositionnant des marchandises et en cherchant d'autres routes d'approvisionnement, a-t-il assuré, s'inquiétant en particulier de l'impact sur des populations déjà dans le besoin, notamment au Liban ou à Gaza.

Après avoir fermé samedi tous les points de passage vers le petit territoire palestinien, Israël a rouvert un seul d'entre eux, Kerem Shalom, aggravant certaines pénuries, a déploré Tom Fletcher.

Il a notamment indiqué que l'ONU n'avait pu faire entrer à Gaza que moins d'un million de litres de carburant cette semaine, "bien en dessous" des plus de deux millions considérés comme "le strict minimum pour faire tourner les services".

En outre, "il va y avoir également moins d'attention portée à d'autres crises, de la République démocratique du Congo au Soudan, en passant par le Soudan du Sud (...) l'Ukraine et d'autres", a-t-il insisté.