Quand les algorithmes augmentent nos
oreilles : comment l’IA aide les humains à décrypter le langage d’autres espèces
Image Description
Mais d’abord : écouter les animaux ? Pour quoi faire ?
À l’heure où les grands modèles de langue (Large Language Models) fascinent le public, à travers le monde, des biologistes utilisent des IA plus ciblées pour tenter de déchiffrer ce que peuvent potentiellement se dire des espèces sauvages. Attention, l’objectif n’est pas de créer un « Google Translate animalier »! C’est plutôt de mieux comprendre la cognition non-humaine, d’améliorer les stratégies de conservation des espèces, et surtout, de questionner la place de l’humain dans les écosystèmes.
 
Aujourd’hui, zoom sur trois études emblématiques qui dessinent cette révolution sonore : le Projet CETI sur les cachalots, les travaux de Mickey Pardo sur les éléphants africains et ceux de David Omer sur les ouistitis qui… papotent ?
Image Description
Les codas des cachalots : un alphabet de clics sous-marins

Ce qu’on savait déjà

Les cachalots émettent des codas — des séquences de 3 à 40 clics — pour socialiser en surface et garder le contact quand ils plongent (jusqu’à 2 km de profondeur! )

Ce que le Machine Learning nous a révélé

Les chercheurs du projet CETI (Cetacean Translation Initiative) ont choisi d’utiliser un modèle d’algorithme de type “random forest”, (un ensemble d’arbres de décision), afin de classer chaque clic selon sa durée, son intervalle et son intensité. Pour mieux comprendre en quoi a consisté ce travail, c’est un peu comme si vous étiez dans une salle de cinéma plongée dans le noir total : impossible de voir les gens présents. Cependant, chaque spectateur dispose d’une lampe-torche, et vous savez qu’un flash court de lumière veut dire “Oui”, deux flashs rapides veulent dire “Je passe” et un long flash signifie “J’arrive. ” À force d’observer les rythmes et les durées des faisceaux lumineux, vous pourriez finir par comprendre qui parle, à qui et pour quoifaire, sans jamais entendre un mot! Les biologistes du projet CETI font exactement cela sous l’eau : ils collectent de la donnée (les différents bruits émis par les cachalots) puis à l’aide de ces d’algorithmes random forest, ils arrivent à interpréter ces clics des cachalots en morceaux de sens, un peu comme les signaux lumineux évoqués plus hauts.

En analysant toutes les données collectées avec leur algorithme configuré spécifiquement pour ce contexte, il apparaît que les cétacés disposent d’un répertoire de 8 719 codas – un alphabet bien plus vaste que ce que les chercheurs présumaient jusqu’alors. Grâce au machine learning, ils commencent même à percevoir ce qui ressemble à des phrases entières : qui salue sa famille, qui signale une plongée ou qui “discute” avec des voisins venus d’ailleurs ! De plus, ces mêmes données ont révélé l’existence de “dialectes” propres à des « clans » de cachalots, chacun comptant jusqu’à plusieurs milliers d’individus !

Image Description
Le cas des éléphants : quand les pachydermes se “donnent des blases”

Les éléphants d’Afrique communiquent par des infrasons si graves que nous les humains ne les percevons pas. Pourtant, dans la savane, ces grondements, qui traversent plusieurs kilomètres, permettent aux éléphants de garder contact, même quand ils ne se voient pas, et de coordonner les déplacements d’un clan.

Avant 2024, on pensait que ces appels étaient surtout émotionnels (pour exprimer le stress ou le contentement). L’écologiste Mickey Pardo a voulu tester une hypothèse plus audacieuse : et si les éléphants utilisaient eux aussi des “prénoms”?

La procédure pas à pas  

1. D’abord, il a fallu collecter de la donnée : des centaines d’heures de grondements, associés à des observations contextuelles précises (comme « le mâle Tembo lève la tête »,ou « la femelle Asha répond »);

2. Ensuite, l’équipe de Mickey Prado a dû procéder à un “étiquetage humain”. Par exemple, chaque grondement qui générait une réaction systématique d’un éléphant précis X était étiqueté “appelle X”.  

3. Avec ces jeu de données propres et classés, les chercheurs ont pu entraîner leur modèle de machine learning. Leur modèle de type “random forest” a analysé ces exemples d’appels et à appris les différentes signatures acoustiques associées (leur fréquence, leurs harmoniques, leur durée et leur modulation).  

4. Lors de l'entraînement de cette IA, les chercheurs lui ont présenté de nouveaux appels “sans étiquette”:  l’algorithme a dû “deviner” quel éléphant était appelé et faire des propositions. 

5. Les chercheurs ont ensuite diffusé les propositions faites par l’IA via un haut-parleur: si l’éléphant “prédit” se retournait ou s’il répond, c’est que le test était réussi et que l’IA avait “entendu juste”.

Un score qui paraît faible… et pourtant, qui impressionne

Résultat : une fiabilité prédictive de… 27,5%. À première vue, ce niveau de précision peut sembler modeste. Et pourtant, ramenée au contexte d’un groupe de 10 à 12 éléphants, ce résultat est remarquable : l’algorithme “hasard” utilisé comme contrôle n’a donné qu’environ 8% de bonnes réponses. Autrement dit, l’algorithme entraîné a réussi plus de 3x mieux que le hasard, alors même qu’il devait composer avec un fort bruit de fond (vent, pas et cris d’autres animaux) et avec des appels parfois polysémiques, c’est-à-dire pouvant signifier « je pars » et « suivez-moi » en même temps ! Détecter un nom murmuré dans la cacophonie de la savane, ça revient, pour l’IA, à repérer votre prénom chuchoté dans le hall bondé d’une gare : si elle y parvient plus d’un quart du temps, l’exploit mérite d’être salué !

Pourquoi cette expérience est d’une importance capitale 

Donner un nom à un être, cela implique de concevoir ce dernier comme un individu distinct, et donc, d’avoir une certaine perception de soi. Les implications de cette découverte sont retentissantes pour ce qui est de notre perception de l’intelligence et des capacités cognitives d’autres mammifères.

L’impact est aussi majeur sur le plan de la conservation : en contexte de forêt dense, des réseaux de micros pourraient estimer la composition de groupes d’éléphants autrement inaccessibles (nombre d’individus, répartition des sexes et des âges notamment). Ces informations additionnelles pourraient renforcer les efforts de conservation d’espèce existants.

Enfin, d’un point de vue purement éthique, reconnaître que nous ne sommes pas la seule espèce à donner des noms aux individus a le pouvoir de changer le regard que nous portons sur ces géants malheureusement menacés.

 

Image Description
Le cas des ouistitis :  des surnoms familiaux pas si anodins

Dans la forêt atlantique brésilienne, les ouistitis communs (Callithrix jacchus) vivent au sein de groupes très soudés. Le neurologue David Omer, convaincu qu’un tel degré de cohésion sociale exige des signaux précis, a voulu vérifier si ces petits primates s’interpellent par de véritables « prénoms ». Pour le prouver, son équipe a installé des microphones directionnels près des lieux où les ouistitis se rassemblent pour dormir, tout en filmant chaque interaction. À la moindre vocalise aiguë, les chercheurs ont annoté minutieusement la scène : qui a appellé, qui a répondu, quel était le contexte (jeu, toilettage, alerte, etc.)

 

De retour au laboratoire, ils ont défini des paramètres acoustiques techniques, puis entraîné un algorithme de type random forest à reconnaître, dans ce kaléidoscope sonore, la signature sonore associée à chaque individu destinataire. 

 

Pour tester la robustesse du modèle, ils lui ont soumis de nouveaux enregistrements « à l’aveugle » ; lorsque l’algorithme prédisait qu’un appel visait l’individu B, les scientifiques diffusaient ce même enregistrement dans la forêt et observaient ce qu’il se passait. Le défi que représente cette expérience revient à se trouver dans un restaurant familial bruyant : chaque personne possède un petit sifflement unique pour appeler un proche, et le serveur, grâce à une oreille “entraînée”, devine sans hésiter à quelle table apporter le dessert. Ici, le serveur est l’algorithme ; les sifflements, les « prénoms » des ouistitis. 

 

Dans la grande majorité des cas, l’enregistrement du sobriquet de B diffusait menait ce dernier à se retourner ou à répondre, tandis que le reste du groupe restait indifférent – preuve qu’il existe bel et bien un étiquetage individuel stable, conservé au moins plusieurs semaines au sein de cette population de ouistitis.



Ce décryptage montre d’une part que les singes mémorisent la voix de chaque parent ou allié, et d’autre part qu’un suivi passif des populations – via simples enregistreurs – est envisageable sans capture ni marquage. Par ailleurs, le parallélisme avec le cas des éléphants suggère que l’attribution de noms a pu émerger plusieurs fois au cours de l’évolution animale, potentiellement dès qu’une vie intime de groupe l’exigeait : preuve formidable d’une cognition sociale plus riche chez ces petits primates que ne le pensait jusqu’alors la communauté scientifique. 

 

Image Description
Pourquoi miser sur des algorithmes « simples » plutôt que sur le deep learning ?
Les biologistes qui analysent les cris d’animaux n’ont pas adopté les mêmes outils que ceux qui propulsent des chatbots comme ChatGPT, et ce n’est pas un hasard. Pour décrypter quelques centaines ou milliers d’enregistrements étiquetés à la main, ils privilégient des modèles de type “random forest” (“forêts aléatoires”) et  les arbres de décision, des modèles comparativement frugaux, voire simplets. Chaque nœud dans un “arbre” pose une question élémentaire — par exemple : la fréquence dépasse-t-elle un certain seuil, oui ou non ? — et oriente la classification pas à pas en suivant une logique binaire. Une fois ces arbres “empilés” par centaines dans une “forêt”,ces derniers “votent” et fournissent une décision robuste, même si certains morceaux de données sont mal étiquetés ou s’il manque de la donnée dans certaines catégories par rapport aux autres.

À l’inverse, un réseau de neurones profond (deep learning) compte des milliers de paramètres répartis sur de nombreuses couches : il nécessite des gigadonnées (des gigas et des gigas de données, soit beaucoup beaucoup de données) soigneusement étiquetées pour apprendre. Malheureusement pour la démarche scientifique, une fois entraîné, le réseau de neurones se comporte comme une boîte noire dont la logique interne est inconnue. Dans le domaine de la bio-acoustique, où l’on dispose rarement d’un corpus de données suffisamment massif et où l’on veut comprendre pourquoi un morceau de donnée est classé dans telle ou telle catégorie par l'algorithme, le besoin de transparence prime sur la puissance brute: des modèle moins complexes font souvent mieux l’affaire.

Les limites et risques de ce nouveau cas d’usage de l’IA

Employer l’intelligence artificielle pour décoder le langage animal ne dispense jamais du travail de terrain ; au contraire, plus qu’un remplaçant automatisé, elle est une épaule numérique qui doit s’appuyer sur une observation humaine patiente. Sans le regard du biologiste capable de noter qu’un clic précède une plongée ou qu’un grondement accompagne un départ, les modèles d’IA se bornent à des corrélations dénuées de contexte écologique. 

La tentation de se reposer sur la seule puissance de calcul fait planer un autre danger : sous l’effet de la mode et des incitations économiques, les financeurs peuvent être tentés de délaisser les protocoles, lents mais indispensables. C’est le signal d’alarme que lancent de nombreux chercheurs comme la biologiste Caroline Casey, qui travaille à l'université de Californie, Santa Cruz. Il y a aussi le risque d’interprétation abusive : un algorithme qui reconnaît un motif acoustique, ça ne signifie pas pour autant que l’animal concerné « parle » comme nous l’entendons en tant qu’humains. S’en convaincre reviendrait à prendre une carte pour le territoire qu’elle représente, et pourrait nous conduire à manipuler le comportement d’espèces déjà vulnérables. Afin que ces nouveaux outils aient un impact positif, il nous faut apprendre à conjuguer mathématiques, éthique et bottes pleines de boue — et accepter le fait que, même assistés par l’IA, nous ne ferons sans doute jamais plus que tendre l’oreille au seuil d’un monde sonore qui continuera de nous dépasser et nous surprendre.

 

Image Description
Voxaboxen : la nouvelle oreille qui écoute les corneilles

Développé par l’Earth Species Project à Berkeley, le modèle Voxaboxen a pour objectif de prouver que les modèles deep learning peuvent s’appliquer à la recherche en biologie. Voxaboxen est un réseau de neurones profond conçu pour traiter des enregistrements continus d’animaux ― en l’occurrence les corneilles noires d’Espagne ― sans nécessiter la présence constante d’un chercheur humain derrière l’écran. D’abord, l’équipe a alimenté le modèle avec 188 heures de cris déjà étiquetés manuellement ; cette phase d’« apprentissage supervisé » lui a permis de saisir les grandes lignes de la palette vocale de corvidés. Ensuite, les chercheurs ont ingéré des données concernant des sons humains et de la musique aux données d'entraînement, exactement comme un élève de conservatoire qui découvre la théorie générale avant de se spécialiser. L’idée sous-jacente : en identifiant les éléments acoustiques communs à tous ces types de données différentes (des sons générés par des animaux, des humains et des instruments), l’algorithme deviendra plus apte à identifier des structures de communication chez des espèces qu’il n’a jamais entendues.

Une fois formé, Voxaboxen attaque la tâche titanesque que les biologistes n’auraient jamais pu mener seuls : durant six jours de suivi, chaque corneille porte une micro-balise qui enregistre ses mouvements et ses vocalises. Le modèle doit d’abord trier, au milieu du vent de la montagne et du passage d’autres oiseaux, quels sons proviennent des corneilles, puis attribuer chaque cri à l’oiseau émetteur ou à ses voisins. Derrière l’apparente simplicité de ce tri se cache une prouesse similaire à celle d’un logiciel de reconnaissance faciale qui distingue les silhouettes de passants filmés en pleine nuit : la corneille A et la corneille B « caquent » de façon quasi identique, à quelques nuances près, et Voxaboxen doit justement capter ces nuances, un peu comme un photographe qui essaierait de repérer des visages durant une nuit sans lune.

L’étape suivante consiste à grouper les cris enregistrés en catégories, autrement dit, à dresser une liste de « signaux » (peut-on parler de “mots”? La question n’est pas tranchée!) Les biologistes croisent alors les clusters (groupements) identifiés par l’IA avec les données d’accéléromètre et les vidéos de terrain qui proviennent des capteurs montés sur les oiseaux : lorsqu’une corneille quitte brutalement une branche après un certain appel, ou qu’un mâle monte la garde après un autre, les chercheurs font l’hypothèse que les signaux qu’ils vocalisent à ces moments précis portent peut-être la signification « je m’envole » ou « attention ». Si Voxaboxen prouve sa fiabilité en réussissant à décrypter ces signaux de façon systématique, il pourrait devenir l’équivalent d’un archiviste polyglotte : un système qu’on pourrait ré-entraî­ner, par exemple sur les codas et l’alphabet phonétique des cachalots.

Voxaboxen n’est pas seulement un microscope auditif pour corneilles : il a l’ambition d’être un prototype de décodeur universel basé sur des “lois universelles du son”. À mesure qu’il gagne en précision, il ouvre la voie vers une banque sonore inter-espèces où chaque nouvel enregistrement — cri de corvidé, clic de cachalot, grondement d’éléphant — viendrait s’indexer sur un schéma partagé. Si l’expérience aboutit, elle transformerait notre rapport à la faune comme l’invention du téléphone a transformé nos communications : un même réseau pour transporter, comparer et, peut-être un jour, interpréter les voix non humaines...

 

 Et si nous écoutions un jour des voix extra-terrestres ?

En entraînant des algorithmes sur les clics de cachalots, les grondements d’éléphants ou des trilles de ouistitis, les biologistes ne cherchent pas seulement à mieux protéger ces espèces : ils élaborent aussi une méthode générale pour reconnaître un langage qui n’a rien de commun avec le nôtre. David Gruber, fondateur du projet CETI, rappelle que, bien qu’un modèle d’IA entraîné sur des données humaines ne puisse pas être transposé tel quel au langage des cétacés, il révèle tout de même comment isoler des motifs porteurs d’information. L’expérience qui a mené à l’élaboration d’un “alphabet phonétique des cachalots” montre qu’un signal apparaît d’abord comme une structures mathématique avant de pouvoir être interprété en “phrases”. Cette capacité à débusquer des structures qui se répètent au sein d’ensemble de mégabytes d’amas de bruit s’apparente à la première étape d’un protocole SETI* : distinguer un signal artificiel au cœur d’un souffle cosmique. Si l’on capte un jour un message venu d’ailleurs, il faudra, comme pour Voxaboxen avec les corneilles, commencer par séparer le chant utile -le signal- du vent stellaire -le bruit-, puis chercher des répétitions, des progressions ou des signatures. En d’autres termes, comprendre les baleines revient à s’entraîner, sur Terre, à décoder la linguistique de l’inconnu : chaque coda correctement classé est une mini-répétition générale pour la plus grande conversation qui soit !

Évidemment, rien ne garantit que des extraterrestres parleront « en clics » ou même qu’ils utiliseront le son pour communiquer. Pourtant, les outils mis au point pour extraire une grammaire à partir de données hétérogènes constituent déjà notre plus grand pas en avant afin de décoder un message dont nous ignorons tout des émetteurs. Ainsi, en tendant l’oreille aux habitants de notre planète, nous forgeons peut-être, sans le savoir, la clé du prochain grand dialogue du cosmos.

* SETI = acronyme générique qui signifie “Search for extraterrestrial intelligence” ou “Recherche d’Intelligence Extra-Terrestre” en français.

 

Pour aller plus loin - les sources de cet article