Collection : PSY-Théories, débats, synthèses
dirigée par Marc Richelle et Xavier Seron

Ce livre a été réalisé par Primento, le partenaire numérique des éditeurs

L’auteur

Jean-Adolphe Rondal est Philosophy Doctor (Ph.D., Major en Psychologie développementale) de l’Université du Minnesota, à Minneapolis. Il a effectué un Post-doctorat en Psycholinguistique développementale à l’Université Harvard, de Cambridge, Massachusetts, et est titulaire d’un Doctorat en Linguistique et Sciences du Langage de l’Université Paris V – René Descartes-Sorbonne. Jean-Adolphe Rondal est Professeur émérite de l’Université de Liège où il a occupé la chaire de Psycholinguistique pendant 28 ans. Il enseigne également la Psychologie et les Pathologies du Langage à l’Institut International de l’Université Pontificale Salésienne de Venise. Il est l’auteur d’une cinquantaine de livres, en français, anglais, espagnol, et italien, et d’environ 400 publications sous forme d’articles dans les principales revues scientifiques internationales.

Introduction

L’ouvrage concerne exclusivement le langage oral et principalement l’apprentissage de la morphosyntaxe que je préfère appeler «régulations combinatoires.» Il s’agit des dispositifs qui, différemment dans chaque langue, régissent l’organisation des énoncés comportant plus d’un mot et donc exigent une organisation séquentielle. L’apprentissage de ces régulations continue de poser problème en psycholinguistique développementale bien davantage que les autres composantes langagières (phonologie, sémantique, organisation discursive).

La première thèse de l’ouvrage est que leur émergence dans le cours du développement résulte d’une convergence d’influences neurogénétiques et cognitives, et fait intervenir une modalité particulière d’apprentissage dite implicite.

Une question délicate est celle de la nature des représentations grammaticales. S’agit-il, comme nombre de spécialistes le pensent encore, des notions catégorielles exploitées depuis longtemps par les linguistes pour décrire les langues, ou d’autres représentations, et, si oui, lesquelles? Ma seconde thèse est que les premières n’ont pas de réalité psychologique et que leur transfert historique en psycholinguistique a conduit à une impasse explicative.

Dans son ultime ouvrage, Moerk (2000) se lamente: «Comment un domaine qui a entre 100 et 200 ans d’existence, dont les données sont tellement abondantes et faciles à recueillir, et qui a produit un grand nombre d’évidences impressionnantes en faveur de la richesse de l’input et de ses effets, soit à présent encore dans un état tel que presque tout y est controverse et où les conclusions erronées prédominent? Pendant qu’année après année environ deux milliards d’enfants acquièrent les différents niveaux de langues très différentes, et donc apprennent leur langue maternelle, «l’apprenabilité» même du langage a été sérieusement mise en question et rejetée dans certaines sphères…» (p. 179; ma traduction).

Je pense que les représentations réellement utilisées par les locuteurs/récepteurs procèdent d’une mise en correspondance directe des relations sémantiques avec un éventail de formules énonciatives souples indexées pragmatiquement. Ces formules autorisent des variations substitutives basées sur l’analogie, qui justifient l’impression de créativité productive donnée par le fonctionnement langagier. Les catégories grammaticales utilisées en linguistique conviennent bien pour décrire les faits de syntaxe. Elles ont été inventées à cette fin. Comportant moins d’éléments que les catégories sémantiques auxquelles elles renvoient, elles sont plus maniables ¹. Toutefois, il est illusoire de croire qu’elles sont nécessairement pertinentes pour expliquer le fonctionnement combinatoire, soit comme point de départ de ce fonctionnement, soit comme niveau intermédiaire entre profondeur et surface. C’est donc à une remise en question de la conception traditionnelle de la syntaxe en psycholinguistique que j’invite le lecteur.

Un autre caveat de l’analyse linguistique traditionnelle est l’axiome selon lequel l’unité de base de la production combinatoire est la phrase (une notion purement grammaticale), alors qu’il s’agit plutôt, fonctionnellement parlant, de l’énoncé (soit toute séquence de mots pragmatiquement et sémantiquement motivée, comprise entre deux pauses ou interruptions audibles du discours). Cette équivoque quant à l’objet n’est pas innocente. Elle a favorisé le recours à un formalisme excessif qui éloigne de la pratique réelle du langage.

Mon premier intérêt va au volet productif, c’est-à-dire la réalisation expressive des énoncés en temps réel. C’est aussi le volet le plus difficile à étudier expérimentalement et celui pour lequel, malgré des milliers d’études, nous manquons encore de pans entiers de données pertinentes. La compréhension des énoncés procède, en gros, à l’inverse de la démarche productive, mais avec plusieurs particularités dont il sera question plus avant. Il s’ensuit que toute explication du fonctionnement productif est en mesure d’éclairer considérablement celui réceptif/compréhensif et qu’aucune explication complète de ce dernier n’est possible sans un modèle consensuel de la production des énoncés.

Cet essai est théorique. Il s’appuie sur un grand nombre d’indications empiriques publiées dans la littérature spécialisée des dernières décennies, mais il implique aussi un certain nombre de spéculations. Ces dernières seront identifiées comme telles dans le cours de l’exposé. Elles restent, certes, à corroborer au moyen de recherches appropriées.

L’ouvrage est articulé autour de trois chapitres. Le premier envisage la préparation innée qui paraît bien être celle du langage dans certains de ses aspects. Le deuxième chapitre s’efforce de cerner ce qui est appris en matière de langage combinatoire. L’exercice est difficile car outre les considérations développementales, il exige de définir les grandes lignes de la nature psychologique des mécanismes qui le rendent possible. Il s’agit d’un secteur où les controverses sont nombreuses. Mais on ne peut marcher à l’aveuglette sans notion claire (même si hypothétique) quant à ce vers quoi se dirige l’enfant en voie d’acquisition du langage. Le troisième chapitre cherche à répondre à la question «comment est-ce appris?». Une variété d’apprentissage, dite implicite, est proposée et la façon dont elle procède documentée ainsi que le contexte interpersonnel particulier dans lequel elle opère.

Mes remerciements vont à un grand nombre de collègues dans le monde entier avec qui j’ai pu interagir au fil des années et discuter des questions qui font l’objet de ce livre. La liste est trop longue même pour être seulement ébauchée. Je tiens toutefois à exprimer ma singulière gratitude à mon ami Miguel Puyuelo de l’Université d’Aragon, en Espagne, qui m’a à plusieurs reprises encouragé à approfondir mes idées dans le cadre de la problématique du présent ouvrage, ne se contentant pas des ébauches théoriques des ouvrages précédents. Mes remerciements vont également à Marc Richelle et à Xavier Seron, directeurs de la collection «Psychologie-Théories, débats, synthèses» chez l’Éditeur Mardaga, pour leurs critiques et suggestions constructives d’une version antérieure du manuscrit, ainsi que pour leur relecture attentive, les remarques formelles et les corrections stylistiques suggérées quant à l’actuelle version de l’ouvrage. Gratitude, enfin, à Sandra Mangoubi et à l’équipe éditoriale de Mardaga, pour leur professionnalisme doublé d’une courtoisie et d’une volonté de bien faire jamais démentie; une vraie bénédiction pour un auteur.

1. Leur utilité métalinguistique (c’est-à-dire pour «parler, traiter du langage») est certaine. Cela conduit à un paradoxe apparent dans un ouvrage du type de celui-ci; à savoir, le rejet de la réalité psychologique (au niveau de la pratique courante du langage) des catégories grammaticales linguistiques et, simultanément, leur emploi dans le texte (aussi peu que possible mais inévitablement) pour raison de lisibilité et d’économie expositive. Dans son ouvrage Verbal behavior (1957), Skinner avait bien vu le problème et s’était attaché à inventer une nouvelle terminologie, purement psychologique, pour ce qu’il appelait les opérants verbaux. Cette terminologie n’a eu que peu de succès, étant sans doute trop large et trop uniquement pragmatiquement motivée. Mais le problème terminologique subsiste. Je n’envisage pas de m’y attaquer systématiquement dans le présent travail. Il conviendrait, peut-être que quelques esprits «plus typologiquement orientés que moi» veuillent bien s’en occuper. Une discipline autonome ne peut sans risque conceptuel emprunter la terminologie d’une autre discipline. L’impasse théorique actuelle en psycholinguistique (psychologie du langage; l’expression psycholinguistique, dans ce contexte, est sans doute déjà suspecte) en matière d’explication du fonctionnement langagier combinatoire fournit un bon exemple de ce genre de danger.

Chapitre 1

Un coup de pouce évolutif

Depuis au moins une trentaine d’années, la psychologie fœtale, néonatale, et du nourrisson n’a cessé de mettre en évidence des capacités insoupçonnées chez le bébé humain, particulièrement en termes de préparation sensorielle, perceptive, et cognitive (Mélen, 1999; Trehub, 2003). Dans cette perspective, et plus particulièrement à partir des années 1980, on a pu documenter grâce à la mise au point de techniques observationnelles et expérimentales astucieuses d’étonnantes capacités, manifestement innées, relatives à plusieurs caractéristiques de la parole humaine.

1.1. DES BÉBÉS BIEN DOTÉS

L’enfant naît avec la capacité de différencier les contrastes acoustiques sous-tendant les divers types de sons des langues naturelles (Mehler & Dupoux, 1990). Une sensibilité innée aux caractéristiques séquentielles de l’input auditif est également attestée. P. Jusczyk et al. (1993) observent que des bébés âgés de quelques semaines peuvent différencier des syllabes accentuées et non accentuées. Saffran et al. (1996) ont présenté à des enfants de huit mois un flot continu de paroles artificielles composées de mots de trois syllabes répétés dans un ordre aléatoire pendant deux minutes. Les bébés purent différencier les mots familiers des mots nouveaux en se basant sur l’ordre sériel des syllabes. Dans un second temps, les mêmes auteurs ont proposé une tâche consistant à différencier les mots familiers de «mots partiels», c’est-à-dire composés des mêmes syllabes mais se trouvant de part et d’autre de la limite des mots au cours de la phase d’apprentissage; les enfants y avaient bien été exposés mais pas avec la même distribution. Les bébés purent, de nouveau, différencier les mots ayant fait l’objet d’une exposition préalable et les mots nouveaux de composition syllabique identique avec une répartition différente. Marcus et al. (1999) ont proposé à des bébés âgés de sept mois des séquences auditives de structure ABB (comme gatiti ou linana). Les enfants furent ensuite exposés à des séquences ABA (par exemple, gatiga). Ils démontrèrent une tendance statistiquement significative à faire davantage attention aux nouvelles séquences, attestant une sensibilité aux patrons séquentiels.

L’enfant nouveau-né reconnaît la parole maternelle et, à travers elle, la langue utilisée, sur base de l’exposition acoustique in utero pendant les derniers mois de la grossesse. Des potentiels d’action dans les aires auditives du cerveau sont enregistrés dès 24-25 semaines de gestation chez des enfants nés prématurément (Pasman et al., 1991). Dès six mois d’âge biologique, le dispositif auditif du fœtus, tant périphérique que central, est fonctionnel (Misson & Evrard, 2009). Les études acoustiques concernant l’environnement sonore fœtal (Mélen, 1999) montrent que les composantes des voix externes, maternelles ou non, supérieures à cent cycles par secondes (Hertz – Hz) émergent clairement du bruit de fond intra-utérin. Les sons de la parole sont compris pour l’essentiel entre environ 200 et 6 000 Hz. Les voix sont distordues dans les aigus mais leurs caractéristiques rythmiques et mélodiques (ce qu’on appelle techniquement la prosodie) sont préservées. L’atténuation de l’intensité n’excède pas trente à trente-cinq décibels (Querleu et al., 1988a). Les enregistrements in utero de phonèmes et de courtes phrases émises ex utero conservent un bon niveau d’intelligibilité par rapport aux enregistrements ex utero (Querleu et al., 1988b). La voix maternelle est moins atténuée que les autres voix, sans doute en raison d’une double transmission, à la fois aérienne et osseuse (et puis intra-amniotique).

Si on demande à la mère de lire des phrases à l’envers, ce qui ruine la prosodie, le nouveau-né ne reconnaît plus la parole ni la langue maternelle (Boysson-Bardies, 1996). Ainsi est attestée la nature prosodique de la capacité de reconnaissance. Nazzi et al. (1998) observent que des nouveau-nés «francophones» sont capables de différencier des phrases anglaises et japonaises, d’une part, anglaises ou néerlandaises et italiennes ou espagnoles, d’autre part. Les phrases étaient «filtrées passe-bas», ce qui réduit l’information segmentaire (phonologie) tout en préservant celle suprasegmentaire (c’est-à-dire la prosodie). L’utilisation de plusieurs locuteurs adultes pour chaque langue permettait de garantir que les discriminations attestées étaient bien linguistiques (prosodiques propres à la langue) et non dépendantes de différences de parole entre locuteurs de différentes langues. Des langues prosodiquement proches comme l’anglais et le néerlandais, d’une part, l’italien et l’espagnol, d’autre part, ne peuvent être différenciées. Nazzi, Juszyk et Johnson (2000) confirment les indications précédentes avec des bébés américains âgés de cinq mois. À cet âge, comme précédemment, les langues prosodiquement contrastées sont bien discriminées tandis que celles proches ne le sont toujours pas en filtrage passe-bas, sauf si une des deux langues est la langue maternelle.

Shi et al. (1999) montrent que les nouveau-nés font la différence entre des mots anglais sélectionnés au hasard dans un corpus de langage maternel adressé à un enfant âgé d’un an, appartenant aux classes formelles dites fermées (articles, prépositions, conjonctions, auxiliaires, copules) et des mots des classes formelles ouvertes (noms, verbes, adjectifs, et adverbes). Ils se repèrent sur la longueur relative des termes (plus courts dans la première sous-classe) et des indications prosodiques (les termes sont davantage accentués et plus riches vocaliquement dans la seconde sous-classe). Nazzi, Kemler, Nelson, Jusczyk et Jusczyk (2000) observent que des bébés de six mois différencient des propositions anglaises prosodiquement bien et mal formées, y compris lorsqu’elles sont enchâssées au sein de phrases complexes.

On peut faire l’hypothèse que, sur la base prosodique documentée dans les travaux répertoriés, le jeune enfant devient capable de segmenter le flot de parole reçu en unités distinctes à partir desquelles les patrons phonétiques les plus fréquents sont identifiés en premier lieu (Zamuner et al., 2004).

Percevant le langage des personnes de son entourage, le jeune enfant s’efforce graduellement d’en reproduire certains aspects prosodiques et phonétiques. Ce qui n’est au départ qu’une activité phonatoire largement instinctive est recruté, au-delà de trois mois environ, par la fonction réceptive; ce qui donne forme à un babillage d’abord vocalique, puis syllabique, redupliqué (par exemple, les séquences bababa, gagaga), et enfin varié dans la seconde moitié de la première année (Coutansais, 2008).

Les jeunes enfants sont également sensibles aux régularités distributionnelles non adjacentes dans un input donné. Gomez et Gerken (1999, 2000) ont présenté des mots artificiels (par exemple, vot, pel, pic, rud, tam) à des enfants âgés de douze mois, pendant quelques dizaines de secondes. Deux dispositifs séquentiels furent utilisés. Les séries commençaient et finissaient avec les mêmes mots mais variaient l’ordre des éléments intermédiaires. Après exposition à l’un des deux dispositifs, les enfants montrèrent une préférence pour les séquences non familières, soit une sensibilité à des patrons séquentiels relativement complexes. Par ailleurs, Gomez (2002) a démontré expérimentalement que des enfants de dix-huit mois sont capables d’identifier des dépendances séquentielles à une courte distance correspondant aux groupes de mots dans les énoncés. Santelman et Jusczyk (1998) avaient déjà montré que les enfants de ces âges (mais non les plus jeunes) sont sensibles au rapport entre l’auxiliaire is et le morphème ing dans la forme du présent progressif anglais, si les deux éléments ne sont pas distants séquentiellement de plus de trois syllabes.

Les dispositions illustrées correspondent à un double «coup de pouce» donné par l’évolution biologique à la modalité parlée en langage. Coup de pouce direct (sans téléologie): l’optimum auditif humain se situe entre grosso modo mille et cinq mille cycles par seconde (Ackerman, 1990), ce qui correspond à l’essentiel du répertoire phonique de la parole; comme signalé, et unique parmi les analyseurs sensoriels, ce dispositif est déjà fonctionnel trois mois avant la naissance. Coup de pouce indirect par exaptation ² à partir d’une aptitude musicale. Une telle aptitude est considérée comme exclusivement humaine (Hauser & McDermott, 2006), si l’on excepte le chant de certaines espèces d’oiseaux lequel présente diverses limitations reflétant des contraintes particulières sur le système auditif et vocal. Apparemment, aucun des primates non humains ne chante ni ne crée de la musique. Trehub (2003) a résumé une série d’études développementales suggérant qu’à six mois d’âge les bébés humains reconnaissent une mélodie même lorsqu’elle est jouée dans une clef différente ou avec un tempo différent. Ils peuvent discriminer les demi-tons, le timbre et la durée des notes. Dès deux mois, ils montrent une préférence pour les groupes de sons musicaux en consonance harmonique. Les fœtus répondent déjà aux sons musicaux par une accélération de leur rythme cardiaque (Gagnon et al., 1987). La sensibilité prosodique du nouveauné humain est sans doute un effet particulier de cette aptitude musicale, de même peut-être que la capacité de discrimination des sons des langues. Les voyelles sont des sons musicaux et la perception des consonnes fait intervenir principalement le mouvement des formants acoustiques dans le contexte vocalique ³. On peut même penser (Koelsch & Siebel, 2005) que le cerveau du bébé traite le langage comme un cas particulier de musique. La différence toutefois, avec le temps, est que la prosodie langagière aide à segmenter le discours reçu en mots et en groupes de mots.

Plusieurs études en imagerie fonctionnelle (IRMf) et en électrophysiologie cérébrale suggèrent que le jeune enfant dispose déjà de structures organiques spécialisées pour le traitement langagier. Les études en IRMf portent principalement sur des enfants âgés de plus de cinq ans. Mais il en existe au moins une, à ma connaissance, menée avec des enfants de quelques jours. Dehaene-Lambertz et al. (2002) montrent que les capacités perceptives des nouveau-nés pour les sons de la parole relèvent de façon dominante de l’hémisphère