Un possible foyer originel des langues indo-européennes

Et les migrations de leurs locuteurs, sous l'angle de la méthode développée de reconstitution du niveau de séparation (Separation Level Recovery under Two Distributions, SLR2D)

	>Version anglaise		>Deutsche Version

Par Hans J. Holm (grand merci à Caroline Barzilaï pour la traduction primordiale)

0. La plupart des gens cultivés ont une vague idée de ce que sont les langues « indo-européennes » : ce sont les nombreuses langues qui sont parlées du nord-ouest de l’Europe au sous-continent indien (et même, historiquement, au Xinjiang, dans le nord-ouest de la Chine) et qui sont liées par leur grammaire et par un fond lexical commun hérité (système numérique ou pronoms, par exemple). Pour les notions de base, on peut se reporter aux grandes encyclopédies. Les correspondantes pages Wikipedia sont médiocres. La plus grande prudence s’impose concernant les nombreuses pages Internet ésotériques et farfelues qui sont dénuées de tout fondement linguistique, archéologique ou statistique (voir Holm 2007c); ces pages se reconnaissent souvent à leurs maigres références bibliographiques et à leurs inepties raciales.

1. La principale question qui fait encore débat concerne les liens originels et les développements préhistoriques de ces langues, l’ordre dans lequel les différentes branches se sont séparées du tronc commun. La principale erreur (commise encore aujourd’hui) consiste à croire que deux langues sont d’autant plus proches qu’elles possèdent un grand nombre de caractères communs. Cette vision superficielle néglige le fait que la quantité de caractères communs dépend, entre autres, du degré de conservation des caractères d’origine, autrement dit du nombre de remplacements lexicaux intervenus après la séparation des langues étudiées (voir Holm 2003). Il est évident que des langues ayant subi des pertes importantes (comme l’albanais et l’arménien) présentent moins de concordances, malgré leur étroite parenté, que des langues à grand corpus comme le grec ou l’indien. Malheureusement, cette donnée est trop souvent négligée.

1.1. Exprimés mathématiquement, ces paramètres sont dans un rapport de dépendance hypergéométrique et nécessitent une transformation préalable. Seule la transformation SLRD permet de déterminer la quantité de caractères communs à deux langues au moment de leur séparation, qu’on appellera leur « niveau de séparation ». On trouvera dans Holm 2000 le niveau de séparation de 91 paires de langues appartenant à 14 branches indo-européennes établies.

1.2. Comme le nombre de caractères originels ne peut que décroître au fil des influences historiques successives, il est possible de déduire un ordre de séparation univoque (à ne pas confondre avec la « glottochronologie »), représenté ici sous la forme simplifiée d’un >arbre généalogique avec indications des mots servant à désigner la main dans les différentes branches (forme la plus ancienne de ces mots). Cet ordre de séparation peut et doit être appliqué aux différentes hypothèses concernant le foyer originel (« Urheimat ») et les migrations des locuteurs du proto-indo-européen.

1.3. Pour la plupart des chercheurs, ce foyer originel se situe vraisemblablement au nord de la mer Noire (région du Pont, voir par exemple Anthony 2001:13). On trouvera ici une tentative légèrement datée d’illustrer cette option >diaporama. Pour des données plus précises issues de Holm 2007b,c, une seule carte est pour l’instant disponible >carte mise à jour. On notera qu’à ce jour, aucune thèse concernant un foyer originel ou des voies de migration n’a pu être validée.
Quelques précisions concernant le diaporama: Les chiffres sur la gauche ne sont PAS DES INDICATIONS TEMPORELLES, mais la quantité de caractères communs probables au moment des séparations illustrées par le diaporama. Les abréviations signifient: G(e)rm(anique), Kel (celtique), Ita(lique), Bal(te), Sla(ve), Ill(yrien), Ph(rygien &) D(ace), Tok(harien), Ana(tolien), Alb(anais), Arm(énien), Ira(nien), Ind(o-aryen), Gre(c). La taille des cercles est uniquement fonction de la longueur du mot qu’ils contiennent; elle ne traduit pas l’étendue du groupe de locuteurs. Les noms donnés aux langues n’impliquent absolument pas l’existence de peuples du même nom qui se seraient déjà implantés sur leur territoire définitif (il n’existe pas de peuple préhistorique « français » qui aurait colonisé la France, par exemple).
Trichterbecher : gobelets en entonnoir, Schnurkeramik : céramique cordée, Glockenbecher : culture campaniforme, Yamnaya : tombes à fosses, Früh-Bronzezeit : Bronze ancien.

2. Si l’on remonte à partir des données historiques avérées sur les Hittites, il apparaît clairement que l’expansion des langues indo-européennes et l’adoption de la métallurgie du bronze, des charrettes à bœufs à quatre roues et des tumulus funéraires sont des phénomènes parallèles. Cela ne signifie pas que les Indo-Européens aient inventé ces techniques ou ces coutumes, mais cela indique tout de même qu’ils les ont largement employées. Les Indo-Européens étaient des bergers nomades qui possédaient des chevaux et savaient probablement les monter, ce qui devait leur conférer un avantage tactique déterminant dans les guerres. La tentative de confirmer ou d’infirmer la domestication du cheval au moyen de traces de mors achoppe piteusement sur un point : il existe des dizaines de brides sans mors. Par ailleurs, les dates indiquées dans les dernières diapositives sont des hypothèses de travail. L’incapacité de nombreux chercheurs à utiliser avec précision les différentes sources de datation (morphologique, 14-C calibré ou non, dendrochronologique, etc.) empêche d’obtenir de meilleurs résultats. En l’état actuel des connaissances, les migrations ont pu se dérouler beaucoup plus rapidement, mais aussi un peu plus tôt ou un peu plus tard.

3. Les langues dites anatoliennes, en particulier le hittite, sont un autre sujet de débat :
- étaient-elles membres à part entière du proto-indo-européen
- ou les dernières n’ont-elles achevé leur développement qu’après la séparation du hittite ?

4. Reconstituer des arbres généalogiques à l’aide de paquets de logiciels issus de la biosystématique, qu’on utilise de manière machinale, semble être à la mode. Or ces reconstructions reposent sur au moins l’une des hypothèses erronées suivantes :
4.1. le principe primitif de ressemblance qui néglige totalement les interdépendances réelles évoquées au point [1] et prétend que plus les langues partagent de « cognates », plus elles sont proches (confusion avec la « distance créée par l’évolution », voir le « piège de la proportionnalité » dans Holm 2003),
4.2. l’hypothèse selon laquelle les mots seraient remplacés à un rythme donné, résurgence malheureuse de la glottochronologie douteuse. Il suffit de regarder n’importe quel mot dans un dictionnaire étymologique et de tenter de comprendre son origine pour voir l’absurdité de cette thèse : l’apparition d’un mot n’est jamais liée à un cycle quelconque, mais à un événement historique (culturel, technique ou militaire), par nature imprévisible et incalculable. Ainsi environ 50 % du vocabulaire germanique de l’anglais a été remplacé non pas à un rythme donné, mais du fait de la domination des Normands, qui ont remporté la bataille d’Hastings, et de la longue prédominance du latin en théologie et dans les sciences, comme tout Anglais un peu instruit le sait. Le fait que dans le « vocabulaire de base », ces remplacements lexicaux soient de moins en moins fréquents ne change rien au caractère imprévisible de leur origine socio-historique. D’ailleurs, le « vocabulaire de base » de l’anglais contient encore 6 % d’emprunts aux dialectes vikings – fait négligé par les « experts » (voir Holm 2007c). On ne peut reprocher aux journalistes de ne pas saisir les implications de ces théories. Mais il est regrettable que des chercheurs ignorent ces données de base et reprennent aveuglement des méthodes de comparaison machinales.
--------



 5. S o u r c e s :
- Holm, Hans J. (2000): Genealogy of the Main Indo-European Branches Applying the Separation Base Method. In: Journal of Quantitative Linguistics 7-2:73-95.
- Application au dictionnaire étymologique indo-européen de Pokorny; actualisation voir ci-dessous 2007,2008. Voir les actualisées 2007a,b - [Résumé : Dans les analyses quantitatives des relations généalogiques entre des langues effectuées précédemment, la distorsion systématique due aux remplacements lexicaux n’a pas été éliminée correctement, ce qui a conduit à des résultats faux. Seul le dépouillement de l’immense masse de données du « Indogermanisches Etymologisches Wörterbuch » (J.Pokorny 1959, Bern: Francke) par N. Bird dans « Distribution of Indo-European root morphemes » (1982, Wiesbaden: Harrassowitz) a permis, en dépit de quelques défauts connus, d’évaluer le nombre de lexèmes communs à l’époque de la séparation de toute paire de langues à l’aide d’un estimateur robuste. Les résultats permettent de déduire leur ordre de séparation. Ces résultats plus différenciés devraient supplanter les hypothèses manichéennes habituelles qui ne rendent pas compte des développements réels – pour ou contre une parenté italo-celtique, par exemple.]
- Holm, Hans J. & Embleton, Sheila (2001): Review of 'Mathematical foundations of Linguistics' (by Hubey, H.Mark, 1999, LINCOM handbooks in Linguistics 10, Muenchen: LINCOM); In: Journal of Quantitative Linguistics 8-2:149-62.
- Holm, Hans J. (2003): The proportionality trap, Or: what is wrong with lexicostatistical subgrouping? In: Indogermanische Forschungen 108: 39-47.
- Principes fondamentaux en anglais; convient aux non-mathématiciens - [Résumé : Nous montrons, par le biais d’une expérience, que le chiffre brut des concordances (des cognats, par exemple) entre deux langues apparentées ne peut pas refléter leur degré de parenté généalogique. Nous démontrons ensuite qu’il est possible de reconstituer le niveau originel de points communs à deux langues et leur ordre de séparation en considérant tous les paramètres statistiques déterminants.]
- Holm, Hans J. (2005): Genealogische Verwandtschaft. In 'QUANTITATIVE LINGUISTIK'; Ein internationales Handbuch' [HSK-Serie, Bd. 27], Berlin: de Gruyter. Kapitel 45.
- Les approches lexicostatiques dans la classification des langues au XXe siècle. Actualisation voir ci-dessous 2008 - [Sommaire : 1. Wann sind Sprachen "verwandt"? 2. Datenbewertung; 3. Beziehungsmaße; 3.1. Synchrone ~; 3.2. Diachrone Beziehungsmaße; 4. Strukturierung genealogischer Abhaengigkeiten.]
- Holm, Hans J. (2007a): Language Subgrouping. In: Grzybek, P. & R. Köhler (Editors), Exact Methods in the Study of Language and Text. Dedicated to Professor Gabriel Altmann on the occasion of his 75th birthday. [Quantitative Linguistics 62]. Berlin: de-Gruyter: 225-235.
- Utilisation de la dispersion stochastique dans les classifications multiples - [Résumé : Après plusieurs années d’essais et face à la concurrence de nombreuses autres méthodes, nous affinons la méthode de reconstitution du niveau de séparation (Holm 2000, passim) en termes de données et d’exigences stochastiques. Nous cherchons à distinguer dispersion stochastique et mauvaises données et à améliorer l’acquisition des données.]
- Holm, Hans J. (2007b): The new Arboretum of Indo-European "Trees". Can new Algorithms Reveal the Phylogeny and even Prehistory of IE? In: Journal of Quantitative Linguistics 14-2, S. 167-214. Copies disponibles via http://cats.tfinforma.com/PTS/in?t=rl&m=237780. (ébauche un peu datée - les citations ne sont pas autorisées >Arbo old.pdf).
- Actualisation jusqu’en 2006, nouvelles approches lexicostatistiques - [Résumé : Les spécialisations dans les domaines de la linguistique, d’une part, et de la bioinformatique, d’autre part, conduisent à des méprises et à des résultats faux en raison d’une connaissance insuffisante des conditions des méthodes et des matériaux utilisés. Celles-ci sont analysées, et les résultats sont utilisés pour évaluer la multitude d’arbres généalogiques des langues indo-européennes qui fleurissent actuellement.]
- Holm, Hans J. (2008): The Distribution of Data in Word Lists and its Impact on the Subgrouping of Languages. In: Ch. Preisach, H. Burkhardt, L. Schmidt-Thieme, R. Decker (Editors): Data Analysis, Machine Learning, and Applications. Proceedings of the 31th Annual Conference of the German Classification Society (GfKl), à l'Université de Freiburg, Mars 7-9, 2007. Springer-Verlag, Heidelberg-Berlin: 629-636. (ébauche un peu datée - les citations ne sont pas autorisées >SLRD.pdf)
- Résolution de problèmes de distribution dans les corpus naturels -> « arbre généalogique » indo-européen amélioré - [Résumé : Les linguistes supposent généralement que deux langues sont d’autant plus proches qu’elles possèdent un nombre élevé de caractères communs, et en particulier d’innovations communes. Dans Holm 2003, nous avons démontré que cette thèse est erronée car le nombre de concordances entre deux langues est un phénomène stochastique qui dépend de trois autres paramètres. Seule l’utilisation de l’estimateur de probabilité maximale de la distribution hypergéométrique permet de déterminer le nombre de caractères communs à deux langues au moment de leur séparation. On peut ainsi obtenir un ordre de séparation des langues au sein des familles pour lesquelles on dispose des données requises. L’application aux données du « Indogermanisches Etymologisches Wörterbuch » (Pokorny 1959) a montré une séparation tardive du hittite, de l’albanais et de l’arménien – la chose s’expliquait assez naturellement par la situation géographique centrale de ces langues et ne paraissait donc pas suspecte. Mais l’application aux données de la famille Mixe-Zoque a permis la même observation, à savoir que les langues peu documentées semblaient s’être séparées tardivement. Nous avons alors soupçonné une erreur systématique. Les présents travaux révèlent l’origine de cette erreur, qui apparaît uniquement dans les corpus naturels, par opposition aux cas de tests stochastiques sur des données distribuées normalement utilisés dans Holm 2007a. Pour cette étude, nous avons pu puiser nos données dans le « Lexikon der indogermanischen Verben » (Rix et al. 2001), nettement plus moderne et plus fiable. Nos soupçons se sont effectivement confirmés, et nous montrons comment des listes de données mal distribuées peuvent néanmoins fournir un ordre de séparation correct. On obtient ainsi un nouvel ordre de séparation des principales branches indo-européennes qui concorde avec les réalités grammaticales et la distribution géographique. Il apparaît surtout clairement que les langues anatoliennes n’ont pas pu se séparer les premières, ce qui réfute de manière incontestable la thèse « indo-hittite ».]
- Holm, Hans J. (2008):Albanische Basiswortlisten und die Stellung des Albanischen in den indogermanischen Sprachen. Zeitschrift für Balkanologie Nr. 45-2. Wiesbaden, Harrassowitz. 172-206.
- Examen critique de quelques listes lexicales utilisées dans les travaux lexicostatiques - [Résumé : Après avoir étudié la méthodologie des nouvelles tentatives lexicostatiques de classification des langues indo-européennes dans Holm, Hans J. (2007: The new Arboretum of Indo-European 'trees', in: Journal of Quantitative Linguistics, 14-2), nous testons ici les données rapprochées, en l’occurrence la partie sur l’albanais de trois travaux représentatifs. Nous proposons de nouvelles solutions à de nombreux cas jusqu’alors problématiques, par exemple quelques emprunts au turc des Balkans. En outre, le fort taux de remplacement en albanais est un autre argument fort contre l’hypothèse des taux de remplacement de la glottochronologie.]
- Holm, Hans J., im Redaktionsgang 2010: Besprechung zu: Frank Sirocko (Hg.) "Wetter, Klima, Menschheitsentwickung, Von der Eiszeit bis ins 21. Jahrhundert".
- Holm, Hans J., im Redaktionsgang 2010: Archäoklimatologie des Holozäns: Ein durchgreifender Vergleich der Wuchshomogenität mit Sonnenaktivität und anderen Proxies.
[Résumé : Les approches récentes en regard de la validité de l’homogénéité de croissance des chênes de l’Europe centrale et du deux proxies (indicateurs climatiques) de l’activité du soleil ne supportent pas notre comparaison tranchante. Ceci est valable avant tout á l’égard des allégations climatiques, p.ex. de la précipitation. Au contraire, des meilleures correspondances paraient reconnaissables pour les derniers 9 000 ans entre la homogénéité de croissance et les limites d’arbre dans les Alpes, en tant que l’interprétation de la température de carotte de glace du forage NGRIP.]

------------

Nouveaux à partir de 2010-05-27:
free counters