Problématique et démarche

Modélisation de la variation quantitative et génétique multi locus.

La génétique moderne doit faire face à de nombreux paradoxes malgré – ou à cause – des immenses progrès technologiques récents. En particulier, l’écart se creuse entre d’une part les données, qui s’accumulent à un rythme de plus en plus rapide, et d’autre part les outils mathématiques ou conceptuels dont nous disposons pour les interpréter, et qui restent souvent issus de travaux réalisés au début du siècle dernier. On peut dire aujourd’hui que les modèles conceptuels en génétique sont à la traine derrière les données, ce qui doit être assez rare dans l’histoire des sciences.

Bien sur, on attend que la complexité augmente avec le volume des données accumulées. Cependant, si l’on a pu espérer qu’une exploration exhaustive des génomes (séquençage complet) permettrait d’en comprendre le fonctionnement global et l’organisation, cet espoir reste pour l’instant déçu, même s’il est encore beaucoup trop tôt pour tirer des conclusions définitives. Bien sur, énormément de données obtenues sont riches par elles-mêmes, comme par exemple l’identification de gènes individuellement intéressants. Bien sur, il est nécessaire de continuer à développer les outils bioinformatiques permettant de classer et d’analyser ces données. Cependant, il n’est pas certain qu’une description exhaustive des données génomiques et de toutes leurs interactions permette également une vision plus holistique du rôle des facteurs génétiques, intégrés dans la biologie des systèmes. C'est dans cette démarche de modélisation « pour comprendre » plutôt que « pour prédire » que je souhaite me situer modestement et dans laquelle je vais tenter de montrer comment s’intègrent mes recherches, consacrées à la variation des caractères quantitatifs (ou caractères complexes).

Génétique des segments de chromosomes : hérédité mendélienne multilocus et structuration du déséquilibre de liaison

La génétique formelle doit aujourd’hui être capable de décrire la ségrégation dans les populations de millions de nucléotides à la fois. Ceci induit un changement quantitatif et qualitatif très important : non seulement les unités d’information (nucléotides) sont trop nombreuses pour être décrites une par une, mais elles ne sont pas indépendantes. De nouvelles « lois de Mendel multilocus » restent encore à définir. En pratique, dès que le nombre de locus ou celui des méioses (générations) augmente, les probabilités (fréquences) d’obtention des génotypes multilocus deviennent vite très difficiles, voire impossibles, à calculer. Par exemple, dans le cas des lignées recombinantes (RIL) obtenues par auto-fécondation (SSD), cas où la complexité du problème est un peu réduite, on connaît depuis Haldane & Waddington (1931) la relation entre le taux de recombinaison par méiose r et la fraction de lignées recombinées R=2r/(1+2r). Pourtant, nous avons montré (Martin & Hospital, 2006) que cette expression ne pouvait pas être utilisée pour calculer les fréquences génotypiques en RIL à plus de deux locus, bien que ce soit fait dans la plupart des logiciels de cartographie, par ex. Mapmaker.

Pour traiter plus de deux ou trois locus, nous avons utilisé une extension de la théorie des jonctions (Fisher, 1953 ; Stefanov, 2000 entre autres), qui permet de décrire le problème sous forme de chaîne de Markov, dans lequel le nombre de générations est limité (une dizaine, ce qui convient très bien pour les RIL), mais où le nombre de locus est virtuellement infini (modèle discret non borné, ou modèle continu). Nous obtenons la distribution des longueurs des blocs de gènes contigus venant d’un même parent, ainsi que la distribution jointe pour des blocs successifs issus de deux parents différents (Hospital & Martin, in prep.). C’est à ma connaissance la première application pratique de cette théorie. Le modèle discret, et le logiciel que nous avons développé conjointement, permettent de tester la vraisemblance de génotypes multilocus (en fait les génomes entiers) dans une population de RIL sur données réelles.

L’ambition est de réussir à modéliser les chromosomes non pas comme une collection d’entités discrètes très nombreuses (les gènes), mais comme un continuum ; les variables pertinentes sont alors les tailles des segments chromosomiques. Il s’agit d’une idée déjà ancienne qui n’a pas encore abouti (Franklin & Lewontin 1970 ; Robertson 1970 ; Slatkin 1972), mais qui pourrait se révéler essentielle dans la génomique des populations – où les blocs haplotypiques jouent un rôle central –, étant données les difficultés décrites ci-dessus pour calculer les génotypes multilocus. Un autre aspect de la question est la corrélation entre les valeurs d’un paramètre ou d’une statistique mesurées à intervalles rapprochés le long d’un chromosome. Par exemple, pour détecter des traces de sélection sur la base des valeurs de FST, qui s’avèrent très variables d’un marqueur (SNP) au suivant, on commence en général par lisser ces valeurs (fenêtre glissante) sans qu’à ma connaissance cette procédure ait été validée.

Bases génétiques et non génétiques de la réponse à la sélection

Modélisation de la variation quantitative et évolution des caractères complexes

Le déterminisme génétique (« architecture ») des caractères quantitatifs complexes dépend du nombre de gènes polymorphes dans une population, des effets de ces gènes et de leur répartition dans le génome (liaison). Ces paramètres affectent la variation des caractères, et leur réponse aux pressions évolutives (sélection artificielle ou adaptation). Ces paramètres interviennent dans la plupart des modèles qui sont utilisés dans la littérature pour prédire l’évolution des caractères quantitatifs, cependant leurs valeurs réelles sont en général mal connues. Il y a par exemple plusieurs ordres de grandeur (100, 1000, 10000 ?) entre le nombre de polymorphismes révélés par les techniques en ‘omiques’ et les modèles de génétiques des population. De même, le nombre de gènes à effets quantitatifs (QTL) détectés est bien inférieur aux hypothèses de la génétique quantitative classique (notons cependant que le nombre  de QTL est généralement sous-estimé, du fait d’un biais statistique). Les estimations sur les taux de mutations varient et la distribution des effets quantitatifs des gènes est mal connue (nombres relatifs de gènes à effets « forts » et « faibles ») et systématiquement biaisée vers une sur-représentation des gènes à effets forts (Bost et al. 2001). Enfin, on ne sait pas si ce sont les mêmes gènes qui agissent au cours du temps et/ou pour différents caractères. Il y a donc là aussi un décalage entre les données et les modèles, et l’on peut aboutir à des situations paradoxales, comme le fait que beaucoup d’efforts sont faits pour compenser une perte de diversité génétique induite par la sélection dans les populations de plantes et d’animaux domestiques, alors que cette perte est controversée (il n’y a pas de perte sur la variation phénotypique des traits sélectionnés ?).

On pourrait dire, en exagérant légèrement, qu'il nous faut prédire l’adaptation aux changements climatiques globaux et autres challenges futurs, alors que nous ne disposons pas vraiment de modèle pour la sélection artificielle... Les cas/questions à traiter regroupent donc entre autres:

·      Le cas des populations hors équilibre

·      La distribution des effets des mutations: Affecte-elle la réponse ? Dépend-elle de la forme de la sélection ?

·      La dérive est-elle un problème ?

·      Les mutations sont elles limitantes ?

Cette thématique difficile mais importante est un travail de longue haleine impliquant un recours massif aux simulations numériques.

Contrôle épigénétique de la variabilité mutationnelle

Je co-ordonne avec V. Colot (URGV, Evry, puis ENS), suite à une demande de sa part, le projet  EPIVAR qui inclut également l’équipe de P. Guerche (SGAP, Versailles). Le projet repose à la fois sur des approches de génétique quantitative et de génomique, combinées de manière totalement originale à notre connaissance. Il s’agit d’identifier les différences d’expression génique ayant un effet sur la variation phénotypique de caractères complexes, et de relier ces différences à d’éventuelles altérations (induites par le gène ddm1) du taux de méthylation de l’ADN ou de l’état des histones dans et autour des gènes en question, afin de mettre en évidence de possibles épimutations. L’interaction des trois équipes a été remarquable et hautement enrichissante. Ce projet a vu se succéder trois postdoc (E. Porcher puis V. Colombani, F. Johannes). En dernière génération, 3000 plantes d’une population de 500 lignées recombinantes d’Arabidopsis (BC1-F6) issues du croisement d’une lignée ddm1 sur sa lignée isogénique DDM1 ont été phénotypées et analysées. Les résultats montrent une héritabilité élevée de l’ordre de 20%, due soit aux épi-mutations, soit à l’activation subséquente de transposons (Johannes et al. 2009).

Relations entre polymorphisme neutre et sélectionné : balayage sélectif multilocus

Un des enjeux majeurs de la génomique reste de savoir mettre en relation d'une part la variabilité moléculaire observée au niveau des séquences, et d'autre part la variation des caractères donnant prise à la sélection ou à l’adaptation. L'idéal serait de pouvoir détecter directement au niveau du génome les gènes (et allèles) responsables des phénotypes d’intérêt. On connaît déjà le phénomène de balayage sélectif ou ‘selective sweep’ (Maynard Smith & Haigh 1974 ; Kaplan et al. 1989), réduction locale du polymorphisme moléculaire suite à la fixation d’une mutation favorable. Cependant, les balayages sélectifs sont plus difficiles à mettre en évidence pour les caractères dont la variation est contrôlée par de nombreux gènes et/ou des effets environnementaux. En particulier, on ne sait pas toujours si la sélection agissant sur plusieurs locus produira une série de balayages sélectifs ‘indépendants’ et très localisés, ou si elle aura des conséquences sur une plus grande échelle génomique. Cétait l’objet de la thèse de Luis-Miguel Chevin sous ma direction.

Cette thématique a été abordée en collaboration avec C. Montchamp-Moreau (LEGS, CNRS Gif) qui étudie un cas de balayage sélectif autour de deux locus liés au caractère sex-ratio chez la drosophile par une approche de génomique expérimentale. Suite au DEA de T. Nidelet et en collaboration avec S. Billiard (« postdoc » de trois mois, puis univ. Lille) nous nous sommes intéressés d’un point de vue théorique aux d’effets de balayages sélectifs portant sur deux locus liés sur le polymorphisme moléculaire de la région chromosomique environnante. Les résultats montrent notamment qu’en fonction de l’histoire évolutive des mutations, un balayage double à deux locus n’est pas toujours identique à la superposition de deux balayages simples à un locus. Par exemple, la diversité maintenue entre les deux mutations peut être supérieure à celle maintenue à l’extérieur (ou à celle maintenue par un balayage simple) pour un même taux de recombinaison, ce qui est un résultat original (Chevin et al., 2008). En extrapolant ce résultat à une série de locus répartis le long d’un chromosome, on comprend que la sélection multilocus soit plus difficile à détecter. Ces travaux se sont développés dans le cadre du projet « Selmultiloc » (programme ANR blanc 2006, en collaboration avec C. Montchamp-Moreau, et X. Vekemans, Univ. Lille).

En plus des travaux sur le caractère « sex-ratio » chez la drosophile, L.-M. Chevin a développé au cours de sa thèse un travail sur l'effet de « selective sweep » pour un locus contrôlant la variabilité génétique d'un caractère quantitatif, lui-même contrôlé également par d'autres locus et/ou le fond génétique. Il s'agit d'un travail extrêmement original, salué par un « issue highlight » dans  Genetics, et qui constitue un pas de plus vers le rapprochement entre génétique des populations et génétique quantitative. En effet une telle synthèse nécessite de savoir décrire les variation de fréquence des QTL sélectionnés, ce qui est impossible actuellement pour plus de 2 QTL (voir plus haut).

Les travaux sur la variabilité génétique des caractères complexes seront poursuivis dans deux directions:

1.      Méthodes de détection des traces de sélection directionnelle récente (par opposition à une sélection stabilisante à l’échelle évolutive); Interferences selectives ; Structuration du déséquilibre de liaison: participation au projet ANR « Rules & Tools » (accepté en 2009, resp. J.-M. Elsen)

2.      Génomique de la domestication chez le Poulet: projet ANR dont je suis coordinateur, collab. M. Tixier-Boichard, B. Bed'homme (GABI), F. Rodolphe (MIG), A. Vignal (LGC Toulouse). Projet qui sera soumis à l'aap ANR Blanc 2010.

 

Références citées : (ne figurant pas dans la FA)

Bost, B., Dillmann, C., and de Vienne, D. (1999). Fluxes and metabolic pools as model traits for quantitative genetics. I. The L-shaped distribution of gene effects. Genetics 153,2001-12.

Fisher, R. A. (1953) A fuller theory of junctions in inbreeding. Heredity 8, 187–197.

Franklin, I., and Lewontin, R. C. (1970). Is the gene the unit of selection? Genetics 65, 707-734.

Haldane, J. B. S., and C. H. Waddington, 1931 Inbreeding and linkage. Genetics 16: 357–374.

Hospital, F. 1992. Effets de la liaison génique et des effectifs finis sur la variabilité des caractères quantitatifs sous sélection. Thèse de doctorat, Université Montpellier II.

Kaplan, N. L., Hudson, R. R., Langley, C. H. (1989) The ``Hitchhiking Effect'' Revisited. Genetics 123: 887-899

Maynard Smith, J., and Haigh, J.  (1974). The hitch-hiking effect of a favourable gene. Genet. Res. 23, 23-35.

Robertson, A., (1970). A theory of limits in artificial selection with many linked loci. In: Kojima K (ed) Mathematical topics in population genetics. Springer-Verlag, Berlin, pp 246- 288.

Slatkin, M. (1972). On treating the chromosome as the unit of selection. Genetics 72, 157-168.

Stefanov, V. T. 2000 Distribution of Genome Shared Identical by Descent by Two Individuals in Grandparent-Type Relationship. Genetics 156: 1403-1410