3. Résultats

Table des matières

La figure 6A présente un exemple des résultats de 5’RLM-RACE après les rondes d’amplification PCR effectuées sur l’ARN de foie humain. Seul l’ARN pleine longueur ayant subi la réaction de décoiffage à la TAP et ayant subit la réaction de ligation (puits TAP+ du PCR interne) a pu être amplifié. La figure 9A présente les sites d’initiation de la transcription (SIT) et leur fréquence identifiés après séquençage des amplicons PCR obtenus sur l’ARNm du gène fah humain. Le site le plus fréquemment identifié par 5’RLM-RACE est situé à -50 pb du codon initiateur. Des sites trouvés, trois sont en aval de celui situé à -50 pb soit deux à –31 pb, un à -41 pb et un dernier à -45 pb. Un site qui contient les 50 pb plus 21 pb additionnelles (-71 pb) a également été trouvé. Le SIT situé à –56 pb du codon initiateur, rapporté par Phaneuf et al . (1991), n’a pas été détecté.

Les sites situés à –208 pb et –172 pb semblent posséder un intron par rapport aux autres sites trouvés. En effet, 152 pb sont absentes dans la séquence correspondant au 5’UTR des deux clones contenant les sites –208 pb et à –172 pb, lorsque ces séquences sont comparées à l’ADN génomique humain (figure 6B). L’alignement de la séquence du SIT –208 pb avec l’ADN génomique de la banque de donnée Ensembl (Ensembl 2004) est présenté à la figure 7. Il est possible que l’omission de ces 120 pb résultent d’un problème de la polymérase d’ADN. La séquence en amont du gène fah est riche en GC, ce qui crée des structures secondaires dans l’ADNc qui peuvent empêcher la réplication complète du gabarit. De toute manière, ces deux sites semblent être des sites mineurs puisqu’ils ne représentent chacun que 7,7% de tous les SIT trouvés dans le foie humain (figure 9A).

Tous les autres sites trouvés sont retrouvés directement en 5’ de l’ATG sans intron (figure 6B). Le site situé à –71 pb est le plus éloigné de l’ATG initiateur de la FAH et représente 15% des sites identifiés (figure 9A). Le SIT à –50 pb est le site majoritaire dans le foie identifié par notre étude, il représente 38% de tous les SIT trouvés (figure 9A). Les sites trouvés à –45 pb et –41 pb représentent chacun 7,7%, tandis que le SIT le plus court identifié à –31 pb représentent 15% des SIT identifiés dans le foie humain (figure 9A).

La figure 8A montre un exemple de résultats des 5’RLM-RACE effectués sur l’ARNm de tissu murin. Ce résultat a été obtenu en utilisant l’ARNm de rein de souris. Il est possible de voir que seul l’ARNm qui a subi le traitement TAP a pu être amplifié après la ronde de PCR interne tout comme chez l’humain. La figure 8B et présente schématiquement les sites de départ de la transcription identifiés après le séquençage des amplicons. Tous les SIT identifiés chez la souris ne contiennent aucun intron selon leur alignement avec les séquences de la banque de donnée Ensembl (Ensembl 2004).

La figure 9B présente la distribution et la quantité des sites identifiés pour chaque tissu murin étudié. Le SIT le plus long situé à –72 pb représente, 8% et 6% des sites trouvés dans le cerveau et le rein de souris respectivement, tout comme le site à –66 pb. Le site à –64 est retrouvé dans les trois tissus étudiés et représente 8% des SIT du cerveau, 22% de ceux du foie et 25 de ceux du rein. Les sites à –63 pb, -57 pb et –52 pb sont retrouvés uniquement dans le rein et représentent chacun 6% des SIT trouvés dans ce tissu. Le site à –60 pb est le site majoritaire pour les trois tissus étudiés. Il représente 75% des SIT du cerveau, 67% de ceux du foie et 37,5% de ceux du rein. Finalement, le site à –57 pb est trouvé dans le foie et le rein de souris et y représente respectivement, 11% et 6% des SIT trouvés.

Les résultats obtenus pour le foie, les reins et le cerveau de souris, suggèrent qu’il n’y a pas de sites d’initiation ayant une spécificité tissulaire (figure 9B). Les sites situé à –64 pb et à –60 pb du site d’initiation de la traduction sont retrouvés dans tous les tissus étudiés. Un site situé à -72 pb du codon de départ du gène fah murin a été détecté sur l’ARNm de cerveau et de rein. Également, un site qui contient les 60 premières pb et 6 pb plus en amont à été identifiés dans ces deux tissus. Ces trois observations mènent à la conclusion qu’il n’y a pas de promoteur alternatif à spécificité tissulaire. À noter que le site de départ de la transcription précédemment décrit à –46 pb n’a pas été identifié par nôtre étude (Klebig et al . 1992). Cette différence résulte fort probablement des différentes techniques utilisées par l’étude de 1992 et la nôtre.

La technique de 5’RLM-RACE a été développée dans le but d’amplifier par PCR uniquement les 5’UTR contenus dans des ADNc obtenus à partir de l’ARNm pleine longueur non dégradé. La technique utilisée par Klebig et ses collègues reposent sur le principe de l’hybridation d’une sonde ADN génomique aux l’ADNc dérivés de l’ARN polyA+ de foie de souris qui sont contenus dans une banque d’ADNc de phage lambda. Le séquençage de l’ADNc des clones positifs à l’hybridation avec la sonde d’ADN génomique a permis d’identifier la site le plus en amont de l’ARNm qui est associé au site d’initiation de la transcription. Puisque cette technique doit transformer les ARNm en ADNc avant de pouvoir être utilisée par 5’RACE standard, il y a un plus grand risque d’introduction d’erreur dans le 5’UTR. En effet, cette technique ne permet pas de cibler l’ARNm pleine longueur. De plus, il se peut que cette différence résulte aussi du fait que les souches de souris ne sont pas les mêmes. Nous avons utilisé des souris de souche BALB/cR1 tandis que Klebig et ses collègues ont utilisé des souris de souches C57 Black 6. Les souches de souris peuvent influencer les résultats des expérimentations, puisque leur génome diffère quelque peu, à cause de polymorphismes.

L’analyse phylogénétique des promoteurs de gènes orthologues permet d’identifier les séquences d’ADN qui ont été conservées entre différentes espèces. Nous avons effectué l’alignement des séquences d’ADN génomiques du gène fah de la souris et de l’humain à l’aide du logiciel mVista (Dubchak et al . 2000; Mayor et al . 2000). Ce logiciel est un outil de génomique comparative. Il permet d’aligner des séquences de 2 espèces ou plus sur plusieurs mégabases. Le programme est basé sur les algorithmes globales qui reposent sur le postulat que les régions conservées entre deux génomes surviennent dans le même ordre et dans la même orientation. Le programme mVista utilise le même algorithme utilisé pour aligner les séquences issues des projets de séquençage du génome humain et murin (Bray et al . 2003). Puisque ce logiciel identifie les séquences homologues de séquences qui sont dans le même ordre et la même orientation, il est

Figure 6. Résultats du 5’RLM-RACE effectué sur l’ARNm de foie humain.

A) Résultats des deux rondes de PCR du 5’RLM-RACE sur l’ARNm de foie humain. PM : marqueur de poids moléculaire, ADN- : réaction PCR sans ADN, TAP- : réaction PCR sur un ADNc sans traitement à la TAP et TAP+ : réaction PCR sur un ADNc avec un traitement TAP Le poids moléculaire correspondant à l’échelle de poids moléculaire est indiqué à gauche. B) Représentation schématique des différents 5’UTR identifiés par séquençage. L’ADN génomique est représenté en haut de la figure. Les lignes pointillées représentent l’épissage possible des introns trouvés. Le site rapporté par Phaneuf et al ., est représenté en bas de la figure. L’échelle est d’un cm pour 42 pb.

Figure 7. Alignement de la séquence du SIT à –208 pb identifié dans le foie humain avec l’ADN génomique de la banque Ensembl.

La séquence du haut est celle de la banque de donnée, celle du bas représente la séquence du SIT à –208 pb. La position relative par rapport à l’ATG de chacune des séquences est indiquée à gauche. L’ATG est indiqué par la flèche noire. La séquence surlignée en rouge représente la séquence de plus haute homologie entre la séquence de la banque et celle du SIT. La taille de l’intron est de 120 pb. À noter que la séquence pour le SIT à –172 pb possède le même intron, mais est plus courte de 36 pb que le SIT identifié à –208 pb. Alignement obtenu à l’aide du logiciel mVista (Dubchak et al . 2000; Mayor et al . 2000).

Figure 8.  Résultats du 5’RLM-RACE sur l’ARNm de cerveau, de foie et des reins chez la souris.

A) Résultats des deux rondes de PCR du 5’RLM-RACE sur l’ARNm de foie, de rein et de cerveau de souris. PM : marqueur de poids moléculaire, ADN- : réaction PCR sans ADN, TAP- : réaction PCR sur un ADNc sans traitement à la TAP et TAP+ : réaction PCR sur un ADNc avec un traitement TAP Le poids moléculaire correspondant à l’échelle de poids moléculaire est indiqué à gauche. B) Représentation schématique des différents 5’UTR identifiés par séquençage. L’ADN génomique est représenté en haut de la figure. L’échelle est d’un cm pour 42 pb. Le site précédemment identifié par Klebig et al ., est représenté en bas de la figure.

Figure 9. Distribution des sites d’initiation de la transcription trouvés dans les tissus étudiés.

A) Les site identifiés sur l’ARNm de foie humain. B) Les sites trouvés pour les tissus de souris : cerveau, foie et rein. Le nombre réfère à la quantité de clones obtenus qui avaient une extrémité 5’ équivalente à cette position. La position des SIT est donnée par rapport au A+1TG du codon de départ du gène fah .

possible qu’une certaine séquence ne soit pas aligner avec la deuxième séquence à l’aligner puisque l’ordre et l’orientation ne sont pas conservées. Il en résulte en absence d’alignement qui se résume à la prochaine zone de séquences de grandes homologies (voir par exemple la figure 7). Les avantages de ce programme sont qu’il est rapide, est sensible pour la détection de séquences de faibles homologies et des exons. Sa principale limitation résulte surtout dans l’utilisation du postulat de la conservation de l’ordre et l’orientation des séquences conservées. Les séquences qui sont conservées, mais ne sont pas dans le même ordre ou orientation sont considérées comme de faux positifs et sont écartées de l’alignement global.

Dans un premier temps, les 9999 pb en amont (-9999 pb) de l’exon 1 des gènes fah humains et murins ont été alignées (figure 10). En principe, cette séquence devrait contenir le promoteur du gène chez les deux espèces. Étonnamment, il y absence de conservation entre les séquences de ces deux espèces à l’exception de deux courtes séquences situé à 3000 pb en amont de l’exon 1 (entre 6750 pb et 6800 pb). Cependant, l’exon 1 de la FAH humaine a été parfaitement aligné avec son exon orthologue chez la souris (figures 10 et 12). Il se pourrait que les séquences promotrices ne répondent pas au postulat de la conservation de l’ordre et de l’orientation et que certaines séquences bien que conservées, ont été rejetées comme faux-positifs par le programme. Un programme d’alignement dit local pourrait permettre d’aligner ces séquences promotrices puisque ces programmes sont basées sur une autre méthode de détection qui ne dépend pas de l’ordre et de l’orientation pour identifier les séquences homologues (Bray et al . 2003). Par contre, ces programmes sont contre-indiqués pour les séquences à aligner de plusieurs kb, comme, par exemple, pour l’alignement de promoteurs ou des séquences exoniques et introniques de gènes orthologues.

Un alignement entre les séquences de l’exon 1 humain et murin à l’échelle du nucléotide est présenté à la figure 12. La séquence codante du gène fah est très conservée tandis que le 5’UTR de chacune de ces séquences sont moins bien conservées. En fait, les 18 pb directement en amont de l’ATG sont inclusive dans la séquence de haute homologie tandis que le reste des séquences des 5’UTR n’en font pas partie. Cet alignement a été obtenu avec l’aide de mVista (Dubchak et al . 2000; Mayor et al . 2000).

Ensuite, nous avons obtenu l’alignement des séquences exoniques et introniques des gènes fah orthologues. La figure 11 présente les résultats de cet alignement. Contrairement à l’alignement de la séquence en amont du premier exon de ce gène, l’alignement des exons et des introns montre la conservation à plus de 75% d’identité des 13 premiers exons et de plus de 60% pour le 14e exon. De plus, il semble que quelques régions introniques possèdent une identité de séquence de plus de 50%. Ces régions sont présentes principalement dans les premiers et derniers 1000 pb de l’intron 1, tout au long de l’intron 4 et 8, au début de l’intron 7, dans les 1000 à 1500 pb au milieu de l’intron 9 et dans l’intron 13 (figure 11). La signification de ces portions d’ADN est inconnue. Par ailleurs, les introns 5, 6 et 11 semblent dépourvus de séquences conservées (figure 11).

La figure 13 et la figure 14B présentent la position de certains sites potentiels de liaison de facteurs de transcription trouvés sur l’ADN génomique de souris par l’analyse des sites de liaison à l’ADN à l’aide du logiciel MatInspector Release professional 7.2.2 (April 2004) (Quandt et al . 1995) et de la base de donnée des facteurs de transcription TRANSFAC (Heinemeyer et al . 1998). La séquence d’ADN génomique de souris a été obtenue de la base de donnée Ensembl (Ensembl 2004) et la version de la séquence de ce génome v20.32b.1 émise le 1er avril 2004, a été utilisée. L’analyse des sites potentiels de liaison sur l’ADN des facteurs de transcription a permis de constater la présence de deux boîtes TATA, de deux boîtes CAAT, de plusieurs sites de liaison à des facteurs de transcription spécifique au foie (HNF-3, -4 et -6) et finalement, la présence de 10 sites Sp1. Il est important de remarquer que ces caractéristiques semblent différer de celles trouvées pour le promoteur humain du gène fah (Labelle et al . 1993). Cependant, ces auteurs avaient confiné leur recherche aux 996 pb en amont de l’ATG du gène fah .

Pour s’assurer que les sites potentiels de liaison à des facteurs de transcription enrichis dans le foie soient absents d’une séquence promotrice humaine comparable en longueur à celle de la souris, nous avons analysé les 2000 pb en amont du codon de départ du gène humain à l’aide de MatInspector (Quandt et al . 1995). La figure 14A présente les résultats de l’identification des sites potentiels de facteurs de transcription sur la séquence ADN génomique humaine. Une boîte CAAT et TATA ainsi qu’un site HNF4 ont été identifiés. Plusieurs sites possibles pour les facteurs de la famille AP (AP1 et AP4), des facteurs de transcription ubiquitaires, ont été identifiés. De plus, il est possible de voir que 21 sites Sp1 sont présents dans la séquence génomique humaine. Par contre, en confinant notre recherche à 996 pb en amont de l’ATG, nous retrouvons uniquement les 11 sites Sp1 tels qu’identifié par Labelle et al . (1993).

La région promotrice située entre -1893 pb et -1 pb en amont du gène fah de la souris a été clonée dans le vecteur pGL2-basic (Promega) dans le but d’analyser par essai luciférase l’activité régulatrice de cette région sur l’expression du gène rapporteur de la luciférase lors de la transfection dans des lignées cellulaires. Tous les résultats des essais luciférase ont été corrigés en fonction de la quantité de lumière émise par la luciférase de type Renilla encodée par le vecteur de co-transfection pRL-CMV. De plus, la quantité de lumière a été transformée en unité relative de lumière ( relative light units , RLU). Ces RLU sont obtenues en effectuant le rapport entre la quantité de lumière émise par chaque construction sur la quantité de lumière émise par le vecteur pGL2-basic, qui ne contient aucune séquence promotrice. De plus, ces résultats sont la somme de trois expériences de transfections indépendantes, chaque mesure étant effectuée en triplicata.

La figure 15 présente les résultats des essais luciférase effectués dans les lignées cellulaires NIH3T3, HeLa et HepG2. Ces cellules sont dérivées respectivement de fibroblastes de souris (NIH3T3) et de cellules humaines, soient les fibroblastes du col utérin (HeLa) et les hépatocytes humains (HepG2). Les deux premières lignées cellulaires représentent les tissus où il y a peu ou pas de production de FAH, tandis que les HepG2 représentent le tissu hépatique où il y a une abondance de la FAH (Duval résultats non publiés). En A, le résultat des essais luciférase effectués chez les NIH3T3 est représenté. La construction pGL2-mp-1893 produit 15 fois plus de lumière que le vecteur sans promoteur. La délétion de 520 pb en 5’ augmente légèrement la lumière émise à 16 RLU pour ensuite diminuer jusqu’à 13 fois la quantité de lumière émise par pGL2-basic, lorsque 1603 pb en 5’sont délétées (pGL2-mp-290).

Les résultats des essais luciférase obtenus après transfection des cellules HeLa sont montrés dans la figure 15B. Le patron d’expression de la luciférase est légèrement différent de celui des NIH3T3. En effet, la construction pGL2-mp-1893 émet 20 fois plus de lumière que le contrôle négatif. La lumière émise diminue à 11 RLU pour la construction pGL2-mp-1373. La délétion des 928 pb suivantes augmente la luminosité à 17 RLU. La construction pGL2-mp-290 émet la plus faible quantité de lumière des quatre constructions, soit 10 RLU.

En C, sont montrés les résultats des essais luciférase des cellules HepG2. Le patron d’expression de la luciférase diffère de ceux obtenus pour les cellules NIH3T3 et HeLa. La construction pGL2-mp-1893 émet 3,5 fois environ la quantité de lumière émise par pGL2-basic. La délétion de 520 pb en 5’ entraîne l’émission de luciférase équivalente à 6 RLU. Il semble que les délétions subséquentes entraînent peu de changement dans l’expression de la luciférase. En effet, les constructions pGL2-mp-1373 et pGL2-mp-290 émettent la quantité la plus élevée de lumière soit environ 6 RLU. De plus, l’activité promotrice est plus faible que celle obtenue dans les autres types cellulaires et ce malgré que le contrôle positif pRSV-L donnait de meilleurs résultats que dans les autres tissus (figure 15D). La raison de cette baisse d’activité n’est pas connue. Les résultats des essais luciférase ne semblent pas mettre en évidence un mécanisme de régulation transcriptionnelle présentant des caractéristiques de spécificité tissulaire puisque la construction pGL2-mp-290 semble activer de façon constitutive l’expression du gène rapporteur dans tous les tissus étudiés. Il est possible que la séquence conférant la spécificité tissulaire se retrouve dans ces –290 pb puisqu’un site HNF6 y est trouvé (figure13). Cependant, l’absence de site de liaisons à des facteurs inhibant la transcription et la faible expression de la construction pGL2-mp-290 semblent suggérer que le site HNF6 est non fonctionnel. S’il l’avait été, nous pensons que la transcription du gène rapporteur aurait été plus élevé.

Figure 10. Alignement des 9999 pb en amont du gène fah de la souris et de l’humain.

Alignement de la région promotrice probable du gène de la FAH humaine avec la séquence orthologue chez la souris représenté en % d’identité de séquence. De plus, le premier exon de la FAH humaine et murine a été représenté (en rose). Un pourcentage d’identité arbitraire de 50% a été choisi pour montrer le taux de conservation entre les séquences (abscisse). Alignement obtenu à l’aide du logiciel mVista. Un alignement de l’exon 1, à une échelle plus lisible, est présenté à la figure 12.

Figure 11. Alignement du gène fah humain avec son équivalent murin.

Alignement de la séquence codante et intronique des gènes fah humains et murins. Le SIT identifié à la position –56pb s’est vu attribuer la position 1. En bleu, position des exons du gène fah humain. Les exons (Ex) et les introns (Int) sont numérotés en bas et en haut de la figure respectivement. En rose, la position d’éléments dont la séquence d’ADN est homologue à celle de la souris avec un pourcentage d’identité de plus de 50%. Un pourcentage arbitraire de 50% d’identité représente l’axe des abscisses. Pour faciliter la visualisation, une ligne à 75% d’identité est tracée. Alignement obtenu à l’aide du logiciel mVista. Un alignement de l’exon 1, à une échelle plus lisible, est présenté à la figure 12.

Figure 12. Alignement de l’exon 1 du gène fah humain et murin.

Les séquences des exons proviennent toutes deux de la banque de données Ensembl. La séquence du haut est celle de l’exon 1 humain et celle du bas de l’exon 1 de souris. La position relative par rapport à l’ATG de chacune des séquences est indiquée à gauche. L’ATG est indiqué par la flèche noire. La séquence surlignée en rouge représente la séquence conservée dans la séquence humaine par rapport à celle de souris. Alignement obtenu à l’aide du logiciel mVista.

Figure 13. Identification de sites de liaison putatifs à des facteurs de transcription dans la région promotrice du gène fah de la souris.

Les sites de liaison des facteurs de transcription sont soulignés en noir et le nom des facteurs est indiqué au-dessus. Les bases d’ADN surlignées en vert marquent le début de chacune des constructions. Toutes les constructions se terminent juste devant le codon de départ du gène fah pour éviter les décalages du cadre de lecture du gène rapporteur (surlignage rose). Les paires de bases en majuscule représentent l’exon 1 du gène fah . Le codon de départ du gène est surligné en jaune et une flèche montre l’orientation du cadre de lecture. La position relative par rapport au codon de départ est indiquée à gauche. Résultat obtenu avec l’aide du logiciel logiciel MatInspector Release professional 7.2.2 .

Figure 14. Représentation schématique des sites possibles de liaison des facteurs de transcription identifiés chez l’humain comparés à ceux trouvés chez la souris.

A) Les sites trouvés chez l’humain. B) Les sites trouvés chez la souris. Les chiffres entre les parenthèses font référence au nombre de sites trouvés dans cette région et qui sont trop rapprochés pour être bien distingués sur cette figure. Les flèches représentent les codons de départ du gène fah chez les deux espèces. L’échelle est d’un cm pour 100 pb. Résultat obtenu avec l’aide du logiciel logiciel MatInspector Release professional 7.2.2 .

Figure 15. Les résultats des essais luciférase dans les lignées cellulaires murines et humaines.

RLU signifie unités relatives de lumière et les barres d’erreurs représentent l’erreur standard sur la moyenne. Chaque résultat est la moyenne de trois expériences indépendantes effectuées en triplicata.