Skip to content
Snippets Groups Projects
Commit 09e5eeed authored by Claire-Jing ROUCHET's avatar Claire-Jing ROUCHET
Browse files

Rapport de l'EA

parent 1579c895
No related branches found
No related tags found
No related merge requests found
\title{Rapport Bio/INFO588}
\author{\small Ariane DELROCQ, Amaury LEROY, Étienne MORICE, Claire-Jing ROUCHET}
\date{\today}
\maketitle
\newpage
\tableofcontents
\ No newline at end of file
\chapter*{Introduction}
\addcontentsline{toc}{chapter}{Introduction}
La diversité génétique est basée sur quatre paires de bases: l'Adénine, la Guanine, la Thymine et la Cytosine. Quatre nucléotides qui codent nos protéines, l'identité de nos cellules et qui nous sommes.
\\Cette diversité s'est modifiée au cours du temps grâce à l'évolution. Mais les similitudes permettent de lier les espèces et les individus entre eux.
\\Nous avons cherché à créer un programme qui pourrait aligner les séquences multiples afin de pouvoir mettre en avant les régions conservées pouvant être essentielles (e.g liaison à l'ATP) et les régions variables permettant de définir l'individu.
\\De plus, nous avons particulièrement examiné les protéines contenant une "P-loop" qui serait la séquence conservée permettant à la protéine de fixer l'ATP ou le GTP.
\\
\\
Le but de cet enseignement d'approfondissement est de nous montrer comment peut-on trouver des régions conservées ou non entre espèces par alignement de séquences (simples puis multiples). Ainsi, nous avons suivi plusieurs étapes dans cet acheminement:
\begin{enumerate}
\item Créer un programme d'alignement de séquences (simples puis multiples).
\item Créer un programme de construction d'un arbre guide à partir des distance entre clusters (méthode UPGMA).
\item Analyse de proteines à P-loop.
\end{enumerate}
Nous avons aussi tester l'efficacité de notre programme d'alignement de séquences en comparant les scores obtenus ("Sum-of-pairs score" (SPS) et "column score" (CS)) avec ceux obtenus par Clustal Omega (méthode progressive).
\ No newline at end of file
\chapter{Codes}
\section{Alignements stucturaux}
\subsection{Alignement de deux séquences et alignements multiples}
Nous avons commencé à nous interroger sur comment pouvait-on aligner deux séquences.
\\Le principe de l'alignement de séquence est de pouvoir comparer deux ou plusieurs séquences entre elles. A partir d'une séquence (généralement la plus longue), on regarde la correspondance optimal entre chaques éléments des différentes séquences.
\\Dans notre cas présent, nous avons utilisé la méthode de Needleman-Wunsch avec la matrice de similitude BLOSUM62.
\\La méthode de Needleman-Wunsch se base sur le fait qu'il existe trois possibilités à un aligement de deux séquences:
\begin{itemize}
\item[-] Soit l'élément à la i-ème position d'une des deux séquences s'apparie avec le i-ème élément de la seconde séquence.
\item[-] Soit le i-ème élément de la première séquence ne s'apparie pas avec le i-ème élément de la seconde séquence, dû à une insertion ou une délétion d'un élement, créant ainsi un "gap".
\item[-] Soit le i-ème élément de la seconde séquence ne s'apparie pas avec le i-ème élément de la première séquence, créant ainsi un gap en face de cet élément.
\end{itemize}
Le choix entre ces trois possibilités se repose sur l'optimisation du score de cet étape en regardant dans la matrice de similitude le coût de cet alignement. Ainsi, en mettant un coût arbitraire à la création d'un gap (-8), nous comparons ceci au coût de la première proposition aux deux autres.
\\Ainsi, nous créons une réflexion en boucle, commençant par l'extrémité d'une des séquences et en continuant notre lecture jusqu'à ce qu'il n'y est plus d'éléments à aligner. En calculant le score maximal que l'on peut obtenir dans chaque case d'un tableau à double entrées avec chacune des séquences en entrée, nous pouvons créer un chemin en additionnant ces scores calculés et ainsi arriver à un score maximal pour l'alignement de chaque élément des deux séquences. En remontant ce résonnement, nous arrivons à un alignement dit optimal, le moins coûteux.
\\De plus, nous avons remarqué qu'il serait plus coûteux d'ouvrir un gap dans une sequence que d'en continuer un (i.e le i-ème élément de la première ou seconde séquence ne s'aligne pas après plusieurs pas consécutif avec l'autre séquence. Cette réfléxion est due au fait que la continuation d'un gap n'a pas être aussi coûteux que l'ouverture d'un car le néo-gap sera placé à un endroit où la possibilité d'insertion ou de délétion est plus probable (ceci s'est déjà produit).
\\Notre code pour l'alignement de deux sequences:
\\
\\
\\
\\
\\Pour passer de l'alignement de deux séquences à de l'alignement multiple, nous avons procédé par étapes:
\begin{enumerate}
\item Alignements des séquences par paires avec pour chaque couple un score d'alignement.
\item Création d'un arbre guide par comparaison entre les scores des différentes paires.
\item Alignement des différents clusters entre eux avec addition des scores pour avoir un alignement final de toutes les séquences.
\end{enumerate}
\subsection{Clustering}
La création des clusters suite à l'alignement par paires se repose sur la proximité des alignements entre eux. Ceci est décidé par la valeur des scores obtenus et des scores totaux lors de l'alignement de différents clusters entre eux. L'aligement d'une séquence avec un alignement déjà fait s'effectue de la même manière qu'un alignement de deux séquences mais nous ne regardons plus l'appariement de deux éléments mais celui d'un élément avec un groupe d'éléments déjà formé. Ainsi, le score obtenu ne sera pas celui de la comparaison entre deux éléments mais de l'addition des scores entre cet élément et chaque éléments du groupe.
Ainsi, nous pouvons créer un arbre guide dont la distance entre chaque cluster peut être indiqué.
Notre code pour la création de l'arbre guide:
\\
\\
\\
\subsection{Ajout de l'information structural}
Grâce au format PDB, nous pouvons comparer les différentes structures des protéines. Ainsi, pour certains paramètres comme la pénalité de gap, cette nouvelle information induira leur changement. En effet, si l'on considère un acide aminé qui serait structurellement à l'intérieur de la structure tridimensionnelle,la création d'un gap semble beaucoup moins probable. Du coup, le coût de création de gap sera plus élevé que pour l'alignement d'un acide aminé qui serait situé dans une boucle à la surface de la protéine.
Notre code pour l'introduction de l'information structurale:
\\
\\
\\
\\
\section{Protéines à P-loop}
\chapter{Résultats}
\section{Alignement de séquences}
\section{Protéines à P-loop}
\chapter{Discussion}
\section{Alignement de séquences}
\section{Protéines à P-loop}
\ No newline at end of file
\chapter*{Conclusion}
\addcontentsline{toc}{chapter}{Conclusion}
\ No newline at end of file
\documentclass[12pt]{report} % larger type; default would be 10pt
\usepackage[french]{babel}
\usepackage[utf8]{inputenc} % set input encoding
\usepackage{textcomp}
\usepackage{tikz}
\usepackage{geometry} % to change the page dimensions
\geometry{a4paper}
\usepackage{graphicx}
\usepackage{fancyhdr}
\usepackage{verbatim} % pour commentaires multilignes
\begin{document}
\include{01_page_de_garde}
\include{02_table_des_matieres}
\include{03_introduction}
\include{04_codes}
\include{05_resultats}
\include{06_discussion}
\include{07_conclusion}
\end{document}
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment