jueves, febrero 09, 2006

Otra práctica más. ORF Finder, Blast y ClustalW

Hola a todos. Vamos a seguir con más prácticas. Espero que os sirvan de ayuda o de guía. Hoy vamos a simular los pasos que se dan desde que se obtiene una secuencia de ADN hasta la construcción de un árbol filogenético que relacione su secuencia con el resto de secuencias homólogas ya conocidas y depositadas en los bancos de genes (bases de datos de ADN y Proteínas).

Os recomiendo que para realizar estas prácticas abráis distintas pestañas (si os lo permite) en el navegador para poder realizar los pasos de forma más clara.

Empecemos.

Se ha obtenido a partir de un DNA de la Mona de Gibraltar (inventado) la siguiente secuencia de nucleótidos :

1 TTGCGCGAGG GCCGCCCCAG CCGCCCGATC AGCGTCGGCC CCTGCGCTGG
51 CTGAGGGGGA ATCACCCCCC GCTGCCAAAC GCAGGCACGG ACCCCAGTCC
101 TGCGGCGCGC TGGCGGGCAG GTCAGACCGA GCCCTCCAGT GAATCAGGCG
151 ACAAATACAA CGCCAGGGAT CAGCGACGGC AGCGCTACAA GAATCGACGG
201 CGTGTTGGAG GGACCCAGCT CTATGCCGAG TTCAGTCGCC AGCAGAGGTA
251 CTGCCGTGAC TGGGAAGGCG GACCCCAGTA GCGCCTGTGA CGCGGGGACG
301 GGTCAGCGTC TGCCGGTAGC CGGACCGCCC AGGCAGGCTG ACCAAGCGGC
351 GCCTGTGGCA GTTGGCCCAA CAAACGAGCA CGTCCCCCGA ACCACGACGC
401 TGAGCGACAG TCTAGGCCGT GCTAGTGAAC GCACGTGAGC CACGAGACAC
451 TGCAAGTCAG CCGGACTCCT CGTCGGGTCG CCCGCTAGCC CTACCTCGAG
501 TGTCACCCCA GACCTTAAGC GCTGGCTCAT TAGGGTAGGC TCAATCGGGC
551 GGCGACGGCT CTGGCCCCAC AGACTGGGTA ACCTTGCCAA CCAGGCCTCG
601 ATGAAGTGGG TGTGGGCCCT GGCCCTGCTG GCCGCCTGGG CCGCCGCCGA
651 GCGCGACTGC CGCGTGAGCA GCTTCCGCGT GAAGGAGAAC TTCGACAAGG
701 CCCGCTTCAG CGGCACCTGG TTCGCCTTGG CCAAGAAGGA CCCCGAGGGC
751 CTGTTCCTGC AGGACAACTT CGTGGCCGAG TTCAGCGTGG ACGAGACCGG
801 CCAGATGAGC GCCACCGCCA AGGGCCGCGT GTGCCTGCTG AACAACTGGG
851 ACGTGTGCGC CGACAAGGTG GGCACCTTCA CCGACACCGA GGACCCCGCC
901 AAGTTCAAGA TGAAGTACTG GGGCGTGGCC AGCTTCCTGC AGAAGGGCAA
951 CGACGACCAC TGGATCGTGG ACACCGACTA CGACACCTAC GCCGTGCAGT
1001 ACAGCTGCCG CCTGCTGAAC CTGGACGGCA CCTGCGCCGA CGACTACAGC
1051 TTCGTGTTCA GCCGCGACCC CAACGGCCTG CCCCCCGAGG CCCAGAAGAT
1101 CGTGCGCCAG CGCCAGGAGG AGCTGTGCCT GGCCCGCCAG TACCGCCTGA
1151 TCGGCCACAA CGGCTACTGC GACGGCCGCA GCGAGCGCAA CCTGCTGTAA
1201 GGTGCGGCGC GTCTACTCTC CCCCATCCCG CTAGGGCCTG CGGTGTCGCC
1251 GGACCAGGGT CACACCAACC ATCTCACGTG CGGCCCTGTC GTTCACCCTC
1301 CCATCCACTG ACGGCGCGGC AGACCCGGGA GGCCGGCCGA CAGCTGGCGG
1351 CGCGCGCGCC AAGGGAGCTG GCGACGACTC CCGCCACCGG CTGGACGAAA
1401 ATGGCAAGTC TAGGCGCCAG CGTCGCCGTA GAAGGGGTCG TTTTCAGCCG
1451 GACATGGCCG GACACAGTGG CCAGTGGCCG ATCGTCAAGG CCTGATGCCC
1501 GTAAATGGCT TCGTTAGTTT GGCGCCCAGG CGCTCGGCCA GCCGGGCGTT
1551 AGAGCAACAC AGAGTTCGCC GCACCGCCCG CCCGAACGCA GAGAAGGCGA
1601 GAGCGAGTTT GGCCTATAGG AGCCGCCGCT CACGGCAACC GCGCACAAAC
1651 GGGTAAGCCC TCGGCCCAAC CCCGGAGTGC TTAACCCGGC TTCGCGAAGG
1701 CCGAAGTCCG GAGAGGACAG CATGGGTCGT GCGTCAGGGC CTGGCGTTCG
1751 TCGCAAAAAC GCACAAGCTA CCGGAGGATC ACAATGCCCA GACCACCCTA


Programa ORF Finder. ORF, marco abierto de lectura.

Copia la secuencia de arriba (sin importar los números). Vamos a entrar en la página del NCBI ("National Center for Biotechnology Information" del "National Institutes of Health"). En esta página puedes encontrar bases de datos de genes y proteínas, bases de genomas completos (incluido el humano) y herramientas de análisis. La dirección es :

http://www.ncbi.nlm.nih.gov

A la derecha de la página encontramos un "link" que dice ORF FINDER, un programa "on-line" para encontrar marcos abiertos de lectura. Pínchalo. La nueva página te presenta el programa, puedes introducir la clave de una de las secuencias ya contenidas en las bases de datos o una propia. Pegamos la la secuencia que habías copiado. A este tipo de formato se le llama FASTA y es muy utilizado en el mundillo de la bioinformática, prácticamente cualquier programa reconoce ese formato (>nombre de la secuencia y luego la secuencia). Una secuencia en este formato tendría este aspecto:

>rbp
ACTAGGACAGCCACTAGACCACAGGGACCATGCACGC
ACGAGCCACAGAGGAGAGCAGCAGCGAC...ETC


Una vez que hayas pegado la secuencia pincha ORFfind para ejecutar el programa.

Ahora, vamos a aislar el ORF correcto y traducirlo a proteína. El resultado del programa da los posibles ORFs en las dos cadenas (aparecen 3 marcos para una cadena y otros 3 para otra). La región marcada en verde de mayor tamaño debe ser el ORF buscado, aparecen otros ORF pero son pequeños. Pincha el mayor y aparecerá una nueva pantalla con la ORF seleccionada ya aislada y con su traducción a proteína.
Ahora vamos a quedarnos con solo la proteína para hacer búsquedas en las bases de datos con la intención de buscar sus homólogos. Para hacer esto pincha en ACCEPT y la ORF (que ha quedado marcado en púrpura) pasa a color verde claro. Ahora en el cuadro VIEW modifica la forma que quieres ver la ORF seleccionada, selecciona FASTA Proteína y luego pincha en VIEW. Aparece una pantalla con la proteína en formato fasta, selecciona todo el texto con el ratón y copia la secuencia, luego nos hará falta.

A continuación vamos a retomar el trabajo con BLAST.

Hasta ahora lo que tenemos es una secuencia de proteína, pero no sabemos nada de ella. Uno de los programas más utilizados es BLAST. Vamos a volver a la página principal de NCBI, y en la parte de arriba hay un "link" para ir a BLAST. Aparece la página de BLAST y como puedes ver hay varias versiones. Nosotros vamos a seleccionar el "link" que dice "protein-protein BLAST [blastp]". Aparece la página de blastp. Este programa tiene varios comandos para ajustar los parámetros de la búsqueda. Pega la secuencia de proteína en el cuadro grande en blanco. En el cuadro "Choose database" selecciona "swissprot". Swissprot es una base de datos de proteínas mantenida por el Instituto de Bioinformática de Suiza. Fíjate también que el cuadro "Do CD-search" aparece marcado. Déjalo marcado porque a la vez que vamos a encontrar los homólogos de nuestra proteína vamos a hacer una búsqueda en el "Conserved Domain Database", una base de dominios funcionales de proteínas que nos va a permitir conocer la familia a la que pertence la nuestra.
Pincha "BLAST!" y comienza la búsqueda. Aparece una pantalla que nos indica la familia de nuestra proteína (la comparación con la base de datos de dominios es fulminante) pero la búsqueda de homólogos es más lenta.
Como puedes ver pertenece a la familia de las lipocalinas. Las lipocalinas son pequeñas proteínas con forma de cesta que portan en su interior moléculas hidrofóbicas, y sus funciones son muy variadas.
Más abajo aparece un "link" FORMAT, pínchalo. Una vez que esté terminada la búsqueda aparece una pantalla con los resultados. Baja la página hasta ver un listado de las secuencias encontradas. A la derecha de cada secuencia aparecen dos números, el primero es el "score" (la puntuación arbitraria que le da el programa a cada secuencia homóloga encontrada) y el segundo indica la probabilidad de encontrar el "score" obtenido al azar. Como puedes ver cuanto menor sea ese valor más parecido hay entre tu secuencia y la de la base de datos. Puedes ver que las primeras que se han encontrado son todas "Retinol Binding Proteins", es decir lipocalinas que transportan retinol. Luego aparecen más lipocalinas. Baja un poco la página para que veas cómo el programa ha alineado tu secuencia con las de la base de datos y veas lo parecida que son.
Cada proteína homóloga aparece marcada en azul, si pinchas en ese "link" puedes ver la información sobre esa proteína, la secuencia, quién la secuenció, otras bases de datos que tengan información sobre esa proteína etc.
Podemos concluir de este análisis, que nuestra secuencia es una lipocalina, y que pertenece al grupo de los Retinol Binding Protein...seguramente nuestra secuencia también transporte retinol.

Abre el editor de texto de tu ordenador (wordpad, notepad o Word…).
Ve pinchando las 10 primeras secuencias encontradas, aparece una pantalla con la secuencia. Selecciona en el cuadro DISPLAY el formato FASTA y luego pulsa DISPLAY. Cuando te aparezca la secuencia en formato FASTA cópiala y pégala en el editor de texto. Repite el proceso varias veces. Cuando termines añade tu secuencia (vuelve a la página donde se había ejecutado BLAST y cópiala de allí). Por último ve a la pantalla del editor y deja para cada nombre de secuencia el que da la base de datos, por ejemplo en la primera aparece:
>gi|132404|sp|P02753|RETB_HUMAN PLASMA RETINOL-BINDING PROTEIN PRECURSOR (PRBP) (RBP)
déjalo así:
>RETB_HUMAN.
Por último selecciónalas y cópialas todas.

Vamos a hacer un alineamiento con todas las secuencias encontradas y la nuestra. Hacer un alineamiento significa colocar las secuencias unas sobre otras intentado que los aminoácidos que estén en la misma columna sean iguales o lo más parecidos posibles. En los alineamientos aparecen "gaps" es decir, puntos en los cuales una secuencia ha tenido una inserción o una deleción que no aparece en otras. También aparecen gaps cuando una secuencia es más corta o cuando no se ha secuenciado completa. Uno de los programas más utilizados es CLUSTALW, que utiliza un algoritmo muy complejo para alinear las secuencias. Alinear secuencias no es fácil, si se parecen mucho no hay problemas pero si no son muy parecidas o hay lugares muy distintos entonces el alineamiento se complica (sobre todo si utilizamos muchas secuencias, cuando decimos muchas decimos ¡cientos!).
ClustalW se puede correr on-line en muchos sitios y también se puede descargar uno cualquiera de ellos:

http://www.pedb.org/scripts/clustalw.php
http://www.es.embnet.org/cgi-bin/clustalw.cgi
http://www.hongyu.org/software/clustal.html
http://www.ebi.ac.uk/clustalw/

Ve a esa página. No te asustes con lo que veas, lo que aparece son todas las opciones que se pueden cambiar del programa y tú sólo tienes que utilizar algunas las demás las dejaremos como están. Pega en el gran cuadro en blanco todas las secuencias en formato FASTA y pincha en Press HERE. Cuando termina el programa aparece una página de texto donde está el alineamiento pero si quieres verlo más bonito pincha en el link de arriba JALVIEW. Aparece el alineamiento en todo su esplendor, cada color designa un aminoácido y las barras indican el grado de parecido en cada columna. Jalview es un programa para ver alineamientos, en realidad no los hace. Simplemente toma la salida de CLUSTAW que es el programa que hace el alineamiento. Si tienes tiempo juega un poco con Jalview para ver sus distintas opciones. Pincha por ejemplo en COLOUR y luego en Zappo para ver los aminoácidos del mismo tipo con el mismo color.
ADVERTENCIA: el árbol que aparece en TREE FILE NO es el árbol filogenético, es tan solo un árbol guía que genera CLUSTAW para decidir el orden de alineamiento de las secuencias

Para construir un árbol filogenético nos hace falta un alineamiento (ya lo tenemos) y un programa que lo utilice. Cuando se hace un estudio serio en análisis filogenético se utilizan programas específicos para ello, pero nosotros vamos a utilizar JALVIEW que es capaz de construir árboles con un método sencillo y rápido. Se llama método de distancias. Consiste en contar todas las posiciones donde cada pareja de secuencias coinciden, generando una matriz de identidades. Las secuencias más parecidas tienen un valor alto, las menos parecidas valores más bajos. Después de construir la matriz JALVIEW utiliza un método de reconstrucción filogenética como UPGMA. En CALCULATE pincha Average Distance tree. Una vez hecho esto se muestra el árbol. Analízalo. Puedes cambiar el tamaño de la letra para ver el nombre de las especies y también puedes ver la longitud de las ramas. Presta atención en una cosa, la secuencia no era de la Mona de Gibraltar sino una secuencia de la base de datos perteneciente a otra especie y que hemos modificado para estar aquí entretenidos contigo ¿Puedes ahora decir de qué especie la hemos obtenido?

1 Comments:

Anonymous malegria said...

hola! queria preguntarte por que, en el momento de elegir el ORF, el de mayor tamaño es el ORF que buscamos?

ahh y gracias! tu blog es una de las herramientas mas utiles que he visto en internet!

martes, 04 julio, 2006  

Publicar un comentario en la entrada

<< Home

Google


Online counter