Laboratorio di Bioinformatica

Similar documents

RETRIEVING SEQUENCE INFORMATION. Nucleotide sequence databases. Database search. Sequence alignment and comparison

BLAST. Anders Gorm Pedersen & Rasmus Wernersson

Bioinformatics Resources at a Glance

BIOINFORMATICS TUTORIAL

Similarity Searches on Sequence Databases: BLAST, FASTA. Lorenza Bordoli Swiss Institute of Bioinformatics EMBnet Course, Basel, October 2003

Protein & DNA Sequence Analysis. Bobbie-Jo Webb-Robertson May 3, 2004

Biological Databases and Protein Sequence Analysis

ID of alternative translational initiation events. Description of gene function Reference of NCBI database access and relative literatures

GenBank, Entrez, & FASTA

Pairwise Sequence Alignment

Applying data integration into reconstruction of gene networks from micro

Module 1. Sequence Formats and Retrieval. Charles Steward

Biological Sequence Data Formats

A Tutorial in Genetic Sequence Classification Tools and Techniques

An agent-based layered middleware as tool integration

Linear Sequence Analysis. 3-D Structure Analysis

Bioinformática BLAST. Blast information guide. Buscas de sequências semelhantes. Search for Homologies BLAST

Integration of data management and analysis for genome research

Database searching with DNA and protein sequences: An introduction Clare Sansom Date received (in revised form): 12th November 1999

Bioinformatics Grid - Enabled Tools For Biologists.

Introduction to Bioinformatics 2. DNA Sequence Retrieval and comparison

A Multiple DNA Sequence Translation Tool Incorporating Web Robot and Intelligent Recommendation Techniques

BIO 3350: ELEMENTS OF BIOINFORMATICS PARTIALLY ONLINE SYLLABUS

Searching Nucleotide Databases

Clone Manager. Getting Started

When you install Mascot, it includes a copy of the Swiss-Prot protein database. However, it is almost certain that you and your colleagues will want

Databases and mapping BWA. Samtools

The human gene encoding Glucose-6-phosphate dehydrogenase (G6PD) is located on chromosome X in cytogenetic band q28.

Library page. SRS first view. Different types of database in SRS. Standard query form

Sequence Formats and Sequence Database Searches. Gloria Rendon SC11 Education June, 2011

Bioinformatics Tools Tutorial Project Gene ID: KRas

ACAAGGGACTAGAGAAACCAAAA AGAAACCAAAACGAAAGGTGCAGAA AACGAAAGGTGCAGAAGGGGAAACAGATGCAGA CHAPTER 3

Lecture Outline. Introduction to Databases. Introduction. Data Formats Sample databases How to text search databases. Shifra Ben-Dor Irit Orr

SGI. High Throughput Computing (HTC) Wrapper Program for Bioinformatics on SGI ICE and SGI UV Systems. January, Abstract. Haruna Cofer*, PhD

Module 10: Bioinformatics

Molecular Databases and Tools

Genome and DNA Sequence Databases. BME 110/BIOL 181 CompBio Tools Todd Lowe March 31, 2009

CD-HIT User s Guide. Last updated: April 5,

Analyzing A DNA Sequence Chromatogram

Bio-Informatics Lectures. A Short Introduction

Analisi in silicoe relazione tra enterotossine stafilococciche e tossine ipotetiche

Core Bioinformatics. Degree Type Year Semester Bioinformàtica/Bioinformatics OB 0 1

Guide for Bioinformatics Project Module 3

This document presents the new features available in ngklast release 4.4 and KServer 4.2.

Computational searches of biological sequences

GenBank: A Database of Genetic Sequence Data

Discovering Bioinformatics

PROC. CAIRO INTERNATIONAL BIOMEDICAL ENGINEERING CONFERENCE

Bioinformatica. Dr. Marco Fondi Lezione # 6. Corso di Laurea in Scienze Biologiche, AA

Apply PERL to BioInformatics (II)

Teaching Bioinformatics to Undergraduates

UGENE Quick Start Guide

Bioinformatics: course introduction

Efficient Parallel Execution of Sequence Similarity Analysis Via Dynamic Load Balancing

Tutorial. Reference Genome Tracks. Sample to Insight. November 27, 2015

Design Style of BLAST and FASTA and Their Importance in Human Genome.

org.rn.eg.db December 16, 2015 org.rn.egaccnum is an R object that contains mappings between Entrez Gene identifiers and GenBank accession numbers.

ISSN Monografias em Ciência da Computação n 27/09

Introduction to Genome Annotation

Multiple Sequence Alignment. Hot Topic 5/24/06 Kim Walker

SUBMITTING DNA SEQUENCES TO THE DATABASES

Introduction to Bioinformatics 3. DNA editing and contig assembly

Syllabus of B.Sc. (Bioinformatics) Subject- Bioinformatics (as one subject) B.Sc. I Year Semester I Paper I: Basic of Bioinformatics 85 marks

Database manager does something that sounds trivial. It makes it easy to setup a new database for searching with Mascot. It also makes it easy to

Integrating Bioinformatics, Medical Sciences and Drug Discovery

Sequence Database Administration

BIO 3352: BIOINFORMATICS II HYBRID COURSE SYLLABUS

Geneious Biomatters Ltd

Version 5.0 Release Notes

Distributed Data Mining in Discovery Net. Dr. Moustafa Ghanem Department of Computing Imperial College London

Sequencing the Human Genome

EMBL-EBI Web Services

Algorithms in Bioinformatics I, WS06/07, C.Dieterich 47. This lecture is based on the following, which are all recommended reading:

Chironomid DNA Barcode Database Search System. User Manual

The Integrated Microbial Genomes (IMG) System: A Case Study in Biological Data Management

Data formats and file conversions

Rapid alignment methods: FASTA and BLAST. p The biological problem p Search strategies p FASTA p BLAST

Global and Discovery Proteomics Lecture Agenda

Committee on WIPO Standards (CWS)

Database schema documentation for SNPdbe

Sequence information - lectures

PREDA S4-classes. Francesco Ferrari October 13, 2015

Just the Facts: A Basic Introduction to the Science Underlying NCBI Resources

Databases indexation

Focusing on results not data comprehensive data analysis for targeted next generation sequencing

BMC Bioinformatics. Open Access. Abstract

Extraction and Visualization of Protein-Protein Interactions from PubMed

Curriculum Vitae et Studiorum

Having a BLAST: Analyzing Gene Sequence Data with BlastQuest

THE GENBANK SEQUENCE DATABASE

T cell Epitope Prediction

DNA Sequence formats

1. INTRODUCTION TABLE OF CONTENTS INTRODUCTION 1-3. How This Guide Is Organized 1-3 Additional Documentation 1-4 Conventions Used in This Guide 1-4

Genome Viewing. Module 2. Using Genome Browsers to View Annotation of the Human Genome

Getting started in Bio::Perl 1) Simple script to get a sequence by Id and write to specified format

DNA Printer - A Brief Course in sequence Analysis

Genome Explorer For Comparative Genome Analysis

Protein Protein Interactions (PPI) APID (Agile Protein Interaction DataAnalyzer)

Welcome to the Plant Breeding and Genomics Webinar Series

Transcription:

Laboratorio di Bioinformatica Lezione #2 Dr. Marco Fondi Contact: marco.fondi@unifi.it www.unifi.it/dblemm/ tel. 0552288308 Dip.to di Biologia Evoluzionistica Laboratorio di Evoluzione Microbica e Molecolare, Università di Firenze

Lezione #2 b)web resources for bioinformatics b) BLAST (Basic Local Alignment Search Tool)

?

Wet-Lab experiments DATA Bibliographic Databases Taxonomic Databases WEB Databases Nucleotide Databases Genomic Databases Protein Databases Microarray Databases

Knowledge bases = Biological databases Punto di partenza di qualsiasi analisi bioinformatica (e non). Melanie

Sequence Data/Genome Data atgctggactgagtaatcct MQYYLERRSQMPGYTRYMML Gene Prediction (ORF finding) Protein Structure Taxonomy Metabolic pathways information Expression profiles (Microarray Data) DataBase overview

Sequence Data/Genome Data atgctggactgagtaatcct MQYYLERRSQMPGYTRYMML Gene Prediction (ORF finding) Protein Structure Taxonomy Metabolic pathways information Expression profiles (Microarray Data)

EMBL-EBI

GenBank

PDB (Protein DataBank) database

JGI Database

sequence in FASTA Format

FASTA Format >gi 193425 gb M60978.1 MUSGAPDS Mus musculus testis-specific isoform of glycerald GGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCC AGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACC ACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCT CCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCC CTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCT GACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATT AGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCA CACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAA CACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGT gi number Locus Name ACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCA CTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTAT Database Identifiers GACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAAC Accession number TTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGC gb GenBank CATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGC emb EMBL CAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACC dbj DDBJ CCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGG CTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCAC sp SWISS-PROT GGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTC pdb Protein Databank GTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACA TGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCG pir PIR GCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC FASTA Definition Line >gi 193425 gb M60978.1 MUSGAPDS ref RefSeq

Text search DB Sequence in FASTA Format BLAST Sequence similarity search >gi 193425 gb M60978.1 MUSGAPDS Mus musculus testis-specific isoform of glycerald GGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCC AGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACC ACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCT CCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCC CTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCT GACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATT AGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCA CACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAA CACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGT ACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCA

Sequence Data/Genome Data atgctggactgagtaatcct MQYYLERRSQMPGYTRYMML Gene Prediction (ORF finding) Protein Structure Taxonomy Metabolic pathways information Expression profiles (Microarray Data)

Molecola di DNA Sequenza in formato FASTA: >Cromosoma (TITOLO) ATCATTATTGATCCTGATCGGTTAGCAT CGTATTTCCTTACCGGGACCCCATGATC GATACAGTAAACCTTAGGATGATTATTG ATGCTGATCGGTTAGCATCGTATTTCCT TACCGGGACCCCATGATCGATACAGTA AACCTTAGGTGATTATTGATCCTGATCG GTTAGCATCGTATTTCCTTACCGGGACC CCATGATCGATACAGTAATAATTAGGAT GATTATTGATCCTGATCGGTTAGCATCG TATTTCCTTACCGGGACCCCATGATCGA TACAGTAAACCTTAGGATGATTATTGAT CCTGATCGGTTAGCATCGTATTTCCTTA CCGGGACCCCATGATCGATACAGTAAA CCTTAGATGATTATTGATCCTGATCGGT ATGCATCGTATTTCCTTACCGGGACCCC ATGATCGATACAGTAAACCTTAGGTTGA ATCGTATTTCCTTACCGGGACCCCATGA TCGATACAGTAAACCTTAGGTAGCATCG TATTTCCTTACCGGGACCCCATGATCGA ATGAGTAAACCTTAGGTAGCATTGAATT TCCTTACCGGGACCCCATGATCGATACA GTAAACCTTAGG..

ORF Finder @ NCBI:

Sequence Data/Genome Data atgctggactgagtaatcct MQYYLERRSQMPGYTRYMML Gene Prediction (ORF finding) Protein Structure Taxonomy Expression profiles (Microarray Data) Metabolic pathways information

Ho un gene (una sequenza), in quale processo metabolico è coinvolto? Dato un processo metabolico, quali sono i geni coinvolti?

Metabolic pathways information @ KEGG

Metabolic pathways information @ KEGG

Apoptosis in Homo sapiens

Apoptosis in Monodelphis domestica

Sequence Data/Genome Data atgctggactgagtaatcct MQYYLERRSQMPGYTRYMML Protein Structure Gene Prediction (ORF finding) Taxonomy Metabolic pathways information Expression profiles (Microarray Data)

Ogni proteina ha una sua struttura 3D Amino acid sequence NLKTEWPELVGKSVEE AKKVILQDKPEAQIIVL PVGTIVTMEYRIDRVR LFVDKLDNIAEVPRVG Folding!

Protein Structure in the WEB Strutture note Predizioni di strutture If prediction = true

Protein structure prediction

Protein structure @ NCBI

Disegno di farmaci drug design Protein-protein docking Evoluzione Proteomica Assegnazione funzionale

Sequence Data/Genome Data atgctggactgagtaatcct MQYYLERRSQMPGYTRYMML Gene Prediction (ORF finding) Protein Structure Taxonomy Metabolic pathways information Expression profiles (Microarray Data)

Expression profiles (Microarray Data) Array Analysis Hierarchical Clustering

Gene Expression @ NCBI

Expression profile: Interazioni proteina-proteina Assegnazione funzionale Proteomica

NCBI ( http://www.ncbi.nlm.nih.gov/) Entrez interface to databases Medline/OMIM Genbank/Genpept/Structures BLAST server(s) Five-plus flavors of blast Draft Human Genome Much, much more

INTEGRATION!!!

Things to know and remember about using web server-based tools State usando il computer di qualcun altro (Probabilmente) state utilizzando un insieme ristretto delle opzioni disponibili Grande utilità per analisi preliminari e veloci. Per analisi più accurate e complesse è preferibile utilizzare database e software in maniera locale La pratica e gli errori (intelligenti!!!) sono il miglior modo per imparare

Sequence Comparison BLAST Basic Local Alignment Search Tool

Perché comparare le sequenze? Per individuare quali altri organismi possiedono il gene sotto studio (query) (es. produzione antibiotici, target per farmaci) Per una preliminare attribuzione funzionale (hypothetical protein, putative function)

Attribuzione funzionale AACGT TTGCC TATAG Confronto sequenze (BAST) proteina X funzione ignota Database sequenze Sequenze simili Trasferimento dell informazione relativa alla funzione proteina X funzione A proteina 1 funzione A proteina 2 funzione A proteina 3 funzione A proteina 4 funzione A proteina 5 funzione A proteina 6 funzione A proteina 7 funzione A proteina 8 funzione A

Sequence in FASTA Format QUERY >gi 193425 gb M60978.1 MUSGAPDS Mus musculus testis-specific isoform of glycerald GGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCC AGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACC ACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCT CCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCC CTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCT GACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATT AGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCA CACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAA CACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGT ACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCA BLAST DB Lista di sequenze simili alla query

BLAST in the web @NCBI

Using Basic BLAST Methods Example: MASH-1 protein sequence from mouse Can I find similar proteins in Human?

Input Query Choose Database

Submitting Your Query Input query sequence FASTA Raw Accession/ ID Choose Database Many available; varies with program For complete list follow the link to:

Finds Conserved Domains Limit results with entrez query E-Value cut off

Submitting Your Query CD Search Finds conserved domains in query sequence Compares to patterns and profiles of CDs Limit by entrez query Restricts results to single organism etc. E-value cut off Restricts results to ones falling below defined e-value Default = 10 Will revisit concept of e-value

Filtering Matrix Gap Penalties

Submitting Your Query Low complexity filtering Low complexity sequence can lead to spurious alignments Filtering hides these regions On by default SEG (proteins) or DUST (nucleic acids) Should turn it off in some cases what if your entire sequence gets filtered?

Submitting Your Query Choice of scoring matrix Different ones available BLOSUM matrices based on observed frequencies of a.a. substitutions Each tailored to different levels of sequence divergence and length BLOSUM 62 = default Shown to be best at detecting most protein similarities don t usually need to change Follow link for detailed information

Submitting Your Query Gap Penalties Accounts for insertions and deletions in different sequences Scores are penalized for gaps to prevent aberrant alignments Opening penalty is high; extension penalty is lower Defaults may change depending on matrix choice Rarely need to change default value

Protein Words Query:GTQITVEDLFYNIATRRKALKN GTQ Word size = 3 (default) TQI Word size can only be 2 or 3 QIT ITV Make a lookup table of words TVE VED EDL DLF...

Query: GTQITVEDLFYNIATRRKALKN TQI QIT ITV TVE VED EDL DLF... ch! M at GTQ DB extend extend TVEDLFRRLKIAGTQEDLRRT GGHPYTTFWWYQLMERGTQ GRTHPYTTTWWEWHHRGTQ GRTHPYTTTWWEWHHRGTQ GRTHPYTTTWWEWHHRGTQ GRTHPYTTTWWEWHHRGTQ

Query: GTQITVEDLFYNIATRRKALKN TVEDLFRRLKIAGTQEDLRRT GGHPYTTFWWYQLMERGTQ GRTHPYTTTWWEWHHRGTQ GRTHPYTTTWWEWHHRGTQ GRTHPYTTTWWEWHHRGTQ.. GRTHPYTTTWWEWHHRGTQ Score Score Score Score Score Score..

E-values Bit Scores

Click for more info Take note

Basic BLAST programs and databases In 6 frames Nucleotide Sequence blastn Protein Sequence Translated Protein Sequence tblastn blastp blastx Nucleotide DB In 6 frames tblastx Protein DB Translated DB (contain amino acid sequences)