Laboratorio di Informaticahomes.di.unimi.it/~cazzola/didattica/lab_di_informatica_x... ·...

43
Walter Cazzola Walter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di Informazioni Informazioni Lucido 1 Lucido 1 Laboratorio Laboratorio di di Informatica Informatica Corso Corso di di Laurea Laurea Interfacolt Interfacolt à à in in Biotecnologie Biotecnologie Lezione Lezione 4: 4: Ricerca Ricerca di di Informazioni Informazioni ( ( Internet e Internet e altre altre Risorse Risorse ) )

Transcript of Laboratorio di Informaticahomes.di.unimi.it/~cazzola/didattica/lab_di_informatica_x... ·...

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido 1Lucido 1

LaboratorioLaboratorio didi InformaticaInformaticaCorsoCorso didi LaureaLaurea InterfacoltInterfacoltàà in in BiotecnologieBiotecnologie

LezioneLezione 4: 4: RicercaRicerca didi InformazioniInformazioni((Internet e Internet e altrealtre RisorseRisorse))

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido 2Lucido 2

IntroduzioneIntroduzione

Informatica e biotecnologie.Informatica e biotecnologie.Strumenti per la:Strumenti per la:–– raccolta e organizzazione delle informazioni;raccolta e organizzazione delle informazioni;–– ricerca delle informazioni;ricerca delle informazioni;–– visualizzazione;visualizzazione;–– analisi; eanalisi; e–– modellizzazionemodellizzazione quantitativa.quantitativa.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido 3Lucido 3

IntroduzioneIntroduzione

Le informazioni sono disponibili sia in database Le informazioni sono disponibili sia in database specifici sia sul Web.specifici sia sul Web.

Il World Il World WideWide Web o semplicemente il Web Web o semplicemente il Web non non èèuna base di datiuna base di dati::–– èè un insieme di computer contenenti informazioni in un insieme di computer contenenti informazioni in formato ipertestuale accessibili mediante il protocollo di formato ipertestuale accessibili mediante il protocollo di comunicazione comunicazione HTTP HTTP ((HyperTextHyperText TransfTransf. . ProtocolProtocol););

–– i Web server sono i computer che mettono a disposii Web server sono i computer che mettono a disposi--zione le informazioni;zione le informazioni;

–– i i clientclient sono i computer che tramite browser accedono sono i computer che tramite browser accedono alle informazioni.alle informazioni.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido 4Lucido 4

IntroduzioneIntroduzioneFormato ipertestuale.Formato ipertestuale.

In un documento sono presenti collegamenti ad altre In un documento sono presenti collegamenti ad altre parti del documento stesso o di altri documentiparti del documento stesso o di altri documenti–– documento può essere un testo, undocumento può essere un testo, un’’immagine, un file immagine, un file

audio o video.audio o video.

Linguaggio HTML (Linguaggio HTML (HypertextHypertext MarkupMarkup LanguageLanguage).).

I documenti non devono trovarsi necessariamente I documenti non devono trovarsi necessariamente sullo stesso computer:sullo stesso computer:–– URL: URL: UniformUniform ResourceResource LocatorLocator..

NavigazioneNavigazione–– lettura non sequenziale seguendo i collegamenti.lettura non sequenziale seguendo i collegamenti.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido 5Lucido 5

IntroduzioneIntroduzioneMolti DBMS sono accessibili mediante browser:Molti DBMS sono accessibili mediante browser:

–– ll’’interfaccia interfaccia èè come quella del Web ma lcome quella del Web ma l’’organizzazione organizzazione interna interna èè quella del DBMS.quella del DBMS.

Molti siti Web sono organizzati in modo dinamico e si Molti siti Web sono organizzati in modo dinamico e si appoggiano su DBMS:appoggiano su DBMS:–– pipiùù facile lfacile l’’aggiornamento;aggiornamento;–– pipiùù facile la gestione;facile la gestione;–– ll’’informazione informazione èè visibile solo su richiesta.visibile solo su richiesta.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido 6Lucido 6

Ricerca sul WebRicerca sul WebLa ricerca delle informazioni disponibili sul Web vieLa ricerca delle informazioni disponibili sul Web vie--

ne svolta mediante:ne svolta mediante:

–– directory o cataloghi accessibili da Portali:directory o cataloghi accessibili da Portali:–– (elenchi ragionati di siti);(elenchi ragionati di siti);–– www.yahoo.comwww.yahoo.com, , www.looksmart.comwww.looksmart.com, , www.lycos.comwww.lycos.com..

–– motori di ricercamotori di ricerca–– www.google.comwww.google.com, , www.altavista.comwww.altavista.com, , www.excite.comwww.excite.com, ,

www.arianna.itwww.arianna.it..

–– motori di motori di clusteringclustering–– www.vivisimo.comwww.vivisimo.com

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 77

Portali WEBPortali WEBSono cataloghi ragionati di siti; hanno lSono cataloghi ragionati di siti; hanno l’’aspetto di aspetto di

una rivista da sfogliare e permettono di:una rivista da sfogliare e permettono di:–– cercare informazioni generali nella pagina principale;cercare informazioni generali nella pagina principale;–– usare le varie directory fino a trovare lusare le varie directory fino a trovare l’’argomento desiargomento desi--

derato;derato;–– usare parole chiave nella ricerca per sondare automatiusare parole chiave nella ricerca per sondare automati--

camente le sottodirectory del portale;camente le sottodirectory del portale;–– Spesso offrono anche un servizio di posta elettronica.Spesso offrono anche un servizio di posta elettronica.

Portali comuni:Portali comuni:–– www.yahoo.comwww.yahoo.com, www.netscape.com, www.lycos.com, www.netscape.com, www.lycos.com

Portali specializzati trattano argomenti specifici:Portali specializzati trattano argomenti specifici:–– Finanza, sport, informazione;Finanza, sport, informazione;–– Anche il sito Anche il sito www.unimi.itwww.unimi.it può essere visto come un porpuò essere visto come un por--

tale.tale.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 88

www.yahoo.comwww.yahoo.com

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 99

Il Sito dellIl Sito dell’’UniversitUniversitàà

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1010

Motori di RicercaMotori di RicercaUn motore di ricerca permette di cercare nella rete Un motore di ricerca permette di cercare nella rete

specifici documenti tramite uso di parole chiave;specifici documenti tramite uso di parole chiave;

Il motore di ricerca periodicamente guarda i docuIl motore di ricerca periodicamente guarda i docu--menti sulla rete e li indicizza in base a delle paromenti sulla rete e li indicizza in base a delle paro--le chiave.le chiave.

LL’’utente specifica delle parole chiave, e in risposta utente specifica delle parole chiave, e in risposta il motore di ricerca gli fornisce una lista di il motore di ricerca gli fornisce una lista di linklink ai ai documenti contenenti quella parola chiave.documenti contenenti quella parola chiave.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1111

Motori di Ricerca: EsempiMotori di Ricerca: Esempi

I motori di ricerca piI motori di ricerca piùù famosi:famosi:–– http://www.google.com/http://www.google.com/–– http://www.altavista.com/http://www.altavista.com/–– http://www.yahoo.com/http://www.yahoo.com/–– http://www.excite.com/http://www.excite.com/–– http://www.lycos.it/http://www.lycos.it/–– http://www.virgilio.it/http://www.virgilio.it/–– http://http://arianna.iol.itarianna.iol.it//

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1212

Motori di Ricerca: StrategieMotori di Ricerca: StrategieCompilazione di Compilazione di digestdigest: :

–– si valuta la rilevanza della pagina rispetto a una tabella di si valuta la rilevanza della pagina rispetto a una tabella di contenuticontenuti--chiave basata sui pichiave basata sui piùù frequentemente cercati;frequentemente cercati;

eses.: www.yahoo.com.: www.yahoo.com–– affidabile ma inevitabilmente poco dinamico.affidabile ma inevitabilmente poco dinamico.

Indicizzazione: Indicizzazione: –– le pagine vengono regolarmente copiate su dischi del le pagine vengono regolarmente copiate su dischi del

server;server;–– la stringa passata dallla stringa passata dall’’utente viene cercata utente viene cercata esaustivamenesaustivamen--

tete ((stringstring matchingmatching););–– pipiùù dinamico e completo;dinamico e completo;–– scarsa capacitscarsa capacitàà di valutare la rilevanza della pagina rispetdi valutare la rilevanza della pagina rispet--

to al concetto cercato, es. numero di occorrenze?to al concetto cercato, es. numero di occorrenze?

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1313

Motori di Ricerca: OperatoriMotori di Ricerca: Operatori

Restringere il campo: Operatori LogiciRestringere il campo: Operatori Logici–– ANDAND: : RestringeRestringe ilil campo campo didi ricercaricerca. Ad . Ad eses. . ““Freud AND Freud AND

SvevoSvevo””, , entrambientrambi i termini i termini presentipresenti ma non ma non necessarimentenecessarimente insiemeinsieme..

–– OROR: : EstendeEstende ilil campo campo didi ricercaricerca. . RacchiudereRacchiudere i termini i termini unitiuniti dada OR OR tratra (). Es. (). Es. ““Freud OR Freud OR SvevoSvevo””..

–– AND NOTAND NOT: : RestringeRestringe ilil campo campo didi ricercaricerca. Non . Non èèriconosciutoriconosciuto dada tuttitutti i i motorimotori. Ad . Ad eses. . ““Freud AND NOT Freud AND NOT SvevoSvevo””. Per . Per escludereescludere pipiùù didi un un terminetermine, , premetterglipremettergliOR e OR e racchiuderloracchiuderlo tratra ().().

–– NEARNEAR: simile ad AND, : simile ad AND, peròperò i due termini i due termini sisi devonodevonotrovaretrovare entroentro un un certocerto numeronumero didi parole parole didi distanzadistanzal'unol'uno dall'altrodall'altro. Es. . Es. ““Freud NEAR Freud NEAR SvevoSvevo””..

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1414

Motori di Ricerca (Segue)Motori di Ricerca (Segue)

–– Operatori SpecialiOperatori Speciali–– “”“”: : RacchiudereRacchiudere unauna frasefrase o o unun’’espressioneespressione tratra “”“”. .

Es. Es. ““Freud e Freud e SvevoSvevo”” ilil testotesto dovrdovràà apparireapparire identicoidentico..

–– ++: : RestringeRestringe ilil campo campo didi ricercaricerca ““+Freud ++Freud +SvevoSvevo”” enen--trambitrambi in termini in termini presentipresenti ma non ma non necessarimentenecessarimente insieinsie--me.me.

–– --:: Restringe il campo di ricerca. Es. Restringe il campo di ricerca. Es. ““+Freud +Freud ––SvevoSvevo””va premesso ai termini la cui occorrenza vogliamo va premesso ai termini la cui occorrenza vogliamo escludere.escludere.

–– **: : TroncamentoTroncamento* (* (raroraro: AltaVista, : AltaVista, NorthernLightNorthernLight e e qualchequalche directory). Es. directory). Es. ““SvevSvev**”” accettaaccetta tuttetutte le le termitermi--nazioninazioni..

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1515

Ricerca sul WEB: EsempiRicerca sul WEB: EsempiRicerca di Ricerca di ““laboratorio di Informaticalaboratorio di Informatica””–– Cercando laboratorio e/o informaticaCercando laboratorio e/o informatica

–– 11’’729729’’615 615 urlurl con con altavistaaltavista–– 11’’100100’’000 000 urlurl con con googlegoogle

–– Cercando laboratorio + informaticaCercando laboratorio + informatica–– 195195’’214 url con 214 url con altavistaaltavista–– 288288’’000 000 urlurl con con googlegoogle

–– Cercando Cercando ““laboratorio di informaticalaboratorio di informatica””–– 2020’’763 763 urlurl con con altavistaaltavista–– 1919’’200 200 urlurl con con googlegoogle

–– Cercando Cercando ““laboratorio di informaticalaboratorio di informatica”” + biotecnologie+ biotecnologie–– 7 7 urlurl con con altavistaaltavista–– 806 url con google806 url con google

–– Cercando Cercando ““laboratorio di informaticalaboratorio di informatica”” + + ““UniversitUniversitàà di di MilanoMilano”” + biotecnologie+ biotecnologie

–– 0 url con 0 url con altavistaaltavista–– 76 76 urlurl con con googlegoogle

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1616

Ricerca sul WebRicerca sul WebCriteri di valutazione dei motori di ricerca.Criteri di valutazione dei motori di ricerca.–– metodo di costruzione della base di dati del motore metodo di costruzione della base di dati del motore

e metodo di indicizzazione dei datie metodo di indicizzazione dei dati–– libero invio di URL;libero invio di URL;–– indicizzazione del testo completo o del solo URL e descriindicizzazione del testo completo o del solo URL e descri--

zione sommaria del testo;zione sommaria del testo;–– strategia di classificazione dei risultati (ranking);strategia di classificazione dei risultati (ranking);–– esame automatico e comprensivo del web;esame automatico e comprensivo del web;–– frequenza dellfrequenza dell’’aggiornamento della base di dati.aggiornamento della base di dati.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1717

Ricerca sul WebRicerca sul Web

GoogleGoogle–– pipiùù di 1 miliardo di URLdi 1 miliardo di URL–– pagine classificate in base al numero di pagine classificate in base al numero di linklink da altre da altre

paginepagine–– linklink da pagine a loro volta molto collegate sono valutati di da pagine a loro volta molto collegate sono valutati di

pipiùù che da pagine isolateche da pagine isolate

–– caching delle paginecaching delle pagine–– pagine accessibili anche in caso di server pagine accessibili anche in caso di server offlineoffline

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1818

Ricerca sul WebRicerca sul Web

VivisimoVivisimo (motore di (motore di clusteringclustering))–– just in time just in time conceptualconceptual hierarchicalhierarchical documentdocument cluclu--

steringstering–– organizza i risultati combinati delle ricerche di un insieme organizza i risultati combinati delle ricerche di un insieme

di motori in gruppi;di motori in gruppi;–– la creazione dei gruppi si basa su definizioni semplici e la creazione dei gruppi si basa su definizioni semplici e

““sensatesensate””;;–– i gruppi sono popolati sulla base delli gruppi sono popolati sulla base dell’’analisi dei titoli, URL e analisi dei titoli, URL e

brevi descrizioni dei documenti;brevi descrizioni dei documenti;–– i componenti di un gruppo sono classificati gerarchicai componenti di un gruppo sono classificati gerarchica--

mente;mente;

–– semplifica lsemplifica l’’analisi dei risultati di una ricerca.analisi dei risultati di una ricerca.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 1919

Es.Es. Ricerca con Ricerca con VivisimoVivisimo

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2020

Ricerca sul WebRicerca sul WebApplicazioni scientifiche:Applicazioni scientifiche:–– Ricerca di letteratura scientificaRicerca di letteratura scientifica

–– distinguere tra letteratura distinguere tra letteratura ““refereedrefereed”” e libera pubblie libera pubbli--cazione (vedi prossima slide)cazione (vedi prossima slide)

–– Ricerca di datiRicerca di dati–– definizione uniforme (nomenclatura)definizione uniforme (nomenclatura)–– formato dei datiformato dei dati

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2121

Letteratura ScientificaLetteratura ScientificaImportanza della letteratura Importanza della letteratura refereedrefereed–– Le riviste scientifiche sottopongono ogni articolo allLe riviste scientifiche sottopongono ogni articolo all’’approappro--

vazione di esperti del settore;vazione di esperti del settore;–– Ognuno Ognuno èè libero di scrivere una pagina di un sito WEB;libero di scrivere una pagina di un sito WEB;–– Esistono molte pagine WEB di universitEsistono molte pagine WEB di universitàà o enti di ricerca conteo enti di ricerca conte--

nenti corsi onnenti corsi on--line e materiale didatticoline e materiale didattico–– Controllare lControllare l’’attendibilitattendibilitàà delldell’’autore e lautore e l’’aggiornamento della paginaaggiornamento della pagina

Esistono data base specifici per la letteratura:Esistono data base specifici per la letteratura:–– Data base diversi a seconda del campo: Data base diversi a seconda del campo:

–– biologia, medicina, inforbiologia, medicina, infor--matica, ... matica, ... –– Spesso offrono servizi solo per gli abbonatiSpesso offrono servizi solo per gli abbonati

–– Sono accessibili dal personale delle universitSono accessibili dal personale delle universitàà e degli istituti sciene degli istituti scien--tifici.tifici.

–– Gli articoli scientifici vengono citati secondo una prassi consoGli articoli scientifici vengono citati secondo una prassi consolili--data:data:

–– Nome degli autori, anno di pubblicazione, titolo dellNome degli autori, anno di pubblicazione, titolo dell’’articolo, Rivista articolo, Rivista di pubblicazione, numero del volume, pagine.di pubblicazione, numero del volume, pagine.

–– Queste voci guidano successivamente la ricerca sul data base.Queste voci guidano successivamente la ricerca sul data base.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2222

Banche Dati di UNIMIBanche Dati di UNIMI

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2323

Ricerca sul WebRicerca sul Web–– NationalNational Center Center forfor BiotechnologyBiotechnology InformationInformation

–– centro di raccolta di risorse di vario tipo;centro di raccolta di risorse di vario tipo;–– http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov;;–– accesso a accesso a NationalNational LibraryLibrary of Medicine e of Medicine e NationalNational

InstitutesInstitutes of of HealthHealth;;–– accesso a vari database attraverso accesso a vari database attraverso EntrezEntrez::

PubMedPubMed (data base della letteratura (data base della letteratura biomedicabiomedica))GenBankGenBank……

–– accesso a software per riconoscimento, trascrizione e alaccesso a software per riconoscimento, trascrizione e al--lineamento di sequenze lineamento di sequenze

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2424

NCBINCBI

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2525

Database BiologiciDatabase Biologici

Problema nella costruzione di DB biologici.Problema nella costruzione di DB biologici.

DB sui geniDB sui geni–– assenza di nomenclatura standard dei geni:assenza di nomenclatura standard dei geni:

–– nomi basati sugli effetti indotti;nomi basati sugli effetti indotti;–– nomi basati sulle funzioni svolte;nomi basati sulle funzioni svolte;–– nomi basati sulle proteine associate o codificate dal gene.nomi basati sulle proteine associate o codificate dal gene.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2626

Database BiologiciDatabase Biologici

–– LL’’assenza di nomenclatura assenza di nomenclatura èè legata alla molteplicitlegata alla molteplicitààdi criteri di classificazione dei geni:di criteri di classificazione dei geni:–– organismo sorgente;organismo sorgente;–– locazione cromosomica;locazione cromosomica;–– locazione della sequenza di attivazione e identitlocazione della sequenza di attivazione e identitàà delle prodelle pro--

teine che lo regolano;teine che lo regolano;–– quando si attivano nello sviluppo di un organismo;quando si attivano nello sviluppo di un organismo;–– in quali tessuti si esprimono.in quali tessuti si esprimono.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2727

Database BiologiciDatabase Biologici

–– Criteri di classificazione dei geniCriteri di classificazione dei geni–– il prodotto (proteine, enzima, RNA funzionale);il prodotto (proteine, enzima, RNA funzionale);–– identitidentitàà della sequenza metabolica cui il loro prodotto della sequenza metabolica cui il loro prodotto

appartiene;appartiene;–– substrato che il prodotto o il gene modifica;substrato che il prodotto o il gene modifica;–– struttura della proteina prodotta.struttura della proteina prodotta.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2828

Database BiologiciDatabase Biologici

–– Altri problemi nella costruzione di DBAltri problemi nella costruzione di DB–– annotazioneannotazione

associazione di una quantitassociazione di una quantitàà sufficiente di informazione per sufficiente di informazione per identificare univocamente e completamente un geneidentificare univocamente e completamente un gene

–– correlazionecorrelazionecollegare correttamente lcollegare correttamente l’’informazione, la sequenza del gene e informazione, la sequenza del gene e il numero di serieil numero di serie

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 2929

Database BiologiciDatabase Biologici

–– Vista la difficoltVista la difficoltàà nella nomenclatura dei geni, si nella nomenclatura dei geni, si possono scegliere altri soggetti:possono scegliere altri soggetti:–– strutture macromolecolaristrutture macromolecolari

numero di serie della struttura come indice in un DB relazionalenumero di serie della struttura come indice in un DB relazionalecon i collegamenti a tutte le informazioni relative al genecon i collegamenti a tutte le informazioni relative al genesi evita il problema della nomenclatura che però cossi evita il problema della nomenclatura che però cosìì non viene non viene risoltorisolto

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3030

Database BiologiciDatabase Biologici–– ModalitModalitàà di rappresentazione delle strutture macromolecolaridi rappresentazione delle strutture macromolecolari

–– sequenze di caratterisequenze di caratterinucleotidinucleotidi del DNA o del RNA;del DNA o del RNA;aminoacidi delle proteine;aminoacidi delle proteine;problema dellproblema dell’’annotazione e della verifica dei dati associati di annotazione e della verifica dei dati associati di dimensione sempre crescente (cromosomi e intero dimensione sempre crescente (cromosomi e intero genomagenoma))

–– strutture 3Dstrutture 3Dcoordinate cartesiane degli atomi nelle molecole;coordinate cartesiane degli atomi nelle molecole;problema di associarvi lproblema di associarvi l’’annotazione.annotazione.

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3131

Database BiologiciDatabase Biologici

–– Struttura molecolare 3DStruttura molecolare 3D–– ProteinProtein Data Data BankBank, PDB , PDB -- 19711971

struttura cristallografica delle proteinestruttura cristallografica delle proteine15 insiemi di coordinate nel 1973, 2143 nel 1994, 14000 15 insiemi di coordinate nel 1973, 2143 nel 1994, 14000 nel 2001, nel 2001, ……formato: Macromolecular formato: Macromolecular CrystallographicCrystallographic InformationInformation File File ((mmCIFmmCIF), FASTA, PDB ), FASTA, PDB legacylegacy formatformatproblema: ridondanza dei datiproblema: ridondanza dei dati

molte strutture per alcune proteine, serve discriminare molte strutture per alcune proteine, serve discriminare tra proteine diverse con sequenze comuni non superiori al tra proteine diverse con sequenze comuni non superiori al 95%95%

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3232

The The ProteinProtein Data Data BankBank

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3333

Database BiologiciDatabase Biologici–– Sequenze Sequenze

–– Gene Gene SequenceSequence Data Data BankBank (1979) e ora (1979) e ora GenBankGenBankBanca del Banca del genomagenoma delldell’’ NIH accessibile da NIH accessibile da ncbincbi;;78000 sequenze di DNA in GenBank nel 1992, ora le dimensioni 78000 sequenze di DNA in GenBank nel 1992, ora le dimensioni raddoppiano ogni 6raddoppiano ogni 6--8 mesi.8 mesi.

–– formato ANS.1 standard per dati di sequenze per DB formato ANS.1 standard per dati di sequenze per DB relazionali (relazionali (AbstractAbstract SyntaxSyntax NotationNotation One)One)

–– HumaneHumane GenomeGenome ProjectProject–– genomigenomi completi o parziali di 900 speciecompleti o parziali di 900 specie

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3434

Database BiologiciDatabase Biologici

–– Esempio di record di Esempio di record di GenBankGenBank–– Dalla ricerca in Dalla ricerca in NucleotideNucleotide

parola chiave parola chiave ““citruscitrus sinensissinensis””collegamentocollegamento

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3535

Database BiologiciDatabase Biologici

–– Esempio di file di Esempio di file di GenBankGenBank–– Formato ASN.1Formato ASN.1

–– adatto allo scambio via adatto allo scambio via swsw collegamentocollegamento

–– Formato XMLFormato XML–– per manipolazione e presentazione sul Webper manipolazione e presentazione sul Web–– collegamentocollegamento

–– Formato FASTAFormato FASTA–– semplice sequenza semplice sequenza collegamentocollegamento

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3636

Database BiologiciDatabase Biologici

–– Formato dei dati in NCBIFormato dei dati in NCBI–– FASTAFASTA

leggibile da vari programmi per lleggibile da vari programmi per l’’analisi delle sequenzeanalisi delle sequenzecontiene poche informazioni collegatecontiene poche informazioni collegate

–– GenBankGenBankformato formato legacylegacy in disusoin disuso

–– ASN.1 (Abstract ASN.1 (Abstract SyntaxSyntax Notation.OneNotation.One))specifica generica dei dati, usata in tutti i DB di NCBIspecifica generica dei dati, usata in tutti i DB di NCBIlibreria di funzioni per sviluppare libreria di funzioni per sviluppare swsw ad hocad hoc

–– Sia per dati risultato di ricerca sia per inserimento Sia per dati risultato di ricerca sia per inserimento datidati

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3737

Database BiologiciDatabase Biologici–– Esempio di record di Esempio di record di ProteinProtein Data Data BankBank–– Dalla ricerca con parola chiave 121PDalla ricerca con parola chiave 121P

–– Proteina oncogena Proteina oncogena

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3838

Database BiologiciDatabase Biologici

–– Formato dei dati di PDBFormato dei dati di PDB–– formato formato legacylegacy di PDBdi PDB

usato comunemente da usato comunemente da swsw per analisi per analisi collegamcollegam

–– mmCIFmmCIFsolo il solo il swsw nuovo per lnuovo per l’’analisi delle strutture al momento usa analisi delle strutture al momento usa questo formato questo formato collegamentocollegamento

–– FASTAFASTASi perdono informazioni strutturali Si perdono informazioni strutturali collegamentocollegamento

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 3939

Database BiologiciDatabase Biologici

–– Letteratura: Letteratura: PubMedPubMed–– www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.gov

–– Seq.Seq. di acidi nucleici: di acidi nucleici: GenBankGenBank, SRS, SRS–– www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.gov, srs.ebi.ac.uk, srs.ebi.ac.uk

–– Seq. del genoma: GenBank, SwissSeq. del genoma: GenBank, Swiss--ProtProt–– www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.gov, www.expasy.ch/, www.expasy.ch/sprotsprot

–– Struttura delle proteine: Struttura delle proteine: ProteinProtein Data Data BankBank–– www.rcsb.org/pdbwww.rcsb.org/pdb

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 4040

Database BiologiciDatabase Biologici

–– Spettroscopia di massa di proteine e Spettroscopia di massa di proteine e peptidipeptidi: : ProwlProwl–– prowl.rockefeller.eduprowl.rockefeller.edu

–– Pathway biochimici: PathDB, WIT, KEGGPathway biochimici: PathDB, WIT, KEGG–– www.genome.ad.jp/keggwww.genome.ad.jp/kegg

–– Microarray: Gene Espression Microarray: Gene Espression LinksLinks–– industry.ebi.ac.uk/~alan/MicroArrayindustry.ebi.ac.uk/~alan/MicroArray

–– Risorse Web: EBI Biocatalog, IUBio Risorse Web: EBI Biocatalog, IUBio ArchiveArchive–– www.ebi.ac.uk/biocat/www.ebi.ac.uk/biocat/, , –– iubio.bio.indiana.eduiubio.bio.indiana.edu

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 4141

ToolTool per Analisi dei Datiper Analisi dei Dati

–– Software ben collaudatoSoftware ben collaudato–– PDBPDB–– TIGRTIGR–– NCBINCBI

–– Risultati piRisultati piùù recentirecenti–– BioinformaticsBioinformatics, , NucleicNucleic AcidsAcids ResearchResearch, Journal of , Journal of

MolecularMolecular BiologyBiology, , ProteinProtein ScienceScience

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 4242

InstituteInstitute forfor genomicgenomicresearchresearch

Walter CazzolaWalter Cazzola Lab. di Informatica: Ricerca di Lab. di Informatica: Ricerca di InformazioniInformazioni

Lucido Lucido 4343

CaveatCaveat

–– Attenzione agli errori nelle sequenzeAttenzione agli errori nelle sequenze–– in media 1 errore in ogni sequenza in in media 1 errore in ogni sequenza in GenBankGenBank

–– Non usare codice disponibile su siti Web di cui non si Non usare codice disponibile su siti Web di cui non si conosca il funzionamento per verificare ipotesi scienticonosca il funzionamento per verificare ipotesi scienti--fichefiche

–– Verificare il livello di aggiornamento del Verificare il livello di aggiornamento del swsw disponibiledisponibile