Corso di Mining di Dati Web (MDW)
Anno accademico 2006 - 2007
Docenti: Raffaele Perego, Claudio Lucchese, Fabrizio Silvestri, Diego Puppin, Antonio Panciatici,
Ranieri Baraglia
Orario:
- Mercoledì ore 9 - 11. Aula L1.
- Venerdì ore 16 - 18. Aula B.
Novità
- Seminari di verifica:
- Mercoledi' 13 dicembre:
- Simon Bognolo: The UBI crawler and its use of consistent hashing
- Alessandro Barilari: Internet search engine freshness by web server help.[PPT]
- Lorenzo Marcon: Web Spam Taxonomy [PDF],[ODP]
- Venerdi' 15 dicembre:
- Romeo Zitarosa: Web Community mining and web log mining [PPT].
- Giorgio Zoppi: Web communities and thier identification [PPT].
- Andreea Bizdideanu: Focused crawling [PPT].
- Mauro Madeddu: Combating web spam with TrustRank [PPT], [PDF].
- Lista di articoli per i seminari individuali d'esame. E' anche possibile, previo accordo con il docente, scegliere un articolo non compreso nella lista. Gran parte degli articoli suggeriti e' reperibile tramite internet. Per eventuali problemi, contattare il docente.
- E' disponibile il calendario delle lezioni
Lezioni
Prima Lezione. Introduzione, richiami di tecniche di Data Mining [PPT].
Seconda Lezione. Il grafo del web: misurazioni, statistiche, caratteristiche e modelli. [PPT].
Terza Lezione. I componenti di un Motore di Ricerca Web: il problema del Crawling. [PPT].
Quarta Lezione. Link Analysis: PageRank, Hits, Salsa. [PDF]
articoli: [PDF]
Quinta Lezione. Clustering di Documenti Web - Le Metriche di Similarità. [PPT].
Sesta Lezione. Web Mining a Yahoo, lucidi di Broder e Baeza Yates. [PDF Broder], [PDF Baeza Yates].
Settima Lezione. Tecniche anti spam per il ranking di documenti Web. [PPT].
Ottava Lezione. Clustering di Documenti Web. [PPT]
Nona Lezione. Clustering di Documenti Web. CoClustering per Collection Selection [PPT], [PDF], [slides infoscale 2006, PDF]
Decima Lezione. Tecniche di ottimizzazione per la costruzione di un indice globale [PDF], Classificazione di Documenti Web - Fondamenti di Classificazione - Naive Bayes - K-Nearest Neighbors. [PPT].
Undicesima e dodicesima Lezione. Web Usage Mining. [PPT].
Tredicesima e quattordicesima Lezione. Web Advertising. [PPT].
Quindicesima Lezione. Query log Analysis: the caching case study. [PPT].
Sedicesima Lezione. Recommendation systems: Suggest. [PPT].
Prerequisiti
Il corso non necessita di prerequisiti specifici se non le conoscenze
acquisite nei corsi base di algoritmica e calcolo delle probabilità.
Obiettivi
Il World Wide Web (WWW) ha cambiato sia il modo di concepire le informazioni
sia il modo di renderle disponibili e gestirle. Come accedere alle
informazioni non è più l'argomento maggiormente importante:
quello che conta è cercare di scoprire, all'interno dei dati web,
informazioni non note, non banali e rilevanti. Il Web mining è
quindi recentemente diventato una delle aree più "calde"
nell'informatica a causa delle sue dirette applicazioni in settori
strategici quali: e-commerce, recupero e filtro dell'informazioni e
sistemi informativi Web (Web Recommender System e Web Search Engine). Il
corso si propone l'obiettivo di fornire agli studenti gli strumenti e
le conoscenze necessarie al fine di gestire correttamente dati provenienti
dal WWW utilizzando tecniche di data mining.
Descrizione
Gli argomenti discussi saranno suddivisi in tre parti. Nella prima sarà
mostrata e discussa la struttura di un motore di ricerca. La seconda
verterà sull'applicazione delle tecniche fondamentali di knowledge
management a dati testuali ed ipertestuali. La terza e ultima affronterà
le tecniche che solitamente sono applicate per analizzare dati Web.
Programma
- Introduzione: Data Mining, Knowledge Discovery e il Web
- Il processo di KDD e la metodologia
- Richiamo delle tecniche più conosciute:
- Regole Associative.
- Clustering.
- Classificazione e predizione.
- Il Web.
- Il grafo del Web.
- Motori di Ricerca Web
- Componenti fondamentali di un motore di ricerca.
- Il Crawling:
- Aspetti di base.
- Anatomia di un Crawler scalabile e aspetti avanzati.
- Indicizzazione di dati Web:
- Contesto.
- Anchor text.
- Tecniche di memorizzazione efficiente.
- Risposta alle query
- Query booleane.
- Ranking: PageRank, HITS, SALSA
- Apprendimento Automatico da Collezioni di Testi
- Similarità tra documenti web:
- Metriche di similarità.
- Selezione di Features.
- Clustering di testi (Unsupervised Learning):
- Metodi Bottom-up e Metodi Top-Down.
- Approcci probabilistici al clustering.
- Classificazione (Supervised Learning):
- Classificazione di testi: metodi e valutazioni.
- Classificazione di ipertesti.
- Applicazioni ai dati Web
- Analisi di Reti Sociali:
- Scienze sociali e bibliometria.
- Modelli avanzati del grafo del Web.
- Topic distillation.
- Resource Discovery:
- Selezione di pagine di alta qualità.
- Utilizzo della topologia del web per effettuare
ricerche per similarità.
- Focused Crawling.
- Scoperta di Comunità Web.
- Web Usage Mining
- Analisi di dati storici (i log).
- Tecniche di estrazione di conoscenza dai dati di log:
- Regole associative.
- Pattern Sequenziali.
- Clustering del grafo di uso.
- Scoperta di comunità virtuali tramite l'utilizzo di
dati contenuti nei log.
- Un caso di studio: Suggest.
- Argomenti avanzati
- Information Extraction.
- Topic Tracking e rilevazione di nuovi argomenti.
- Text Summarization.
- Question Answering.
Bibliografia
- Mining the Web: discovering knowledge from hypertext data.
S. Chakrabarti. Morgan Kaufmann, 2003. (Consigliato)
- Managing Gigabytes. I.H. Witten e A. Moffat e T.C. Bell.
Morgan Kaufmann, 1999.
- Modern Information Retrieval. R. Baeza-Yates e B. Ribeiro-Neto.
Addison Wesley, 1999.
Modalità di esame
L'esame consisterà nella consegna di un progetto per la cui
realizzazione saranno necessarie le conoscenze acquisite durante il corso.
Il progetto sarà discusso durante la prova orale che sarà
integrata dalla presentazione di un seminario su argomenti assegnati dal docente.