Corso di Mining di Dati Web (MDW)

Anno accademico 2006 - 2007

Docenti: Raffaele Perego, Claudio Lucchese, Fabrizio Silvestri, Diego Puppin, Antonio Panciatici, Ranieri Baraglia

Orario:

Mercoledì ore 9 - 11. Aula L1.
Venerdì ore 16 - 18. Aula B.

Novità

Seminari di verifica:
- Mercoledi' 13 dicembre:
  - Simon Bognolo: The UBI crawler and its use of consistent hashing
  - Alessandro Barilari: Internet search engine freshness by web server help.[PPT]
  - Lorenzo Marcon: Web Spam Taxonomy [PDF],[ODP]
- Venerdi' 15 dicembre:
  - Romeo Zitarosa: Web Community mining and web log mining [PPT].
  - Giorgio Zoppi: Web communities and thier identification [PPT].
  - Andreea Bizdideanu: Focused crawling [PPT].
  - Mauro Madeddu: Combating web spam with TrustRank [PPT], [PDF].
- Lista di articoli per i seminari individuali d'esame. E' anche possibile, previo accordo con il docente, scegliere un articolo non compreso nella lista. Gran parte degli articoli suggeriti e' reperibile tramite internet. Per eventuali problemi, contattare il docente.
- E' disponibile il calendario delle lezioni
Lezioni
Prima Lezione. Introduzione, richiami di tecniche di Data Mining [PPT].
Seconda Lezione. Il grafo del web: misurazioni, statistiche, caratteristiche e modelli. [PPT].
Terza Lezione. I componenti di un Motore di Ricerca Web: il problema del Crawling. [PPT].
Quarta Lezione. Link Analysis: PageRank, Hits, Salsa. [PDF] articoli: [PDF]
Quinta Lezione. Clustering di Documenti Web - Le Metriche di Similarità. [PPT].
Sesta Lezione. Web Mining a Yahoo, lucidi di Broder e Baeza Yates. [PDF Broder], [PDF Baeza Yates].
Settima Lezione. Tecniche anti spam per il ranking di documenti Web. [PPT].
Ottava Lezione. Clustering di Documenti Web. [PPT]
Nona Lezione. Clustering di Documenti Web. CoClustering per Collection Selection [PPT], [PDF], [slides infoscale 2006, PDF]
Decima Lezione. Tecniche di ottimizzazione per la costruzione di un indice globale [PDF], Classificazione di Documenti Web - Fondamenti di Classificazione - Naive Bayes - K-Nearest Neighbors. [PPT].
Undicesima e dodicesima Lezione. Web Usage Mining. [PPT].
Tredicesima e quattordicesima Lezione. Web Advertising. [PPT].
Quindicesima Lezione. Query log Analysis: the caching case study. [PPT].
Sedicesima Lezione. Recommendation systems: Suggest. [PPT].

Prerequisiti
Il corso non necessita di prerequisiti specifici se non le conoscenze acquisite nei corsi base di algoritmica e calcolo delle probabilità.
Obiettivi
Il World Wide Web (WWW) ha cambiato sia il modo di concepire le informazioni sia il modo di renderle disponibili e gestirle. Come accedere alle informazioni non è più l'argomento maggiormente importante: quello che conta è cercare di scoprire, all'interno dei dati web, informazioni non note, non banali e rilevanti. Il Web mining è quindi recentemente diventato una delle aree più "calde" nell'informatica a causa delle sue dirette applicazioni in settori strategici quali: e-commerce, recupero e filtro dell'informazioni e sistemi informativi Web (Web Recommender System e Web Search Engine). Il corso si propone l'obiettivo di fornire agli studenti gli strumenti e le conoscenze necessarie al fine di gestire correttamente dati provenienti dal WWW utilizzando tecniche di data mining.
Descrizione
Gli argomenti discussi saranno suddivisi in tre parti. Nella prima sarà mostrata e discussa la struttura di un motore di ricerca. La seconda verterà sull'applicazione delle tecniche fondamentali di knowledge management a dati testuali ed ipertestuali. La terza e ultima affronterà le tecniche che solitamente sono applicate per analizzare dati Web.
Programma
- Introduzione: Data Mining, Knowledge Discovery e il Web
  - Il processo di KDD e la metodologia
  - Richiamo delle tecniche più conosciute:
    - Regole Associative.
    - Clustering.
    - Classificazione e predizione.
  - Il Web.
  - Il grafo del Web.
- Motori di Ricerca Web
  - Componenti fondamentali di un motore di ricerca.
  - Il Crawling:
  - Indicizzazione di dati Web:
  - Risposta alle query
- Apprendimento Automatico da Collezioni di Testi
  - Similarità tra documenti web:
  - Clustering di testi (Unsupervised Learning):
  - Classificazione (Supervised Learning):
- Applicazioni ai dati Web
  - Analisi di Reti Sociali:
  - Resource Discovery:
- Web Usage Mining
  - Analisi di dati storici (i log).
  - Tecniche di estrazione di conoscenza dai dati di log:
  - Scoperta di comunità virtuali tramite l'utilizzo di dati contenuti nei log.
  - Un caso di studio: Suggest.
- Argomenti avanzati
  - Information Extraction.
  - Topic Tracking e rilevazione di nuovi argomenti.
  - Text Summarization.
  - Question Answering.
Bibliografia
- Mining the Web: discovering knowledge from hypertext data. S. Chakrabarti. Morgan Kaufmann, 2003. (Consigliato)
- Managing Gigabytes. I.H. Witten e A. Moffat e T.C. Bell. Morgan Kaufmann, 1999.
- Modern Information Retrieval. R. Baeza-Yates e B. Ribeiro-Neto. Addison Wesley, 1999.
Modalità di esame
L'esame consisterà nella consegna di un progetto per la cui realizzazione saranno necessarie le conoscenze acquisite durante il corso. Il progetto sarà discusso durante la prova orale che sarà integrata dalla presentazione di un seminario su argomenti assegnati dal docente.

Corso di Mining di Dati Web (MDW)

Anno accademico 2006 - 2007

Docenti: Raffaele Perego, Claudio Lucchese, Fabrizio Silvestri, Diego Puppin, Antonio Panciatici, Ranieri Baraglia

Orario:

Novità

Lezioni

Prerequisiti

Obiettivi

Descrizione

Programma

Bibliografia

Modalità di esame