Knowledge Discovery and Data Mining (SS 2005)

Dr. Matthias Schubert


Aktuelles Skript
Übungen
Links
KDD-Wiki

Veranstaltung
Tag
Zeit
Gebäude
Raum
Vorlesung Dienstag 11.00 - 13.00 OMZ R U 013
Vorlesung Donnerstag   9.00 - 11.00 OMZ R U 013
Übung: Dienstag 14:00 - 16:00 INF 348 013

Bereich:
4st. Vorlesung
2st. Übung
9 ECTS Punkte

Voraussetzung:   keine

Hörerkreis:
  • Studierende der Informatik (Bachelor)
  • Hörer anderer Fachrichtungen
    mit Nebenfach Informatik
Kontakt:
Matthias Schubert@informatik.uni-heidelberg.de

Sprechstunde:
Donnerstags, 11:00-12:00 Uhr



Aktuelles

Inhalt
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Meßverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekomunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar. Mit der Lösung dieser Probleme beschäftigt sich daher das vergleichsweise junge Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, dem maschinellen Lernen, sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozeß, in dem die eigentliche Analyse der Daten durchgeführt wird. Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Clustering, Assozationsregeln und Outlier Detection. Desweiteren werden spezielle Anwendungen wie KDD in Texten, biologischen Daten und Zeitreihen behandelt. Zur Vertiefung der Vorlesung wird eine 2-stündige Übung angeboten, in der die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.


Literatur:

Weiterführende Literatur für Interessierte:


Skript:
  1. Einführtung [.pdf]
  2. Clustering  Teil 1[.pdf] Teil2 [.pdf]
  3. Klassifikation  [.pdf]
  4. Assoziationsregeln [.pdf]
  5. DB-Techniken zur Leistungssteigerung [.pdf]
  6. Text und Web- Mining [.pdf]
  7. Hochdimensionale Daten [.pdf]



Übungen:

(immer Dienstags von 14:00-16:00 in IND 348 R 013)
Blatt
Thema
Besprechung in Übung
Files
1
Metriken, Atributtypen und Aufgaben des Data Mining
19.04.2005
Blatt 1 [.pdf]
2
Partitionierende Clustering Algorithmen
26.04.2005
Ballt 2 [.pdf]
3
K-Medoid Clustering, DBSCAN, Single Link
03.05.2005
Blatt 3 [.pdf]
4
OPTICS und Outlier Detection
10.05.2005
Blatt 4 [.pdf]
5
Klassifikation: Bewertung
17.05.2005
Blatt5 [.pdf]
6
Naive Bayes und KNN-Klassifikation
24.05.2005
Blatt6 [.pdf]
7
Bayes Klassifikatoren und Information Gain
30.05.2005
Blatt7 [.pdf]
 8
Entscheidungsbäume und SVM
07.06.2005
Blatt8 [.pdf]
9
Regression und Assoziationsregeln
14.06.2005
Blatt9 [.pdf]
10
Leistungssteigerung
21.06.2005
Blatt10 [.pdf]
11
inkrementelles Clustering und Crawling
28.06.2005
Blatt11 [.pdf]
12
Fragen zur Prüfung
05.06.2005




Interresante Links: