Knowledge Discovery and Data Mining (SS 2005)
| Aktuelles | Skript |
Übungen |
Links |
KDD-Wiki |
| Veranstaltung |
Tag |
Zeit |
Gebäude |
Raum |
|---|---|---|---|---|
| Vorlesung | Dienstag | 11.00 - 13.00 | OMZ R | U 013 |
| Vorlesung | Donnerstag | 9.00 - 11.00 | OMZ R | U 013 |
| Übung: | Dienstag | 14:00 - 16:00 | INF 348 | 013 |
| Bereich: 4st. Vorlesung 2st. Übung 9 ECTS Punkte Voraussetzung: keine Hörerkreis:
|
Kontakt: Matthias Schubert@informatik.uni-heidelberg.de Sprechstunde: Donnerstags, 11:00-12:00 Uhr |
Inhalt
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen
eine manuelle Analyse der angefallenen Information zunehmend schwierig,
wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung
biologischer Meßverfahren (Gen-Sequenzierung, Micro-Array
Verfahren ...)
oder von Transaktionsdaten großer Telekomunikations- oder
Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme
computergestützter Verfahren nicht denkbar.
Mit der Lösung dieser Probleme beschäftigt sich daher das
vergleichsweise junge Forschungsgebiet "Knowledge Discovery in
Databases (KDD)".
Es verbindet dabei Aspekte der Statistik, dem maschinellen Lernen,
sowie der Datenbanksysteme und behandelt Methoden zur
(semi-)automatischen Extraktion von gültigem,
neuem und potentiell nützlichem Wissen aus großen
Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff
Data Mining bezieht sich dabei auf den grundlegenden
Schritt im KDD-Prozeß, in dem die eigentliche Analyse der Daten
durchgeführt wird.
Die Vorlesung gibt einen Überblick über die Grundlagen der
wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden
Teilgebiete eingegangen:
Klassifikation, Clustering, Assozationsregeln und Outlier Detection.
Desweiteren werden spezielle Anwendungen wie KDD in Texten,
biologischen Daten und Zeitreihen behandelt.
Zur Vertiefung der Vorlesung wird eine 2-stündige Übung
angeboten, in der die vorgestellten Verfahren weiter erläutert
und an praktischen Beispielen veranschaulicht werden.
Weiterführende Literatur für
Interessierte:
| Blatt |
Thema |
Besprechung
in Übung |
Files |
|---|---|---|---|
| 1 |
Metriken,
Atributtypen und Aufgaben des Data Mining |
19.04.2005 |
Blatt
1 [.pdf] |
| 2 |
Partitionierende Clustering
Algorithmen |
26.04.2005 |
Ballt 2 [.pdf] |
| 3 |
K-Medoid Clustering, DBSCAN,
Single Link |
03.05.2005 |
Blatt 3 [.pdf] |
| 4 |
OPTICS und Outlier Detection |
10.05.2005 |
Blatt 4 [.pdf] |
| 5 |
Klassifikation: Bewertung |
17.05.2005 |
Blatt5 [.pdf] |
| 6 |
Naive Bayes und
KNN-Klassifikation |
24.05.2005 |
Blatt6 [.pdf] |
| 7 |
Bayes Klassifikatoren und
Information Gain |
30.05.2005 |
Blatt7 [.pdf] |
| 8 |
Entscheidungsbäume und SVM |
07.06.2005 |
Blatt8 [.pdf] |
| 9 |
Regression und Assoziationsregeln |
14.06.2005 |
Blatt9 [.pdf] |
| 10 |
Leistungssteigerung |
21.06.2005 |
Blatt10 [.pdf] |
| 11 |
inkrementelles Clustering und
Crawling |
28.06.2005 |
Blatt11 [.pdf] |
| 12 |
Fragen
zur Prüfung |
05.06.2005 |