Die Vorlesung wird durch praktische Übungen begleitet. Die
eingereichten Lösungen werden in den Übungszeiten präsentiert und diskutiert. Die Übungen enthalten Theorie- und kleine Programmieraufgaben, die mit industriell genutzter Open-Source-Software (Apache-Lucene, UIMA, ...) umgesetzt werden sollen. Die Übungsaufgaben sowie die Projektarbeit können in Gruppen angefertigt werden.
Viele digital gespeicherte Informationen sind Textdokumente. In der Veranstaltung Information Retrieval (IR) werden im ersten Teil Grundlagen zur Suche in großen Dokumentsammlungen gelegt. Im zweiten Teil werden Methoden zur Suche in Webseiten unter Berücksichtigung der Link-Struktur behandelt. Im dritten Teil werden IR Anwendungen diskutiert. Besonders relevant für Bioinformatiker ist die Auswertung der Medline Sammlung, die Abstracts aller Veröffentlichungen im Bereich Lebenswissenschaften enthält.
1) Grundlagen IR
Dokumentvorverarbeitung
Boolsches Modell
Vektorraum Modell
Evaluierung mittels Precision/Recall
Indexstrukturen: Invertierte Listen + Optimierung
Erweiterung: Latent Semantic Indexing
2) Suche in Webseiten
Nutzung der Links
PageRank (Google)
HITS
Finden von Duplikaten
3.) Anwendungen
Anwenderschnittstellen & Visualisierung
Multimedia-Suche (Bilder, Musik, Video)
Bioinformatik: Medline