Hochschule Darmstadt - Fb Informatik

Drucken| Layout| Design| Schriftgröße English|
Modulbeschreibung
Modul:Text- und Web-Mining

Text and Web Mining

Belegnummern:41.5042 [PVL 41.5043]
Sprache:deutsch
Zuordnung:Dualer Master 2013 - Katalog AS: Anwendungs- und systemorientierte Module
Master 2013 - Katalog AS: Anwendungs- und systemorientierte Module
MN Data Science 2016 - Katalog DS-I: Data Science - Informatik
Lehrform:V+P = Vorlesung+Praktikum
SWS:2+2
CP:6
Prüfung:Klausur (Klausur)
Anmeldung zur Prüfung:explizit und unabhängig von der Belegung
PVL (z.B. Praktikum):unbenotet
Häufigkeit des Angebots:jedes Wintersemester (zuletzt im SS 2019)
Erforderliche Vorkenntnisse:Grundsätzliche Statistik- und Programmierkenntnisse sind notwendig. Von Vorteil bzw. zur Ergänzung empfohlen, jedoch nicht zwingend notwendig:
  • Data Mining
  • Natural Language Processing
  • Semantic Web
Lernziele:Die Studierenden werden:
  • Einen Überblick darüber haben, welche Arten von unstrukturierten bzw. semistrukturierten Text-&Webdaten es gibt und wie man diese beschaffen kann.
  • Text- und Webdaten aus gängigen Quellen extrahieren und für weitere Analysen verknüpfen und aufbereiten können.
  • Charakteristiken bestimmter Text-&Webdatensäten herausarbeiten und erklären können.
  • Methoden der Statistik und des maschinellen Lernens auf verknüpften und aufbereiteten Text-&Webdaten anwenden können, um deskriptive oder prädiktive Modelle zu erzeugen.
Den Nutzen der Text-&Webdaten in Hinsicht auf ein bestimmtes Analyseziel hin qualitativ und quantitativ beurteilen können.
Lehrinhalte:
  • Das WWW als Datenquelle: Grundkonzepte von Web Content Mining, Web Usage Mining, Web Structure Mining
  • XML Technologien und Anfragesprachen, Linked Data & Semantic Web
  • Crawling Suchstrategien; Spider&Robot Implementierung
  • Generieren von Website Wrappern
  • Link Analysis & Community Detection
  • Textzerlegung
  • Information Retrieval - Vektorraummodell, Word Embeddings, N-Gram Modelle, Ähnlichkeitsmaße, Gütemaße, Relevanz-Ranking
  • Analytics und Data Mining auf Text-&Webdaten (Vocabularies, Sparsity, Online Leaning, Deep Learning)
  • Topicmodelle
Literatur:Zum Zeitpunkt der Lehrveranstaltung aktuelle wissenschaftliche Publikationen, sowie:

  • Liu, B. (2011), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Second Edition , Springer .
  • Heyer, G.; Quasthoff, U. & Wittig, T. (2006), Text Mining: Wissensrohstoff Text. Konzepte, Algorithmen, Ergebnisse , W3l .
  • Manning, C. & Schütze, H. (1999), Foundations of statistical natural language processing , MIT Press .
  • Manning, C.; Raghavan, P. & Schütze, H. (2008), Introduction to Information Retrieval , Cambridge University Press
  • Mitchell, R. (2015), Web Scraping with Python: Collecting Data from the Modern Web, O'Reilly
  • Munzert, S.; Rubba, C.; Meißner, P. & Nyhuis, D. (2015), Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining, Wiley
  • Russell, M. A. (2018), Mining the Social Web, O'Reilly
  • Christen, P. (2012), Data Matching, Springer
  • Harrison, P. & Honnibal, M. (2018), Deep Learning with Text: A Modern Approach to Natural Language Processing with Python and Keras, O'Reilly
Arbeitsformen / Hilfsmittel:Vorlesung ggf. mit Workshop-Charakter, Praktikum, Team-Arbeit, Folien, Whiteboard, Live-Coding
Modulverantwortung:Markus Döhring
Freigabe ab:WS 2018/2019
Angebot im SS 19:LN: Döhring
Angebot im WS 19/20:Döhring / Schnitzer
Fachliche Kompetenzen:
  • Formale, algorithmische, mathematische Kompetenzen: mittel
  • Analyse-, Design- und Realisierungskompetenzen: hoch
  • Technologische Kompetenzen: mittel (Entwicklungsprozess, Strategischer Einsatz von Werkzeugen, Gütebeurteilung von Modellen und Ergebnissen)
  • Befähigung zum Wissenschaftlichen Arbeiten: schwach
Überfachliche Kompetenzen:
  • Projektbezogene Kompetenzen: mittel
  • Fachübergreifende Sachkompetenzen: Technische und naturwissenschaftliche Grundkompetenz
  • Sozial- und Selbstkompetenzen: Analysekompetenz, Urteilskompetenz, Entscheidungskompetenz

[Fachbereich Informatik] [Hochschule Darmstadt]
© 2008 - 2019 FBI OBS Team. Alle Rechte vorbehalten.