Universität Wien
Achtung! Das Lehrangebot ist noch nicht vollständig und wird bis Semesterbeginn laufend ergänzt.

340212 VU Speech Technologies (2024S)

6.00 ECTS (3.00 SWS), SPL 34 - Translationswissenschaft
Prüfungsimmanente Lehrveranstaltung

An/Abmeldung

Hinweis: Ihr Anmeldezeitpunkt innerhalb der Frist hat keine Auswirkungen auf die Platzvergabe (kein "first come, first served").

Details

max. 40 Teilnehmer*innen
Sprache: Englisch

Lehrende

Termine (iCal) - nächster Termin ist mit N markiert

  • Donnerstag 14.03. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 21.03. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 11.04. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 18.04. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 25.04. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 02.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 16.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 23.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 06.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 13.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
  • Donnerstag 20.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG

Information

Ziele, Inhalte und Methode der Lehrveranstaltung

Ziele:

Diese Lehrveranstaltung stellt grundlegende Techniken und Methoden der Sprachtechnologie mit einem besonderen Augenmerk auf Sprachsynthese und Spracherkennung vor. Es werden auch linguistische Grundlagen der Sprachproduktion und Grundlagen der Signalverarbeitung vorgestellt. Aktuelle Forschungsbereiche sowie der aktuelle Stand der Forschung werden beleuchtet und diskutiert. Es werden sowohl klassische Methoden, die nach wie vor in hybriden Architekturen relevant sind, als auch die neuesten auf neuralen Netzwerken basierenden Methoden präsentiert.

Inhalt:

14.3.:
Lecture 1
1. Introduction
2. Phonetics

11.4.:
Lecture 2
3. Signal Processing and classical vocoder
4. Minimum Edit Distance (MED) and Dynamic Time Warping (DTW)

18.4.:
Lecture 3
5. Hidden-Markov-models (HMM)
6. N-gram language models

25.4.:
Exercise 1

2.5.:
Lecture 4
7. Vector semantics and embeddings
8. Feed-forward Neural Networks (NN)

16.5.:
Lecture 5
9. Convolutional NN, RNN and LSTM
10. Transformer

23.5.:
Lecture 6
11. Speech synthesis: DNN based vocoders
12. Speech synthesis: DNN based acoustic models

6.6.:
Lecture 7
13. Speech recognition: DNN based acoustic models
14. Speech recognition: DNN based language models

13.6.:
Exercise 2

20.6.:
Programming exercise

Methodik:

Theoretische Vorstellung der Grundlagen des Bereichs der Sprachtechnologie.
Erarbeitung und Umsetzung einer praktischen Anwendung zu einer aktuellen Aufgabenstellung im Bereich der Lehrveranstaltung.
Selbstständiges Lösen von Übungsaufgaben

Art der Leistungskontrolle und erlaubte Hilfsmittel

Übung 1 (25.4.): Schriftlicher Test mit Fragen aus den Vorlesungen 1-3 (keine Hilfsmittel erlaubt).

Übung 2 (13.6.): Schriftlicher Test mit Fragen aus den Vorlesungen 4-7 (keine Hilfsmittel erlaubt).

Programmierübung (Handout am 25.4., Abgabe am 20.6.): Entwicklung eines Akzenterkennungssystems, das den gesprochenen Akzent aus einem Sprachsignal erkennen kann, in einer Gruppe von 3-4 StudentInnen und Präsentation der Ergebnisse.

Mindestanforderungen und Beurteilungsmaßstab

Sie müssen 50% der möglichen Punkte erreichen für eine positive Note.

Die Note hängt von den Ergebnissen der beiden Tests (je 30%) und der Programmieraufgabe ab (40%).

Sie müssen anwesend sein, maximal 2 verpasste Vorlesungseinheiten sind möglich .

Prüfungsstoff

Übung 1 (25.4.): Schriftlicher Test mit Fragen aus den Vorlesungen 1-3 (keine HIlfsmittel erlaubt).

Übung 2 (13.6.): Schriftlicher Test mit Fragen aus den Vorlesungen 4-7 (keine HIlfsmittel erlaubt).

Literatur

D. Jurafsky, J. H. Martin, Speech and Language Processing, https://web.stanford.edu/~jurafsky/slp3/
I. Goodfellow, Y. Bengio, A. Courville, Deep learning. MIT press, 2016.
B. Pfister, T. Kaufmann, Sprachverarbeitung, Springer, 2008.
J. H. McClellan, R. W. Schafer, M. A. Yoder, DSP first: A multimedia approach, Prentice Hall, 1998.
Duda, Richard O. and Hart, Peter E. and Stork, David G., Pattern Classification, 2000.

Zuordnung im Vorlesungsverzeichnis

Letzte Änderung: Do 25.04.2024 14:46