Text Engineering Software Laboratory

Tesla
Basisdaten
Entwickler	Universität zu Köln
Betriebssystem	plattformunabhängig
Programmiersprache	Java
Kategorie	Natural language processing
Lizenz	Eclipse Public License
	tesla.spinfo.uni-koeln.de

Tesla (Text Engineering Software Laboratory, deutsch Labor zur Verarbeitung von Texten) ist eine Software, mit der reproduzierbare Experimente auf textuellen Daten durchgeführt werden können. Als textuelle Daten gelten dabei alle Arten von Daten, die sich durch eine Sequenz diskreter Einheiten darstellen lassen.

Tesla wird seit 2005 am Institut für Linguistik der Universität zu Köln (Abteilung Sprachliche Informationsverarbeitung) entwickelt und stellt eine Software-Umgebung für Wissenschaftler, die mit Texten arbeiten, zur Verfügung.

Der konzeptuelle Schwerpunkt des Frameworks liegt dabei auf experimenteller Daten- und Verfahrensanalyse; so werden Wissenschaftler dabei unterstützt,

unterschiedliche Arten von Texten (bspw. natürlichsprachliche Texte oder DNA-Transkriptionen) als Grundlage ihrer Experimente auszuwählen,

etablierte ebenso wie neu entwickelte Verfahren auf diesen Texten anzuwenden und

die Experimente in einer Form zu dokumentieren, mit der sie nachvollzogen und wiederholt werden können.

Tesla ist als Komponentensystem in Java implementiert, das auf Basis einer Client-Server-Architektur realisiert wurde. Über den Eclipse-basierten Client kann der Nutzer Texte verwalten und Experimente entwerfen. Experimente bestehen aus dem zu analysierenden Ausgangsmaterial (einzelne Texte oder Textsammlungen) und Komponenten, die bestimmte Aufgaben der Textprozessierung (bspw. Tokenisierung, Part-of-speech-Tagging oder Sequenzalignment) übernehmen. Die Komponenten sind miteinander kombinierbar, wenn ihre Schnittstellen aufeinander abgestimmt sind. Schnittstellen der Komponenten sind die von ihnen erzeugten Ergebnisse, die als Annotationen mit den Rohdaten (Texte) verknüpft werden. Im Unterschied zu vergleichbaren Systemen wie UIMA sind die Ein- und Ausgabeschnittstellen von Tesla-Komponenten kaum restringiert, wodurch eine fein granulierte Komponenten-Kapselung ermöglicht wird, und es bspw. auch möglich ist, komplexe Datentypen (wie Graphen oder hochdimensionale Vektoren) als Annotationen zu verwenden.

Literatur

Jürgen Hermes, Stephan Schwiebert: „Classification of text processing components: The Tesla Role System.“ In: Fink, Lausen, Seidel und Ultsch: „Advances in Data Analysis, Data Handling and Business Intelligence“, Springer Verlag 2010 Abstract
Jürgen Hermes: „Textprozessierung: Design und Applikation.“ Dissertationsschrift, Universität zu Köln. PDF-Dokument
Stephan Schwiebert: „Tesla. Ein virtuelles Labor für experimentelle Computer- und Korpuslinguistik.“ Dissertationsschrift, Universität zu Köln. PDF-Dokument

Weblinks

Offizielle Website

Tesla

Basisdaten
Entwickler	Universität zu Köln
Betriebssystem	plattformunabhängig
Programmiersprache	Java
Kategorie	Natural language processing
Lizenz	Eclipse Public License
tesla.spinfo.uni-koeln.de

Text Engineering Software Laboratory

Literatur

Weblinks

Premium lidmaatschap

€4.95

Maak snel en eenvoudig een Premium Account

Sla uw favoriete pagina's op

Luister naar elke pagina in Audio

Kleur nachtmodus