Inhaltsverzeichnis
Die Frage danach, was Termextraktion eigentlich bedeutet und wieso es so wichtig und hilfreich ist, sich damit auseinanderzusetzen, haben wir im letzten Blogartikel zur Termextraktion bereits beantwortet. Worüber wir noch nicht gesprochen haben: Wie komme ich meinem Ziel einer einheitlichen und nutzbringenden Terminologie näher? Welche Faktoren sind dabei zu berücksichtigen? Kurzum: Wie genau kann die Extraktion aussehen?
Manuell oder toolgestützt?
Nun kommen also die verschiedenen Extraktionsmethoden ins Spiel. Sie haben hier die Wahl zwischen einer manuellen und einer toolgestützten Vorgehensweise. Jede Methode hat natürlich ihre Vor- und Nachteile:
Vorteile | Nachteile | |
manuell |
|
|
toolgestützt |
|
|
Wir bei doctima haben einen Entscheidungsbaum entwickelt, um die Wahl der Extraktionsmethode zu erleichtern. Dabei berücksichtigen wir die Voraussetzungen und die Ziele unserer Kunden. Die wichtigsten Faktoren für die Methodenauswahl sind die Beschaffenheit und die Größe des Textkorpus, aus dem extrahiert wird. Ein Korpus kann aus verschiedenen Formaten bestehen, dabei kann es sich neben PDF beispielsweise auch um Excel-Listen oder FrameMaker-Dateien handeln.
Für die manuelle Methode sind Fach- und Sprachkenntnisse sowie eine intensive Auseinandersetzung mit dem Material unbedingt erforderlich, um relevante Termini erkennen und auswählen zu können. Es gibt allerdings Funktionen in Word und Excel, die eine – nicht allzu umfangreiche – Extraktion in einem gewissen Maß unterstützen. Unsere Einschätzung: Bei wenig Ausgangsmaterial von bis zu zehn Seiten empfiehlt sich eher ein manuelles Vorgehen.
Ist Ihr Korpus hingegen sehr umfangreich, raten wir eher zu einer toolgestützten Extraktion. Dabei wird nach einem (halb-)automatischen Verfahren eine komplette Termkandidatenliste ausgegeben. Mit den richtigen Tools kann diese Liste bearbeitet werden, sodass man beispielsweise wichtige Zusatzinformationen auswählen oder manuell weitere Termkandidaten ergänzen kann.
Die Entscheidung zwischen manueller und toolgestützter Extraktion ist also abhängig vom Umfang des Textkorpus, aber auch von den vorhandenen Formaten und der Anzahl der Sprachen im Ausgangsmaterial. Wichtig sind auch die gewünschten Sprachen im Extraktionsresultat. Haben Sie bereits eine Termdatenbank? Diese muss ggf. unbedingt in die Planungen einbezogen werden, sodass diese ergänzt und nicht ersetzt wird.
Tools: Linguistische oder statistische Extraktion?
Sie wollen automatisch extrahieren? Dann stehen Sie jetzt vor der nächsten Entscheidung: Welches Tool verwenden Sie?
Übersetzer arbeiten vermehrt mit statistischen Tools, wie z. B. SynchroTerm oder memoQ. Sie beruhen auf Häufigkeit, die in der Regel ein guter Indikator für die Relevanz einer Benennung ist – oft Genanntes ist meist wichtig für die Terminologiearbeit eines Projekts. Infolgedessen gilt: je umfangreicher der Korpus, desto besser die Ergebnisse. Die statistische Termextraktion erfolgt sprachunabhängig und kann damit auch zweisprachig sein.
Terminolog:innen und Technische Redakteur:innen hingegen nutzen überwiegend eher linguistische Tools. Bei doctima arbeiten wir sehr erfolgreich mit der Dienstleistung extraTerm unseres Partners Congree. Wenn Sie sich für Kombination SCHEMA ST4 und Congree interessieren, kann ich Ihnen unsere Webinaraufzeichnung „Automatisch statt manuell – Terminologieextraktion mit Congree in ST4“ empfehlen.
Webinaraufzeichnung „Automatisch statt manuell – Terminologieextraktion mit Congree in SCHEMA ST4“
Andere Tools sind beispielsweise Velingua oder Acrolinx. Dabei handelt es sich um intelligente Hybride, die Linguistik mit Statistik kombinieren. Solche Anwendungen analysieren in einem einsprachigen Korpus, welche Benennungen wegen ihrer Häufigkeit und aufgrund ihrer sprachlichen Form Termkandidaten sind. Die Verwendung linguistischer Termextraktionstools kann sich schon bei einem kleineren Korpus lohnen.
Bei der toolgestützten Extraktion bieten sich also eine Reihe von Möglichkeiten an, die durch verschiedene Zusatzfunktionen ergänzt werden. So lassen sich etwa Stoppwortlisten hinterlegen, mit denen alle Wörter von der Termextraktion ausgeschlossen werden können, die für die User nicht zur Terminologie gehören, wie z. B. Artikel und Konjunktionen. Eine weitere wichtige Anforderung bei der Toolauswahl ist die Möglichkeit, Termkandidaten bearbeiten und ergänzen zu können.
„Die eine“ Termextraktion gibt es nicht
Wie Sie sehen, passiert Terminologie nicht einfach so von selbst. Es handelt sich um sehr individuelle Prozesse, die stark von der Zielsetzung beeinflusst werden. Das genaue Vorgehen ist immer sehr situationsabhängig und jedes Projekt läuft unterschiedlich ab. Mit Sicherheit lässt sich nur sagen, dass es „die eine“ Termextraktionsmethode nicht gibt.
Die Zielsetzung und die Formate im Korpus, aber auch dessen Umfang und die Anzahl der Sprachen sind entscheidend für die Wahl der Extraktionsmethode. Natürlich muss bei der Entscheidung auch bedacht werden, wie hoch die Kosten für das Tool selbst sowie für die Einarbeitung, Bearbeitung und Nachbereitung sind. Möglicherweise kann es daher sinnvoll sein, einzelne Schritte oder auch größere Projekte an Experten auszulagern, die über die notwendigen Lizenzen und das entsprechende Know-how verfügen.
Im nächsten Artikel unserer Reihe zum Terminologie-Zyklus schauen wir uns die Termextraktion mit dem Congree Authoring Server genauer an.
Sie sind sich noch unsicher, ob eine manuelle Extraktion oder doch der Einsatz eines linguistischen oder statistischen Tools für Sie das Richtige ist? Wenden Sie sich mit Ihren Fragen gerne an uns!