{Interessanti novità dalla banca dati terminologica europea IATE (InterActive Terminology for Europe) che da alcune settimane ha messo a disposizione una versione scaricabile della sua vasta raccolta terminologica, fatta di oltre 8 milioni di termini nelle 24 lingue europee.
In questo articolo vedremo insieme come trasformare il materiale fornito da IATE in un semplice glossario bilingue (formato Excel o TXT “tab-delimited”) da importare successivamente nel nostro CAT preferito. Questo ci permetterà di accedere alla terminologia IATE anche senza una connessione internet.
Il file, che si può scaricare da questa pagina, è in formato TBX (TermBase eXchange) e pesa oltre 2GB. Come spiegato sul sito, si tratta di una versione ridotta della banca dati, nel senso che non contiene i commenti né altri campi che sono presenti nella versione online (la terminologia è invece presente integralmente). Nella tabella che segue una panoramica del materiale che si trova nel file:
Language |
Number of terms |
Bulgarian |
29288 |
Czech |
26202 |
Danish |
568998 |
German |
982209 |
Greek |
500253 |
English |
1285247 |
Spanish |
576790 |
Estonian |
32472 |
Finnish |
306922 |
French |
1244893 |
Irish |
57490 |
Croatian |
8257 |
Hungarian |
47420 |
Italian |
659906 |
Lithuanian |
50313 |
Latvian |
28844 |
Maltese |
35284 |
Dutch |
644824 |
Polish |
54299 |
Portuguese |
506583 |
Romanian |
34820 |
Slovak |
33844 |
Slovenian |
41800 |
Swedish |
290879 |
Latin |
61383 |
Multilinugal |
4892 |
All |
|
Sebbene TermBase eXchange sia uno dei formati che vengono letti ad es. da MultiTerm Convert:
il file è talmente pesante che dopo pochi minuti su un PC con 16GB di RAM l’operazione si interrompe per un problema di memoria:
Meglio così, perché pensandoci bene cosa ce ne facciamo di un glossario in 24 lingue? Il glossario completo potrebbe al massimo essere interessante per un’agenzia, alla quale consiglio di leggere questo articolo in cui Paul Filkin propone una soluzione (abbastanza macchinosa e non gratuita) per convertire l’intera banca dati IATE in un glossario MultiTerm. Ma per noi traduttori professionisti nella maggior parte dei casi è sufficiente creare un semplice glossario bilingue nella nostra combinazione di lavoro (o al massimo 2 o 3 glossari se lavoriamo con più lingue).
Per farlo dobbiamo ricorrere a Xbench di ApSIC, un software abbastanza noto nel nostro ambiente, apprezzato soprattutto per le sue potenti funzioni di assicurazione della qualità da usare in combinazione con quei CAT che non le hanno. Per gestire file di grandi dimensioni come quello fornito da IATE dobbiamo scaricare da questa pagina la versione a 64-bit di Xbench 3.0 – Build 1243 (con la versione a 32-bit non funziona).
Una volta scaricato e installato il programma, dobbiamo specificare il nostro indirizzo e-mail per registrarci (la versione trial funziona per 30 giorni) e quindi creare un nuovo progetto:
Nella finestra Project Properties clicchiamo sul pulsante Add…, selezioniamo il formato del glossario (TBX/MARTIF) e clicchiamo su Next:
Nella scheda successiva File List clicchiamo sul pulsante Add File…, selezioniamo il file TBX che abbiamo scaricato dal sito IATE e clicchiamo su Next:
Nella scheda successiva Properties spuntiamo la casella davanti all’opzione Remove duplicates e clicchiamo su Next:
Il passaggio successivo è un po’ più lungo, perché dopo aver cliccato su Next Xbench carica l’elenco delle lingue. Essendo il file molto pesante, questa operazione può durare anche diversi minuti:
Una volta che Xbench ha caricato l’elenco delle lingue nella scheda Language Settings, togliamo il segno di spunta dall’opzione Include segment even if source or target text is missing (perché nel nostro glossario vogliamo importare solo i termini di una lingua per i quali esiste anche un corrispondente nell’altra lingua), selezioniamo la lingua Source, la lingua Target e clicchiamo sul pulsante OK:
A questo punto la finestra Add Files to Project si chiude e nella finestra Project Properties vediamo che è stato caricato il glossario IATE:
Cliccando sul pulsante OK in alto a destra viene avviata l’estrazione della terminologia nella coppia di lingue da noi scelta. Anche la finestra Project Properties si chiude e Xbench inizia a lavorare. Cliccando su See Details è possibile seguire in tempo reale quanti termini vengono estratti da Xbench:
Una volta terminata l’estrazione, la barra verde in alto scompare e in basso viene visualizzato il numero totale di termini estratti:
Bene, ora manca solo più un passaggio, cioè l’esportazione dei termini estratti in un file Excel che ci permetterà poi di caricare la terminologia nel nostro CAT preferito. Per farlo, dobbiamo selezionare dal menu Tools la voce Export Items…:
Nella finestra Export Items, mettiamo il segno di spunta davanti alla voce All items in a glossary e quindi selezioniamo il glossario appena estratto dal sottostante elenco (cliccare sulla freccia rivolta in basso). Poi nell’area Output selezioniamo il formato XLSX, diamo un nome al file (cliccare sul pulsante con i tre puntini) e spuntiamo la casella Add a header in first row. Controlliamo ancora una volta che tutte le impostazioni siano corrette e clicchiamo sul pulsante OK:
Xbench procede così all’esportazione dei dati nel file Excel:
Nel mio esempio, quando ho aperto il file Excel ho visto che erano stati esportati 441.354 termini. I 27.246 termini mancanti sono probabilmente le ripetizioni che Xbench ha eliminato automaticamente durante l’esportazione:
Oltre alle due colonne delle lingue, nel file Excel ne ho trovate altre 35, la maggior parte delle quali vuote e le rimanenti di scarso interesse per me. Prima di importare i dati in MultiTerm, ho eliminato tutte le colonne e tenuto solo quelle delle due lingue. Quindi ho convertito il file Excel in un file XLM con MultiTerm Convert e poi importato il file XML in MultiTerm. Durante questo ultimo passaggio, MultiTerm ha importato solo circa 330 mila termini al primo giro. Allora ho creato un nuovo file con i 111.000 termini che aveva saltato e di questi ne sono avanzati altri 4000 circa che ho importato al terzo giro, per un totale di 441.350:
Per convertire il file Excel in un file TXT con termini separati da tabulatore (ad es. per WordFast o DejaVu), dal menu File di Excel cliccare su Save As…, selezionare il formato Text (Tab delimited) (*.txt) e cliccare sul pulsante Save:
Questo sistema con Xbench mi sembra – al momento – la soluzione più veloce e interessante, soprattutto perché permette di creare glossari bilingui in qualsiasi combinazione linguistica immaginabile.
Buon divertimento!
Stefano