Vi estas ĉi tie: Hejmo / 2008 / Camacho kaj Zamenhof kunloĝas en Tekstaro de Esperanto

Camacho kaj Zamenhof kunloĝas en Tekstaro de Esperanto

de Redakcio Laste modifita: 2008-03-09 18:04
La Tekstaro de Esperanto ĵus ekhavis novan adreson, kaj novan plibonigitan serĉilon. Ne plu necesas membriĝi por uzi la retejon, kiu enhavas pli ol kvar milionojn da vortoj da teksto el diversaj fontoj por esplorado de vortouzo kaj gramatiko de Esperanto. Estas multe da klasikaj Zamenhofaj tekstoj, sed ankaŭ artikoloj el Monato, la tuta Nova Testamento kaj originala beletro el diversaj epokoj. Inter la beletraĵoj rimarkeblas ekzemple La Majstro kaj Martinelli de Jorge Camacho, Ombro sur interna pejzaĝo de Spomenka Štimec kaj La Ŝtona Urbo de Anna Löwenstein. Sed kiel kaj kial la tekstoj eniris la tekstaron, kaj precize por kio tio utilas? Ni demandis al la ĉefa kompilinto.

Libera Folio: Kio estas la tekstaro de Esperanto, kion ĝi enhavas kaj kiom?

Bertilo Wennergren: La Tekstaro estas ilo por lingvoscienca esplorado de Esperanto. Ĝi konsistas el sepdeko da tekstoj diversspecaj kaj diverslongaj. Entute la Tekstaro ampleksas nun ĉirkaŭ 4.300.000 vortojn. La tekstoj estas strukture unuecigitaj kaj markitaj per la XML-a marklingvo TEI5. En la TTT-ejo de la Tekstaro estas oportuna serĉilo, per kiu esploristoj povas fari diversspecajn sufiĉe rafinitajn priserĉojn de la materialo.

Por kio ĝi utilas kaj kiel ĝi estis kreita?

La utilo dependas de ĉiu unuopa esploristo. Sed oni povas ekzemple studi vortoftecojn, literoftecojn, reallingvajn uzojn de vortoj kaj morfemoj, oftecojn de diversaj gramatikaj konstruoj k.t.p. k.t.p. La tekstoj, kiujn nun enhavas la Tekstaro, estas tekstoj, kiuj jam ie haveblis en ia elektronika formo, kiam mi ekkompilis la Tekstaron. La plejparto estas kolektita el Interretaj fontoj. Sed la materialon mi multe prilaboris por ke la tekstoj estu unuece priserĉeblaj. En la tekstoelekto mi tamen ege emfazis klasikajn Zamenhofajn tekstojn. Neniel temas pri ĉiuj Zamenhofaj tekstoj, sed tamen pri tre granda parto de ili.

Kiuj okupiĝas pri la tekstaro kaj kiel oni financas la aferon?

Esence okupiĝas pri la Tekstaro nur mi, sed kompreneble multaj homoj donis konsilojn, atentigis pri eraroj kaj problemoj, kaj proponis plibonigojn. Aparte menciindas kompreneble la konsila komitato, kiun la fondajo ESF ("Esperantic Studies Foundation") kunmetis por helpi min. Dum du periodoj financis mian laboron pri la Tekstaro ESF, al kiu sekve apartenas la Tekstaro. La nova domajno "tekstaro.com" nun loĝas en la Ikso-servilo, kiu apartenas al ESF, kaj en kiu troviĝas interalie ankaŭ "lernu!".

Ĉu vi povas mencii iujn konkretajn uzojn, kiuj jam estis efektivigitaj?

La Tekstaro estis tre utila al la Akademio de Esperanto, kiam ni laboris pri la Naŭa Oficiala Aldono. Ofte ĝi helpis nin konstati, kiel kaj kiom tiu aŭ alia radiko efektive estas uzata, kaj kun kiaj efektivaj signifoj. Menciindas ankaŭ kelkaj esploroj de Ken Miner, kiujn oni povas ĝui en lia bonega Lingvistika Retejo. Tre ofte mi vidas en diversaj retaj diskutoj, ke oni esploris tiun aŭ alian uzon pere de la Tekstaro. Uzas ĝin ekzemple iuj el tiuj, kiuj redaktas la Retan Vortaron. Ĝenerale la uzantoj de la Tekstaro reagis tre pozitive, kvankam kompreneble la nuna enhavo estas iom malgranda por vere science uzebla tekstaro. Vere devus esti almenaŭ 10 milionoj da vortoj. Mi esperas, ke mi povos estonte plivastigi kaj prilabori la enhavon.

Vi ĵus anoncis, ke la retejo estas parte refarita. Por kio tio utilas?

La ŝanĝoj, kiujn mi ĵus faris, estis necesigitaj de pure teknikaj cirkonstancoj: La administranto de la servilo, en kiu la Tekstaro ĝis nun loĝis, plendis, ke iuj el miaj paĝoj kaj programoj okupas multe tro da rimedoj. Sendube kulpis precipe la serĉilo de la Tekstaro. Traserĉado de tia tekstamaso estas peza tasko, precipe ĉar mi ne estis sufiĉe lerta pri tiaj aferoj, kiam mi programis la antaŭan version. Por malhelpi, ke la administranto denove malŝaltu ĉiujn miajn paĝojn (tion li jam faris unu fojon), mi devis plibonigi kaj malpezigi la aferon. Mi do entreprenis reprogrami kaj reorganizi de nulo la tutan serĉilon. Tiu laboro estis iom pena, sed tre instrua, ĉar mi lernis multegon pri ĝusta kaj efika traktado de XML-aj tekstoj per la programlingvo Perlo. La nuna serĉilo estas ne nur pli efika, sed ankaŭ pli rapida. Tio, ke ankaŭ la tuta serĉa interfaco samtempe pliboniĝis, kaj ke la Tekstaro estis transigita al la plej ĝisdata versio de la marklingvo TEI, estis nuraj kromefikoj. La plej gravaj ŝanĝoj okazis en la servilo, do - por tiel diri - malantaŭ la kulisoj...

Ĉu estas planataj pliaj plibonigoj?

Mi jam preparis la serĉilon por ke eblu uzi la tradiciajn Zamenhofajn signetojn ("eĥ/o/ŝanĝ/o ĉiu/ĵaŭd/e") en serĉoj, kio ebligos pli trafe serĉi certajn morfemojn (distingante ekzemple "kontant/a/j/n" disde "kont/ant/a/j/n"). Tiu eblo estas nun tamen malŝaltita, kaj la uzantoj ne vidas ĝin, ĉar nur tre malgranda parto de la tekstoj efektive enhavas tiajn signetojn. Mi jam havas duone pretan programon, kiu kapablas aŭtomate enmeti signetojn kun surprize alta grado de ĝusteco. Fakte se mi uzas ĝin nun por enmeti signetojn en ĉiujn tekstojn, la tuja rezulto jam estas sufiĉe bone uzebla. Sed tamen estas iom tro da eraroj por scienca uzo, kaj tial mi bezonas unue trakorekti la rezulton de tiu aŭtomate kreita morfemdisigado. Eble mi petos ESF-on pri nova subteno por rapide fini tiun laboron, kiu sendube tre altigos la valoron de la Tekstaro.

Rilata enhavo
Tekstaro de Esperanto
arkivita en: