Vi estas ĉi tie: Hejmo / Members / inĝ. A.P.M. Witkam / Esperanta parolrekono? Denove defio!

Esperanta parolrekono? Denove defio!

de inĝ. A.P.M. Witkam Laste modifita: 2011-07-26 20:06
Aŭtomata parolrekono ĝisnun pene progresis, ankaŭ ĉe Esperanto. Eĉ pli grave, ĵus aperis disertacio en kiu por homa-robota interparolado oni elektis novan artefaritan lingvon. Ĉar hejma komunikado kun zorgrobotoj grandskale alvenos, jen projektpropono por alfronti la defion.

Malgraŭ optimismaj prognozoj dum la 1980-aj jaroj, perkomputila rekono de homa parolado, do noti ĝin en akurata teksto, ĝisnun penige progresis. Nek por la angla nek por aliaj lingvoj jam ekzistas sistemo kapabla senerare rekoni kontinuan paroladon, t.e. normala parolado, sen paŭzoj inter la vortoj. Tio ankoraŭ ege malfacilas por eĉ la nuntempaj komputiloj. Imagu ke vi devus legi ĵurnalon sen spacetoj inter la vortoj! Cetere por la inversa procedo, parolsintezo surbaze de jam ekzistanta teksto, programaro evoluiĝis sufiĉe bone.Grava faktoro ĉe parolrekono etas ankaŭ la diferenco inter la voĉoj de unuopaj homoj.

Pro tio, aŭtomata rekono ankoraŭ necesigas antaŭan provfazon, dum kiu la uzanto ripete laŭtlegas plurajn provtekstojn, por lasi la maŝinon iom post iom kutimiĝi al lia aŭ ŝia voĉo. Kio jam hodiaŭ funkcias rekte estas ĉefe la rekono de izolite prononcataj ciferoj aŭ kelkaj specifaj vortoj. Menciinda ankaŭ estas sufiĉe bona apliko de parolrekono en certa medicina fako: rentgenistoj pli kaj pli faras liajn ĉiutagajn raportojn per diktado al maŝino - ekzemplo de uzo de faklingvo kun limigitaj terminaro kaj fraztipoj.

Robotoj por prizorgado alvenas - sed kiamaniere komuniki kun ili? Nuntempe konturiĝas nova tereno: zorgado por olduloj kaj handikapuloj, ne plu fare de homoj, sed pere de robotoj. En Japanio kaj Sud-Koreio, tiuj zorg-robotoj estas nun amase produktataj. Ili grandparte anstataŭigos la ĝisnunajn homajn prizorgant(in)ojn, ne nur polvosuĉante la plankon aŭ falĉante la herbon, sed helpante homon ellitiĝi, lavi kaj vesti sin, preparante por li manĝon, apogante lin ĉe sidiĝo kaj stariĝo, ktp. Do multaj aferoj de ĉiutaga bezono.

Sed kiel komunikos la kliento kun sia zorgroboto? Premi butonojn apenaŭ ŝajnas solvo por multeco de agoj, kun tiom da nuancoj. La hom-anstataŭiga rolo (kaj aspekto) de la venonta hejma roboto, tio faras paroli kun ĝi evidentan formon de komunikado. Ne nur la homo parolos, por peti la roboton pri io, ankaŭ la roboto povas reagi parole, por konfirmi, atentigi, aŭ demandi pri io. Teĥnologie, la granda defio ne estas la parolado (parolsintezo) de la roboto, sed ĝia kapablo kompreni la paroladon de la homo (parolrekono).

La lingvo per kiu homo kaj roboto interparolos povas esti japana, ĉina, angla, hispana, rusa, en malproksima estonteco eĉ iu ajn lingvo. En ĉi tiu artikolo ni speciale pritraktas la ŝancon por Esperanto. Parolado inter homoj kaj robotoj - per nova artefarita lingvo? La 1-an de junio 2011 doktoriĝis ĉe la Teĥnika Universitato de Eindhoven (en Nederlando) komputikisto Omar Mubin pri interesa eksperimento.

Rigardinte diversajn artefaritajn lingvojn (Volapük, Esperanto, Ido, Desa Chat, Loglan, Klingon, Toki Pona), li decidis konstruigi per t.n. genetika programado novan artefaritan lingvon, speciale taŭgan por senerara parolrekonado. Ĉar konsonantoj ĉiam pleje kaŭzas rekonproblemojn, li limigis la aron de konsonantoj ĝis 11: b, f, j, k, l, m, n, p, s, t, w, lasante la nombron de vokaloj je 5 (a, e, i, o, u), do 16 fonemoj entute. Tio estas konsiderinde malpli ol ĉe la plejmulto de aliaj lingvoj, ĉu naturaj aŭ artefaritaj. Krome, Mubin elektis fiksan vortstrukturon: 2- aŭ 3-silabaj vortoj, en kiuj ĉiu silabo konsistas el unu konsonanta antaŭ unu vokalo; nur vortfine permesatas silabofina konsonanto. Ekzemplaj vortoj: buse, nole, fosit, jimeja, kipupi, besati, webufo, bobuja.

Tiu vortkonstruprincipo, kun minimuma nombro de konsonantoj kaj foresto de konsonantkombinoj, laŭ kiu 803 vortoj estis generitaj, faris tiun lingvon, nomitan 'ROILA', almenaŭ alloga por senkonfuza parolrekono. Sed aparte de tiu principo, la vortoj estis hazarde generitaj, sen iu ajn simileco kun konataj lingvoj. La malforta flanko de ROILA estas ĝia dubinda lernfacileco por homoj, la manko de multjara sperto pri ĝia uzo, kaj la neekzisto de tekstkorpuso de tiu lingvo. Aktuala defio por Esperanto La artefarita lingvo Esperanto jam ekzistas 125 jarojn kaj havas tekstkorpuson de pli ol 60 milionoj da vortoj en la hodiaŭa interreto. Ekzistas vasta sperto pri lernado de tiu lingvo per diverstipaj kursoj. Ĝi do ne havas la malfortecon de la ĵus naskiĝinta ROILA.

Sed la fonetika forteco de tiu novnaskito - kiamaniere Esperanto povus konkuri kun tiu? Anstataŭ nur 16, Esperanto havas 28 fonemojn kaj krome kelkajn konsonantkombinojn - ŝajnas preskaŭ senespera. Tamen, la procezo de parolrekono ĝenerale konsistas el du ĉeffazoj: Fazo 1: akustika/fonetika fazo Fazo 2: lingvistika/semantika fazo Tio koncernas ja ne nur permaŝina parolrekono, sed ankaŭ la maniero per kiu ni, homoj, rekonas la paroladon de aliuloj. Plejofte, ni ne aŭdas ĉiujn fonemojn precize, sed rekonas la parolitajn vortojn dank'al nia scio de fraztipoj, de la paroltemo, kaj la vorttrezoro en nia kapo.

Antaŭaj klopodoj konstrui Esperantan parolrekonilon, jam en la 1980-aj jaroj, certasence malsukcesis kaŭze de obstinaj problemoj en la akustika/fonetika fazo, ekzemple la fajnaj distingoj inter la fonemoj c, s, ĉ, ŝ, z. Sed anstataŭ strebi atingi perfektecon de Fazo 1, kial ne eliri de la premiso, ke ties rezulto estas kaj restas neperfekta, kaj koncentriĝi al Fazo 2: uzi leksikan, semantikan, sintaksan scion por kontroli kaj efike pritrakti la rezultojn de Fazo 1. Tio despli eblas, se temas pri limdifinitaj apliktereno kaj vortaro. Alparoli zorgroboton pri hejmaj taskoj - jen klara ekzemplo. 

Granda avantaĝo de tia parolrekon-sistemo, kiu akceptas neperfektecon de la fonetika Fazo 1 kaj kompensas tiun per la sinsekva Fazo 2, ankaŭ estas malpli da bezono pri longan antaŭan provfazon por kutimigi la maŝinon al ies specifa voĉo. Hejma vortora - skizo pri ĝia komprenebleco por roboto Kiel deirpunkton por plua evoluigo de bone funkcianta parol-aŭdanta roboto, faru la sekvajn supozojn: Ĝi tute ne aŭdas la literojn: h, l, r. Ĝi ne aŭdas diferencon inter: la 2 literoj: d, t (registras ilin: T); la 2 literoj: ĝ, ĵ (registras ilin: Y); la 3 literoj: k, g, ĥ (registras ilin: K); la 4 literoj: b, v, f, p (registras ilin: B); la 5 literoj: c, ĉ, s, ŝ z (registras ilin: S). La ne listigitajn literojn, inkluzive la kvin vokalojn, ĝi bone aŭdas.

La roboto do fakte funkcios, kvazaŭ por ĝi la lingvo (Esperanto) havas nur 9 konsonantojn anstataŭ 23. En tiu senco, Fazo 1 bonege plenumos sian akustikan/fonetikan laboron. Kion signifos tio por la ĝusta rekono de parolitaj vortoj, tion Fazo 2 montros. Kiel ekzemplon en limdifinita apliktereno, prenu ni la konatan "Hejma Vortaro" de Jouko Lindstedt (1999, UEA). Ŝanĝinte en ĝi, per simpla komputilprogramo, laŭ la supra tabelo, ĉiu d aŭ t al T, ĉiu ĝ aŭ ĵ al Y ktp, montriĝas ke de la 560 kapvortoj, nur 6 vortparoj estas fonologie ambiguaj: bloko forko BoKo bloketo forketo BoKeTo briko figo BiKo farĉo vazo BaSo pato vato BaTo vegetala vegetara BeKeTaa

Tiaj ambiguecoj estas solveblaj diversmaniere: forpreni vorton el la aplikvortaro, aŭ anstataŭigi ĝin. Alia solvo estas meti en la robotkapo listojn de senchavaj rilatoj, ekz. "manĝeblaj aĵoj". Se do robotposedanto diras "mi volas manĝi figojn", la roboto ne alportos brikojn. La merito de la "Hejma Vortaro" de Lindstedt estas, ke ĝi pritraktas ĉefe vortkunmetaĵojn: ekz. akvomelono, glaciŝranko, kranakvo, laktosupo, litotuko, panorostilo, rulseĝo, suptelero, varmbotelo. Pro tio, la meznombra vortlongeco en ĝi estas pli ol 8, kio kaŭzas la malaltan nombron de fonologiaj ambiguecoj.

Tiurilate utilas ankaŭ aliaj fontoj, ekz. "Angla-Esperanta-Hungara etvortaro pri Homa Vivo kaj Loĝado" de Ilona Koutny (2005, PRODRUK). Kompreneble temo-vortaroj ne sufiĉos por la zorgrobota apliko, ĉar ankaŭ kelkcent bazaj vortoj kiel akvo, botelo, lakto, lito, pano, seĝo, ŝranko, supo, tablo, telero, ktp. estos bezonataj, same kiel nombro da adjektivoj, verboj (alportu, malfermu, ordigu, prenu, preparu, purigu) kaj kelkaj funkcivortoj, sume verŝajne 500-700 vortoj, kies meza vortlongeco estas malpli ol 6, kio signifas pli da fonologiaj vort-ambiguecoj.

Kiu E-isto akceptas la defion? La farenda sed farebla laboro estas: zorge kompili kaj testi kompletan limdifinitan E-an vortaron kaj simplan sintakson ("alportu la rulseĝon", "mi volas trinki teon", "poste purigu la panorostilon"), do lingvon, per kiu homoj, speciale olduloj kaj handikapuloj, povas facile alparoli zorgroboton. La konstruanto speciale devas: I. Dum la kompilado atenti pri fonologiaj ambiguecoj de la tutaĵo: ne nur la totala vortaro, sed ankaŭ la frazaro (atentu pri la ne-aŭdebleco de spacetoj inter vortoj, ĉar la uzantoj certe ne parolu ĉiujn vortojn izolite). Tio eblas pli-malpli laŭ la supre priskribita skizo, kaj helpe de relative simplaj komputillingvistikaj programoj.

Tamen la konstruanto mem nepre havu komputillingvistikan sperton. II. Daŭre atenti pri la neceso fari efikan (Esperantan) kurson kun kursmaterialo por lerni homojn uzi la specialan zorgrobotan lingvon. La lernantoj povas esti Esperantistoj, sed ankaŭ ne-Esperantistoj. Por tio lasta, la sperto de aŭ kontakto kun Cseh-instruisto utilas. III. Amplekse testi la faratan lingvon per nuntempa akustika parolrekonilo, ekz. ne-komerca elŝutebla modelo kiel Sphinx-4 (2008, CMU), komerca produkto (ekz. de firmao Nuance aŭ ReadIris), aŭ eble parolrekonsoftvaro de zorgrobot-fabrikanto mem (vidu IV). 

La fina testo estu, ke kune kun la softvaro el la supre-menciita Fazo 2, la sistemo redonos ĉiun parolitan testfrazon precize, en teksta formo. IV. Esti regule en kontakto kun zorgrobot-fabrikanto, prefere en Japanio aŭ Sud-Koreio. Gravas, ke la fabrikanto finfine povos fari la E-an zorgrobotan lingvon aldonan opcion (softvaron) en siaj eksport-produktoj. Por entuziasma, kapabla, sin devontiganta volontulo, la IEI en Hago (www.iei.nl) pretas doni certan subvencion, pli-malpli kompareble kun ESF.