Agora
Media
Libraria ByblosAgoraNews  

PC Magazine Ro  
NET Report   
Ginfo   
agora ON line   

PC Concrete   

Liste de discuții   
Cartea de oaspeți   
Mesaje   

Agora   
Clic aici
PC Report - ultimul numar aparut


IPRO - PC Magazine Romania, 2001

Comunitatea experților și a cititorilor PC Magazine - Internet PRO

Ortografia pe web

Adrian Pop


Mulți editori de situri de pe web-ul românesc continuă să folosească cu dezinvoltură alfabetul amputat.

"Despre Romania s-a auzit. Despre romani de asemenea. [...] E greu sa se mai vada ce este romanesc la romani." (http://noinu.rdscj.ro/lupta.htm)
"Poporul roman a aparut in istorie ca popor crestin" (http://noinu.rdscj.ro/logos.htm).
"Fetele nevăzute ale web-ului"
(http://unde.elite.ro/unde24.html).

"Viitorul si trecutul / Sunt a filei doua fete"
(http://www.mihaieminescu.ro/opera/poezia/glossa.htm)

"Spasi-voi visul de lumina" (http://www.mihaieminescu.ro/opera/poezia/atat_de_frageda.htm)
"Tusele groase" ale lui Umberto Eco
(http://www.humanitas.ro/htdocs/carte/carte.php3?id_carte=1137)

Scrierea estropiată
În fața tehnologiei informației, literele sunt uneori prea egale. Absența tastaturilor în format românesc și insuficienta răspândire a programelor de configurare care să le țină locul, lipsa standardelor sau implementarea lor defectuoasă, care fac problematică folosirea oricărui set de caractere mai extins decât venerabilul ASCII, neglijența producătorilor străini de TI pentru necesitățile particulare ale utilizatorilor români (motivată, probabil, economic), dublată de propria noastră inerție, au redus alfabetul românesc, atunci când este folosit în diverse aplicații informatice, la o submulțime a sa, făcând semnele diacritice să fie privite ca simple accesorii oarecum pedante și cu totul dispensabile. Chiar dacă sunt deja mai mulți ani de când soluțiile tehnice există (imperfecte, dar satisfăcătoare pentru majoritatea aplicațiilor), mulți editori de situri de pe web-ul românesc, neînțelegând decât valoarea funcțională a literei - și nici pe aceea destul de bine, de vreme ce un text cu un vocabular peste cel minimal devine, în aceste condiții, aproape ilizibil - continuă să folosească cu dezinvoltură alfabetul amputat.

Fără îndoială, rațiunile de ordin practic care au condus la această stare de lucruri nu au fost eliminate. Deși sistemele de operare și programele cele mai răspândite sunt compatibile cu diverse seturi de caractere standardizate (dintre ele, ISO 8859-2, cunoscut și ca Latin-2, cuprinzând toate literele alfabetului românesc), aceste facilități nu sunt întotdeauna incluse în configurația implicită a pachetelor software. Instalări făcute în pripă sau de către utilizatori neexperimentați au ca rezultat incertitudinea editorului de web asupra configurației exacte de pe calculatorul celui care vizitează situl. Și chiar dacă o configurație incompletă poate fi, teoretic, ușor de remediat, există împrejurări în care utilizatorul nu are permisiunea să o facă. Este, adesea, cazul celor care folosesc calculatoarele de la serviciu, din școli sau din netcafé-uri.

Situația nu e singulară. Designerii și programatorii de web se confruntă la fiecare pas cu imprevizibilul de la, așa-zicând, celălalt capăt al firului. Rezoluția ecranului de care dispune vizitatorul, componența paletei cromatice care poate fi reprodusă cu fidelitate pe diverse platforme și capriciile browserelor în interpretarea HTML-ului fac parte din obsesiile zilnice ale celor implicați în construcția siturilor. O incongruență apare însă atunci când interesul pentru accesibilitate nu există (acolo unde, de pildă, problema economiei de clipuri Flash sau de applet-uri Java nu se pune), dar alfabetul românesc este folosit în varianta sa "pentru to(n)ți". În privința renunțării la diacritice accesibilitatea este un simplu pretext. O ocurență în egală măsură ridicolă, frecventă și edificatoare este lipsa semnelor cu pricina până și din porțiunile de text încorporate în imagini.

Fără diacritice, literele sunt reduse la genul lor proxim. Rezultă o nediferențiere pe care cititorul o poate compensa de cele mai multe ori, recuperând din context forma corectă a cuvântului. Dar diferența nu există de fapt, iar când un program va indexa pagina de web într-o bază de date, ceea ce va fi indexat este un simulacru al textului. Lucrul e de natură să facă penibilă experiența deja dificilă a utilizării așa-numitelor motoare de căutare. Nu numai că orice interogare cu cuvinte-cheie care conțin diacritice va trebui să includă cel puțin două variante ale acestora (cea corectă și cea fără diacritice), dar prin simpla lor juxtapunere, în funcție de algoritmul specific de stabilire a relevanței, ordinea prezentării rezultatelor are toate șansele să fie perturbată. O interogare completă și corect formulată va fi probabil, în cazul dat, o expresie booleană - un instrument fără succes la publicul larg. Așadar, o licență menită să simplifice viața utilizatorului român de internet complică în realitate ceea ce este de obicei primul pas al unei incursiuni pe web: căutarea.

Dificultăți similare apar la redarea textului într-un alt mediu decât cel grafic. Nevăzătorii sau persoanele cu deficiențe majore de vedere au la dispoziție programe capabile să citească și să descrie o pagină de web prin intermediul unui sintetizator de voce. Desigur, construirea unui sit accesibil dispozitivelor de acest fel nu se termină cu scrierea corectă, dar e limpede că de aici trebuie să înceapă. Omisiunea semnului diacritic al unei litere - o câtime oarecare din imaginea ei grafică - va rezulta, când semnul este redat fonetic, într-un sunet care nu îl implică în nici un fel pe cel corect, făcând perceperea textului, în funcție de complexitatea lui, de la frustrantă la incomprehensibilă. Acest dezavantaj nu-i va convinge poate pe cei pe care noțiunea însăși de corectitudine îi lasă indiferenți, dar ar fi de așteptat ca instituțiile publice cu prezență pe web să își privească propriul sit mai mult ca pe un mijloc de comunicare, mai puțin ca pe unul publicitar, și să se preocupe de accesibilitatea lui. În unele țări, această exigență este impusă anumitor situri prin lege (vedeți www.alistapart.com/stories/politics/ și www.contenu.nu/socog.html).

Problemele ridicate de scrierea fără diacritice sunt cumulative. În momentul când chestiunea reprezentării corecte a caracterelor românești nu se va mai pune - o dată cu generalizarea sistemelor compatibile cu Unicode, pesemne - această anomalie va trece tot mai puțin ca de la sine înțeleasă. Pentru orice sit al cărui conținut merită arhivat pe termen lung (dacă nu dintr-un alt motiv, cel puțin în interes documentar, cum este cazul siturilor de știri), efortul de a restaura paginile scrise incorect va fi cu atât mai important cu cât el este întârziat.


O soluție de circumstanță este publicarea sitului în dublă versiune: cu și fără diacritice. Pe siturile dinamice, câteva linii de cod suplimentare în scriptul care servește paginile pot desfigura un text corect ori de câte ori cititorul dorește acest lucru. Pe cele statice, operația se poate face în orice procesor de text înainte de punerea paginilor pe server. Proiectarea atentă a schemei de adresare (evitarea URL-urilor parametrice de tipul: /script.cgi?diacritice=nu) va facilita circulația programelor-robot, asigurând indexarea ambelor versiuni.

De câte argumente e nevoie pentru a apăra ceea ce este corect prin definiție? Siturile de design ne întâmpină adesea cu pretenții privind rezoluția ecranului, extensiile pentru browser sau viteza conexiunii. Autorii lor înțeleg, de bună seamă, că nu orice compromis e acceptabil, și mai ales nu unul care le-ar impune limite în forma lor fundamentală de expresie. Este trist că întâlnim atâția editori de situri românești, unele dintre ele cu profil cultural, care rămân impasibili în raport cu integritatea textului. Rectificarea acestei atitudini va fi mai simplă dacă implicațiile ei vor fi înțelese din timp.

Dubla normă ortografică
În februarie 1993, Academia Română adopta o nouă normă ortografică a limbii române, prin care se revenea la scrierea cu â din a în interiorul cuvântului și se modificau anumite forme ale verbului a fi. Dictată pe criterii ideologice, schimbarea a fost întâmpinată cu rezervă sau opoziție tranșantă de majoritatea specialiștilor, inclusiv de către singurii doi lingviști membri ai înaltului for (cf. România literară, nr. 9 sqq. din 1993). Argumentele științifice aduse în polemica iscată atunci nu interesează aici, însă între argumentele oponenților au existat și cele de natură practic-economică. Costul retipăririi unor întregi serii de manuale, ediții din clasici și texte tehnice pentru uz didactic, s-a atras atenția, avea să fie considerabil, iar complicarea regulilor ortografiei era susceptibilă să înmulțească numărul greșelilor de limbă.

Disensiunea ireductibilă între restauratorii academici ai latinității ortografiei și lingviștii apărători ai bunului-simț practic și științific a avut ca efect dedublarea limbii române în forma ei scrisă. Cu excepția mediilor în care noua ortografie s-a impus în virtutea reglementărilor (în speță, publicațiile școlare și cele oficiale), vechea normă este astăzi la fel de frecvent întâlnită precum cea nouă, numeroși și importanți autori, periodice și edituri continuând să reziste unei modificări percepute ca abuzivă.

În ordinea practică a lucrurilor, dezavantajul poate cel mai important al adoptării noii norme și al previzibilei confuzii introduse în acest fel a trecut neobservat. Reluând raționamentul din secțiunea precedentă, dacă pentru un cititor deosebirea dintre î din i și â din a este una pur formală, pentru un program de calculator cele două litere nu au nimic în comun, iar cuvintele care le conțin nu vor fi asimilate, așa cum se petrece în mintea cititorului (mână și mînă, de pildă, vor conta drept cuvinte diferite).

Operațiile de sortare și căutare în orice bază de date care conține ambele variante de scriere au de suferit. Revenind la problema expusă anterior, a indexării automate a paginilor de web, o interogare cu un cuvânt-cheie care cuprinde vocala schizoidă în poziție medială va trebui să folosească atât varianta cu î din i, cât și pe aceea cu â din a, cu toate neajunsurile care decurg de aici. În plus, ambele litere fiind, desigur, caractere cu diacritice, problema se compune cu cea discutată mai sus.

Presupunând că mână este un cuvânt-cheie plauzibil, interogarea ar trebui să includă formele: mână, mînă, mana și mina. Numărul omografiilor crește și mai mult decât crescuse prin eliminarea diacriticelor, întrucât ultimele două dintre cele patru forme ar putea să fie la fel de bine surogatele cuvintelor mană și, respectiv, mină.

Nu este de așteptat ca vreuna din cele două norme să piardă în importanță, cel puțin nu în curând. Și chiar dacă la un moment dat ortografia se va uniformiza, situația va rămâne neschimbată în arhivele siturilor. Iată de ce un motor de căutare care să funcționeze bine pentru necesitățile utilizatorilor români va trebui să țină seama de această particularitate și să ofere opțiunea de a face automat transferul între cele două norme ortografice.

Limba română nu este singura care se confruntă cu acest gen de problemă. Există diferențe de ortografie între variantele limbii engleze, bunăoară.

Căutând pe web documentație în domeniul fibrelor optice, utilizatorul american va folosi termenul fiber optics. Prezumând, de dragul exemplului, că operația s-ar efectua pe un motor de căutare cu totul rudimentar, rezultatele nu ar include paginile scrise de britanici, pentru care termenul corect este fibre optics. În practică, motoarele de căutare, care au la dispoziție dicționare special alcătuite, pot depăși aceste dificultăți, însă numai pentru că ele vor fi fost cunoscute și anticipate. Autorul se întreabă retoric dacă proiectanții străini ai principalelor motoare de căutare de pe internet - cele pe care, prin forța împrejurărilor, le preferăm adesea echivalentelor lor locale - vor dori să știe despre problemele noastre ceea ce noi înșine ignorăm cu seninătate.

Faptul că paginile de web cu greșeli de scriere tot la al doilea cuvânt au ajuns să fie privite ca ceva normal reprezintă o pervertire a bunelor reflexe de cititor.

Ambiguitatea tipografică
O tildă nu este o brevă și o sedilă nu este o virgulă descendentă. Între ele există aceeași măsură de asemănare și deosebire ca între un joben și un sombrero. Din dorința generoasă de a reda corect literele alfabetului românesc, însă în lipsa unei bune orientări tehnice, s-a recurs câteodată la nefericita improvizație de a folosi substitute oarecare din seturile de caractere aflate la îndemână, similare grafic cu diacriticele corecte: un a cu tremă sau cu vreun alt accent ascendent în locul lui ă, un i cu accent grav în loc de î etc. Obiceiul este nejustificat, iar din punctul de vedere al indexării datelor reprezintă încă o sursă certă de erori.

Chiar dacă nu a avut în rândul editorilor de web succesul celeilalte tactici (a suprimării oricărui semn distinctiv), tendința de a confunda diacriticele între ele are totuși consecințe pentru reprezentarea textelor românești. Literele ș și ț, în forma lor corectă tipografic, au un semn diacritic descendent, distinct, asemănător unei virgule. O formă alternativă foarte frecventă, însă incorectă, este aceea în care locul virgulei descendente este luat de o sedilă. Din punct de vedere practic, substituția e pasabilă, însă combinația asimetrică în cadrul aceluiași text și mai ales al aceluiași tip de literă, între un ș turcesc (cu sedilă) și un ț românesc (cu virgulă) denotă ignoranța generală în materie, reflectată chiar și la nivelul standardelor (cf. http://www.cs.tut.fi/~jkorpela/8859.html#IX). Atât ISO 8859-2, cât și primele versiuni ale standardului Unicode tratează diferența între o sedilă și o virgulă ca pe o alternanță tipografică de ordin strict stilistic, nealocând coduri distincte pentru fiecare dintre combinațiile lor. Prezumția este greșită; același font ar trebui să conțină, pentru a corespunde diverselor alfabete, litere cu ambele semne diacritice.

Unicode 3.0 este prima specificație care satisface această diferență, însă confuzia continuă să fie perpetuată într-o anumită măsură, prin echivalarea implicită a codurilor alocate celor două litere în ISO 8859-2 cu variantele lor cu sedilă (vedeți capitolul 7 al specificației, subcapitolul 7.1, secțiunea privind blocul Latin Extended-A, subtitlul Alternative Glyphs, la http://www.unicode.org/unicode/uni2book/ch07.pdf).

Cititorul va fi înțeles de acum că o diferență pur formală pe hârtie este una esențială atunci când textul este convertit într-un șir de biți. Un program care se va conforma standardului va reprezenta grafic cele două litere - cel puțin atunci când ele apar într-un text românesc - prin glifele lor cu virgulă, păstrând însă nemodificate codurile de intrare. O implementare incorectă, care ar folosi codurile glifelor cu virgulă în orice alt proces decât acela al reprezentării grafice, ar putea conduce la situația (cu precedent, vai) în care duplicitatea s-ar reflecta la nivelul reprezentării digitale, antrenând obsedantele problemele de indexare, căutare și sortare.

Morala
O carte sau un ziar cu greșeli de culegere tot la a doua pagină roagă să fie aruncate din mână. Faptul că paginile de web cu greșeli de scriere tot la al doilea cuvânt au ajuns să fie privite ca ceva normal reprezintă o pervertire a bunelor reflexe de cititor. Timpul nu rezolvă probleme. Oamenii le pot rezolva, atunci când și-o propun. Problema scrierii fără diacritice poate fi rezolvată într-un singur fel: scriind corect. Dificultățile legate de lipsa standardelor sau de erorile acestora pot fi la rândul lor ținute sub control, o dată ce sunt luate în seamă și înțelese. Comunicarea este oricum un exercițiu delicat. În acest Babel modern care este internetul, orice efort menit să facă mai ușoară comunicarea între, cel puțin, vorbitorii aceleiași limbi servește unei cauze nobile.

Colaboratorul nostru Adrian Pop poate
fi contactat la adresa [email protected]


PC Magazine Ro | CD ROM | Redactia | Abonamente | CautareArhive

Copyright © 1999-2002 Agora Media.

[email protected]

LG - LifeŽs Good

www.agora.ro

deltafri

Concurs de Grafica Digitala si Web Design

www.agora.ro

www.agora.ro