M-am mutat. Noul meu site este grep.ro, unde scriu ce scriam şi aici, doar că în engleză :)

Diacritice

5 iulie 2006, 2:01

Limba română are 5 caractere în plus faţă de setul de caractere americănesc: ş, ţ, ă, î, â. Semnele de sub litere şi de deasupra lor nu sunt opţionale, ele fac parte din cuvinte. Uneori cuvintele cu pricina au alt sens când dispar semnele (peşte/peste, raţă/rată/rata, etc).

Pentru hârtia tipărită, problema este de mult timp rezolvată. Toate cărţile tipărite în limba română pe care le-am văzut vreodată au diacritice. Nu se poate spune acelaşi lucru despre domeniul informatic. Este oarecum de înţeles - avem calculatoare personale doar de vreo douăzeci de ani. Standarde în domeniu există (o să spun doar Unicode) dar la început erau mari probleme de compatibilitate. Să faci un site, să-i pui diacritice şi să te aştepţi să meargă ok era dovadă de curaj.

Dar oameni buni, suntem în anul 2006! Orice browser decent (da, inclusiv explorer) ştie ce înseamnă content="text/html; charset=utf-8". Noroc cu asiaticii că au alfabete ciudate şi vor să scrie la calculator în limba lor! :) Notepad-ul însuşi ştie să lucreze cu fişiere Unicode. PC-urile de firmă vin cu tastaturi româneşti iar windows-ul, dacă ştie la instalare că rezidă în România, foloseşte automat keylayout-ul românesc. Cu toate astea, mai toată lumea refuză să folosească diacritice. Ok, poate din comoditate, cine are răbdare să caute tastele cu diacritice când scrie pe messenger? (Eu, dar eu sunt puţin sărit de pe fix, deci nu se pune.) Dar când e vorba de un site care se vrea serios, lipsa diacriticelor îl descalifică. Guvernul româniei stă destul de bine (deşi mai papă uneori câte un semn) dar în rest, foarte foarte rar găseşti site-uri româneşti cu diacritice. Lumea a evoluat de la vremurile triste când trebuia să foloseşti charset-uri speciale pentru fiecare limbă mai bogată decât cele 27 de litere ale alfabetului latin de bază.

Că tot zisei de windows şi de keylayout-ul românesc: este greşit. Să mă explic. Setul de caractere Unicode defineşte zeci de mii de caractere individuale. Printre el se află caracterele latine "normale" (cele folosite în america) precum şi multe variaţii ale lor (cu diverse accente, sedile, puncte, liniuţe, etc). Fiecare caracter are un nume (de exemplu, "A" se numeşte "LATIN CAPITAL LETTER A"). Font-urile "unicode" conţin doar părţi din aceste caractere, din simplul motiv că sunt imens de multe caractere şi este impractic să folosim fonturi "universale". Designer-ii de font-uri desenează doar caracterele pe care le consideră utile. Fonturile standard ale windows-ului şi ale office-ului NU conţin patru caractere ale limbii române (deşi multe fonturi civilizate, de exemplu cele de la Apple, le au). Ca să vi le arăt le-am făcut o poză (evident, de pe mac :)

Acestea sunt "LATIN CAPITAL/SMALL LETTER S/T WITH COMMA BELOW". Lipsesc. În locul lor sunt alte patru caractere, care se pare că nu fac parte din nici o limbă:

Ele se numesc "LATIN CAPITAL/SMALL LETTER S/T WITH CEDILLA". Sunt mapate pe tastatura românească standard de pc şi merg în word. Partea amuzantă este că fontul Times New Roman desenează pe "t cedilla" cu virgulă dedesubt, adică aşa cum ar fi trebuit să arate caracterul lipsă, "t comma below". "s cedilla" e desenat totuşi cu sedilă. Nici măcar nu au fost în stare s-o dea în bară în mod consecvent. Din cauza lor eu sunt obligat să folosesc peste tot, inclusiv aici, "s cedilla" şi "t cedilla", deşi by default mac-ul meu scrie, corect, "s comma below" şi "t comma below" - altfel, pe orice windows, apare semn de întrebare sau pătrăţel in locul caracterului.