четвртак, 27. децембар 2007.

Локализација програма Фајерфокс (Firefox) и Мозилиних (Mozilla) алата на српски језик

Можда је за неке ово већ стара вест али је вредна помена. На локализацији Фајерфокса (Firefox) и Мозиле (Mozilla) се радило већ скоро годину дана и превод на српски је већ постављен на мрежу. Пакет треба ових дана да прође техничку контролу Мозилине задужбине (Mozilla Foundation) и онда српски језик постаје званичан и подржан језик и у овом програму за листање интернет страница.

Превод Фајерфокса на српски језик је у задужбини заведен као случај број 394745. Тамо можете да прочитате све о фазама превођења. Превод се може наћи на на адреси http://lxr.mozilla.org/l10n-mozilla1.8/source/sr/. Мозилина задужбина има представнике задужене за наш превод и будуће измене. Њима можете да се обратите преко њихове странице: http://wiki.mozilla.org/L10n:Teams:sr#Serbian_.28sr.29.

Овим подухватом је заокружена локализација пакета намењених индивидуалном кориснику за кућну употребу, а уједно и допуњује лепезу осталих пакета намењених канцеларијском раду.

Локализација програма Опенофис (OpenOffice) на српски језик је урађена пре две године. Сада је већ саставни део дистрибуције. Графичка окружења за Линукс (Linux) су већ одавно локализована (Gnome, KDE) и саставни су део већине популарних дистрибуција (Убунту [Ubuntu], Редхет [RedHat], Федора [Fedora]).

Пре упуштања у нове преводилачке подухвате саветујемо вас да потражите по интернету и на страницама Нашег писма да ли је посао већ урађен.

субота, 15. децембар 2007.

Српски језик на Интернету: правопис, граматика и недоумице из српског језика

За оне којима с времена на време затребају граматика и правопис за српски језик: на Вокабулару се вредно ради на томе.

Тренутно су доступне следеће странице:
Кога занима да и сам допринесе развоју правописа и граматике вероватно треба да погледа и учлани се на Вокабуларов форум. Овде је администраторова најава ових веза.

среда, 05. децембар 2007.

О програму „ТнТ Ћирилица“ у емисији „Интерфејс“

Већ смо писали о програму „ТнТ Ћирилица“ који може послужити за лако пресловљавање текста. Овом приликом желимо да вам скренемо пажњу на прилог телевизијске емисије „Интерфејс“ где можете видети програм у акцији.

Преузмите програм и поделите ваша искуства и савете на Вокабулар-НП форуму.

субота, 24. новембар 2007.

Превод програма Скајп (Skype) на српски језик

Скајп (Skype) је програм за говорну и видео комуникацију. Скајп вам омогућава да са пријатељима и пословним партнерима разговарате бесплатно (ако користите везу између рачунара) или за обично скромну надокнаду (ако зовете мобилне и фиксне телефоне) користећи колико је год могуће Интернет за пренос слике и звука.

Корисници који желе да имају сучеље (меније и поруке које Скајп исписује) на српском језику могу да преузму: превод програма Скајп (Skype) на српски језик.

четвртак, 22. новембар 2007.

Представљамо програм: „ТнТ Ћирилица“

Реч је о још једном пресловљивачу текста из писма у писмо. За разлику од сличних програма на интернету реч је о самосталној апликацији а не о додатку за MS Word или OpenOffice. Програмер, Немања Тодић, заслужује све похвале за изузетно добро урађен и осмишљен производ.

Програм омогућава двосмерно пресловљавање текста, из ћирилице у латиницу и обратно. Такође се може користити за двосмерно пресловљавање читавих интернет презентација, у већини случајева без потребе за додатним исправљањем добијених резултата.

ТнТ Ћирилица се одликује великим бројем додатака који служе да омогуће брзо и ефикасно пресловљавање тескта без потребе за накнадним исправкама. Постоји могућност „непресловљавања фраза" што омогућава да се речи попут Windows, Web, Office, Excel оставе у свом изворном облику. Програм долази са базом од 80 фраза, уз могућност допуне.

Друга интересантна погодност јесте „Аутоматско пресловљавање", што вам омогућава да при селектовању текста из било ког програма, рецимо Internet Explorer, два пута копиран текст (Ctrl-C, copy) пресловите и поставите на клипборд па се тако пресловљен текст може налепити у другу апликацију (Ctrl-V, paste).

Програм нуди и „полирање превода" и покушаће да нађе и исправи грешке које могу настати приликом пресловљавања. Рецимо, при пресловљавању речи „odjednom" може да се добије „ођедном" али ће програм то поправити у „одједном".

Ту је и стандардна „нађи и замени" функционалност, врло корисна у случају систематских словних грешки у пресловљеном тексту. Програм се може похвалити великом брзином рада, уз јако корисну могућност "Live Update" што омогућава преглед новости о програму.

Програм можете наћи на адреси http://www.todicsoft.com/opis_cirilica.php а корисне савете и искуства при раду са програмом можете поделити са читаоцима „Вокабулар" форума и посвећеној теми.

понедељак, 05. новембар 2007.

Симпозијум о ћирилици 2007

На молбу организатора постављамо следеће обавештење:

Позивамо вас да будете поштовани учесник симпозијума о ћирилици 2007

Организатор:
Удружење за заштиту ћирилице српског језика „Ћирилица"

Место и време одржавања Симпозијума:
Нови Сад, Матица српска, Матице српске 1, субота, 24. новембра 2007. године, почетак у 11 сати

Пријављивање учесника и тема излагача до 10. новембра 2007;

Достављање писаних излагања до 20. новембра 2007;

Адреса за пријављивање учесника:
Ћирилица, Николајевска 2, 21000 Нови Сад

Тема Симпозијума:
Обавезе у школству, струци и правопису у вези са српским језиком и његовим писмом после доношења (8. новембра 2006) новог Устава Републике Србије

Циљ Симпозијума:
Предочити стање у коме се налазе српски језик и ћирилица у њему данас с посебним освртом на обавезе из Члана 10. Устава Републике Србије. Непосредни и хитни наредни послови и промене ради усклађивања садржаја у целокупној струци, школству и правопису према јасном налогу из Члана 10. (новог) Устава Републике Србије.

Учесници:
Првопозвани (они који институционално одлучују о питањима српског језика и писма) и позвани. (Молимо да непосредно учествујете, или, да, макар, доставите своје писано излагање.

Уводно излагање:
Драгољуб Збиљић (председник Извршног одбора „Ћирилице"): Општи раскорак у Уставу Србије и стручног и практичног положаја ћирилице на целом подручју српског језика.

(Захваљујући новчаној помоћи града Новог Сада, „Ћирилица" ће моћи да првопозваним излагачима тема и водитељима симпозијума надокнади трошкове путовања до места одржавања Симпозијума и назад.)

Срдачан поздрав уз очекивање вашег пријављивања за учешће.
Нови Сад, 10. септембар 2007.
Председник Организационог одбора Симпозијума,
Драгољуб Збиљић

понедељак, 27. август 2007.

Акцентована ћириличка слова

Према стандарду Уникод, акценти се на сва слова, па и наша ћириличка, постављају комбиновањем одговарајућих ознака за слово и за акценат (в. комбиновање дијакритика).

То значи да није потребно да се има, рецимо, ћирилички словни лик (фонт) Тајмс који садржи акценте примењене на сва одговарајућа наша слова. Акценти могу да се додају на знаке помоћу одговарајућих Уникод комбинација.

Програми су дужни да ове комбинације третирају једнако као одговарајућа „права“ слова.

Погледајте списак свих акцената који могу да се поставе на поједина слова и одговарајућу страну из Википедије.

Тако бисте, на пример, за краткосилазно акцентовано слово „у̏“ откуцали најпре „у“, а затим Уникод ознаку U+030F која означава краткосилазни акценат. Софтвер мора да се постара да се ово исправно прикаже.

Кодови за одговарајуће акценте су:
  • U+0300 — краткоузлазни
  • U+0301 — дугоузлазни
  • U+0304 — акценатска дужина
  • U+030F — краткосилазни
  • U+0311 — дугосилазни
Примери:

Акцентовано у:
  • у + U+0300 = у̀
  • у + U+0301 = у́
  • у + U+0304 = ӯ
  • у + U+030F = у̏
  • у + U+0311 = у̑
Акцентовано р:
  • р + U+0300 = р̀
  • р + U+0301 = р́
  • р + U+0304 = р̄
  • р + U+030F = р̏
  • р + U+0311 = р̑
Унос комбинацијаЗнаци попут U+0300 до U+0311 уносе се на начин ког дефинише оперативни систем ког користите. Поступак за унос ових знакова дефинише метода уноса (input method).

У радном окружењу Гном, одговарајући знаци могу да се унесу притиском на комбинацију тастера Ctrl+Shift+u а затим куцањем одговарајућег бројног кода и притиском на размакницу.

На пример, знак у̏ добија се следећом секвенцом тастера:
у Ctrl+Shift+u 0 3 0 f SPC
где SPC означава размакницу.

У случају неких оперативних система, одговарајући знаци могу да се унесу притиском на комбинацију тастера Alt+PLUS а затим куцањем одговарајућег бројног кода.

На пример, знак у̏ добија се следећом секвенцом тастера:
у Alt+PLUS+0+3+0+f SPC

недеља, 22. јул 2007.

Лепша ћирилица

Да ли ћирилично писмо може да се и даље улепша и побољша? Студија „Лепша ћирилица“ нуди један могући одговор.

уторак, 10. јул 2007.

Дописно друштво се сели на http://forum.vokabular.org/

Драги чланови дописног друштва Разговор,

Након успешног вишегодишњег рада неколико дописних друштава Нашег писма дошло је време да у складу са развојем технологије на интернету полако пребацимо дискусије из домена ел. поште и сместимо их у форум. Већини корисника који нису програмери а заинтересовани су за употребу нашег писма у савременим дигиталним медијима више прија тај вид комуникације. По први пут промене неће бити потпуно аутоматске и захтеваће и нешто труда са Ваше стране јер ће се разговор наставити под кровом Вокабулар форума на адреси http://forum.vokabular.org/:

  • Ел. адреса преко које сте учествовали у раду дописног друштва ће бити суспендована у понедељак 16. јула у 2:00ч. Архива дела порука ће остати доступна на http://groups.google.com/group/nasepismo.
  • Ако сте заинтересовани за активан наставак у дискусијама треба да се региструјете на административној страни Вокабулара: http://forum.vokabular.org/index.php?action=register.
  • Рачунамо да ће јасна подела тема на форуму омогућити да свако нађе кутак за себе и да свој допринос без превише шума. Наше писмо се бавило темама које се на Вокабулару налазе под „Ћирилица и латиница на рачунарима": http://forum.vokabular.org/index.php?board=12.0.

Презентација ће и даље остати на истој адреси (http://www.nasepismo.net/) али ће ради лакше администрације бити удомљена на Блогеру. Преко странице Нашег писма ћете моћи да пратите поруке са форума, сажетак од последњих неколико наслова, актуелне техничке вести које се тичу употребе нашег писма на дигиталним справама, занимљива упутства, вести и коментаре ћемо редовно постављати у виду уноса у блог. Контакт ел. адреса остаје иста: nasepismo@gmail.com.

петак, 06. јул 2007.

Подешавање тастатуре за GNOME графичко окружење

Најпознатија графичка окружења за GNU Linux и UNIX радне станице, KDE и GNOME, су већ локализована на српски језик али је за унос текста потребно поставити исправну српску тастатуру. Тастатура се може подесити независно од језика графичког окружења. Следи пример како то урадити за GNOME окружење у Ubuntu дистрибуцији. Поступак би требало да буде исти, или бар сличан, на свим GNOME GNU Linux и UNIX системима. Кључне речи које треба тражити у менијима на енглеском језику су: keyboard, keyboard layouts и keyboard preferences.

Слика и текст


Нађите у менијима ставку за подешавање тастатуре (Keyboard).


У већини случајева на систему ћете имати само америчку тастатуру (U.S. English). Кликните на "Add".


У списку расположивих тастатура (списак земаља) нађите Србију. За сада смо још увек под именом "Serbia and Montenegro". Ако кликнете на троуглић крај имена добићете више опција. Прва тастатура на списку је ћирилична а у опцијама се налази и латинична тастатура. Можете додати обе тастатуре, али не одједном већ у две посебне итерације (следите ово упутство од прве тачке за следећу тастатуру). У прозору ће се појавити распоред знакова на тастатури коју сте одабрали. Кликните на "OK".


Сада на систему имате више од једне тастатуре и рачунар треба да зна која се подразумева. Обележите главну тастатуру кликом на квадратић у "Default" пољу. На овом месту је јако погодно и одабрати опцију "Separate group for each window" јер ће вам то омогућити да сваки прозор има другачију тастатуру. У једном прозору можете куцати писмо ћирилицом, у другом писати ASCII текст (програм) а тастатура ће се сама подесити кад пређете из једног прозора у други.


Ако сте навикли да уносите текст под Windows оперативним системом можете подесити да се тастатура мења притиском на исте тастере. У "Layout Options" одаберите "Alt-Shift" комбинацију у одељку "Group Shift/Lock behavior". Сада између стандардне и српске тастатуре можете прелазити притиском на ова два тастера, без тражења тастатуре по графичким менијима.


Да би током рада видели која је тастатура укључена можете подесити да "ScrollLock LED" светли када сте у прозору у коме је у том тренутку активна ћирилична тастатура. Након тога кликните на "Close" и ћирилична тастатура је инсталирана.


Унос текста


Распоред ћириличних слова на GNU Linux и Windows тастатури је исти али ипак постоје мале, позитивне, разлике. На GNU Linux тастатури ћете наћи отворене и затворене знаке навода који су у складу са правописом српског језика (отворени доле „ и затворени горе “). Да би се одржала компатибилиност са Windows тастатуром додатни знаци се добијају комбинацијом десног Alt тастера (у ознаци AltGr) и неког другог тастера. За куцање писама су можда најзначајнији:

: AltGr-S
: AltGr-D
: AltGr-E

За остале карактере детаљно прегледајте приложену мапу ћириличне тастатуре. Додатни знаци се добијају притиском неког тастера са AltGr односно Shift-AltGr. За више детаља кликните на слику:

среда, 04. јул 2007.

Java пресловљивач

Представљамо вам Транслитератор, програм Филипа Маљковића за пресловљавање текста. Написан је у програмском језику Java и требало би да ради подједнако добро на свим оперативним системима.

Програм покушава да избегне пребацивавање римских бројева, мерних јединица, интернет адреса и неких страних речи из латиничног у ћирилично писмо, а ту је и могућност обележавања дела текста који не треба да буде пресловљен.

Програм можете наћи на http://filip.zbrka.net/java/transliterator.html.

OOoTranslit: пресловљивач текста за OpenOffice

ООоТранслит је OpenOffice макро Александра Урошевића за пресловљавање ћириличног текста у латиницу и обратно. Може се применити на цео текст, или само на део обележеног текста.

Програм и нешто више примера можете наћи на http://oootranslit.info/.

MS Word: Конверзије кодних распореда

YuConv је конвертор кодних страна за MS Windows:

„Када су кључне институције превише инертне, дешавају се ствари које су се десиле на овом рачунарском поднебљу: YU слова постоје, али у толико варијанти да комуникација међу корисницима рачунара без одговарајуће припреме готово није могућа. Свако брани своје ставове у коришћењу одређеног кодног распореда, а постоје хиљаде већ написаних докумената и није могуће игнорисати их само зато што можда нису написани у распореду који корисник употребљава.
...“

Програм и нешто више информација о програму можете наћи на: http://www.praktikum.rs/office/word/wd_001.asp.

уторак, 03. јул 2007.

Програм „Вучко“

Уз помоћ програма Вучко можете пресловити латиничне HTML странице, или обичан текст, у ћириличко писмо. Такође можете пребацити постојећи ћирилични текст у латиничко писмо, или променити кодни распоред HTML документа у UTF-8.

Пример:

Програм можете преузети са http://www.aleksa.org/vucko/.


Обавештење, 1. јун 2011: Страна на којој је био удомљен програм је скинут са мреже, и уз дозволу аутора пребачена на блог НП.

Провера текста

За енглески језик већ годинама постоје програми за проверу исправности унетог текста.  Сличан алат коначно постоји и за српски језик - посетите странице програма GNU Aspell на српском: http://srpski.org/aspell/

Universal Language Tool for PHP

What is ULT

After looking for multilanguage solution we in DataVoyage realized that we need to write our own. Before you comment this as just another multi language support PHP library take a look for some specific usage this library offers.

Univeral Language Tool for PHP is library developed to introduce new concept in multilanguage application development for WEB. It offers functionality which covers unlimited number of languages on single site, but in literal manner. It does not support just widely recognized term of languages but also expands to support language variations. You are provided with tools to use language macros in your documents which are replaced with exact text according to language dictionaries. However, you also are provided with transliteration tool, which allows direct text replacement in document with no need for predefined macros. The replacement is done according to transliteration rules specific for each language.

If you ever developed site which is targeted to audience which uses the same language but with some variations (example: English and American English, or variations of Spanish language, or the same language that uses two scripts, like Serbian Latin and Serbian Cyrillic) you met this problem. Usual multi language solutions force you to treat all these variations as different languages, which makes, not just development, but administration and site maintenance quite complicated tasks. ULT treats all variations as the same language, but it introduces difference rules. This means you are entitled to update site in just one language, and if needed, ULT will alter original document to create its variation according to predefined language variation rules including transliteration.

Опширније: http://www.datavoyage.com/ult/

Подешавање ћириличне тастатуре за Windows

Ово је водич за додавање ћириличне тастатуре у енглеско издање Windows XP. Доступно је објашњење са текстом и сликама као и кратак филм.

Слика и текст

Претпоставићемо за потребе овог упутства да користите издање Windows XP на енглеском језику. Ако користите неко издање Виндовса Икс-пе на другом језику, можете да испратите слике и у Вашем примерку изаберете одговарајуће опције како је приказано на сликама.

Први корак

Најпре отворите мени Старт. Из менија који се отвори изаберите ставку Control Panel (контролни панел), као што је приказано на слици.

Други корак

У контролном панелу уочите ставку за подешавања времена, датума, језика и регионалних подешавања: Date, Time, Language, and Regional Options.


Трећи корак

Затим изаберите ставку Regional and Language Options (регионална и језичка подешавања).


Четврти корак

Када изаберете ставку из претходног корака, отвориће се прозор са регионалним и језичким подешавањима (Regional and Language Options). Изаберите ставку Details (детаљи).


Пети корак

Избором детаља добија се прозор Text Services and Input Languages (текстуалне услуге и улазни језици) у коме су наведени тренутно активни језици (Default input language, изнад) и постављени распореди тастатуре (Installed Services, испод).

Притисните дугме Add (додај).


Шести корак

У прозору за додавање улазних језика (Add Input Language) притисните на кутију за распореде тастатуре (Keyboard layout/IME) и у списку пронађите и изаберите ставку Српски (ћирилица), тј. Serbian (Cyrillic).


Седми корак

За улазни језик (Input language) поставите српски (ћирилицу).


Осми корак

Ако је све подешено како треба, после притиска на OK (у реду), подешавање изгледа овако:


Филм

Ћириличне тастатуре

На овој страници су информације о српским ћириличним тастатурама и налепницама за тастатуре: где се могу купити, како и колико коштају.

  • На Сајму књига, на штанду Министарства културе, примећена је реклама за Микрософтову српску ћириличну тастатуру. Није познато да ли се ова тастатура производи и како се може купити.
  • Latkey - плаве, зелене и црвене налепнице са српском ћирилицом за тастатуре, 8 долара.
  • Lingua - српске ћириличне тастатуре и ћириличне налепнице (није јасно да ли садрже и српска слова) могу се наћи овде. PS/2 тастатура 39 фунти, USB тастатура 49 фунти, налепнице 12 фунти, ограничена количина ћириличних налепница за црне тастатуре 6 фунти.
  • cyrillicstore.com - "Cyrillic Keytop Labels": налепнице са српском ћирилицом за црне и беле тастатуре, 12 долара. На сајту се нуди и ћирилична тастатура, али само са руским словима.
  • Smartlink corporation - плаве и црвене налепнице са српском ћирилицом, 12 долара.
  • Fentek Industries - налепнице са српском ћирилицом, 13 долара.
  • Г. Стеван Драгић (Француска) - Genius ћириличне тастатуре, погледајте оглас и слику, 25 евра.
  • ИБМ - 31P7442 (црна) и 31P7481 (бела) српска ћирилична тастатура, око 33 долара. Списак дистрибутера који је нуде погледајте овде (вероватно је и да је дистрибутери који нису на списку могу набавити) а један дистрибутер у српским земљама је Синтех.
  • translation.net - српска ћирилична тастатура, 180 долара.

Кодни распореди

Шта су то кодни распореди и зашто су битни за запис ћирилице:

Зашто је уопште потребно да знате нешто о кодним распоредима?

Претпостављамо да нема корисника рачунара са стажом дужим од неколико месеци коме се није десило да наиђе на неку текстуалну датотеку, веб страницу или е-поштанску поруку која је уместо нормалног, читљивог тескта, имала нека (или чак сва) слова замењена неким чудним знацима. Можда вам се десило и да ви напишете нешто, а да се затим неко други жали како то није могао да прочита.

За све ово су одговорни управо погрешно подешени кодни распореди, односно кодирања, како се још називају. Читајте даље ако желите да сазнате како овакве ситуације можете да разрешите и избегнете.

Од датотеке са текстом до приказа на екрану

Сваки програм у коме можете читати неки текст, као што су уређивач текста, прегледач Веба и е-поштански програм, у основи читају датотеку у којој се налази текст и приказују вам тај текст на екрану. Текст је, како и све остало на рачунару, записан у облику бројева (не зове се рачунар тако за џабе). Датотека са текстом представља један низ бројева, или прецизније, бајтова; за сада можете сматрати да је бајт исто што и број, о томе касније. Дужност програма који приказује текст је да уместо тих бројева прикаже слова, тј. да декодира текст.

Програм декодира текст тако што прво прочита број из датотеке, затим погледа табелу где се налазе бројеви са придруженим изгледом (сличицом) словâ и пронађе тај број, и коначно прикаже слово уз тај број. Затим тако за следећи број, све до краја датотеке. Управо та табела у којој се налазе парови број-слово представљају кодни распоред (колекција самих сличица словâ чини фонт).

Где онда настаје проблем, зашто понекад добијате „ђубре" уместо слова? Проблем је у томе што парови број-слово нису увек исти, тј. постоје различите табеле кодних распореда. Да би програм исправно приказао текст, он мора знати коју табелу, тј. кодни распоред да употреби. Ако употреби погрешан, ето ђубрета. Нпр. у кодном распореду ISO-8859-5 пар броју 177 је слово „Д", а у распореду CP1251 слово „ґ" ; дакле, ако се текст кодиран са ISO-8859-5 декодира према CP1251, уместо сваког слова „Д" појавиће се слово „ґ".

Можете се запитати да ли програм некако сам може да утврди којим распоредом је текст кодиран? У општем случају, не може: замислите да се у тексту налази само једно слово, представљено горепоменутим бројем 177; у том случају, програм нема никакву додатну информацију да одреди према ком распореду (да ли ISO-8859-5, CP1251 или неки трећи) би требало да декодира то слово.

Али се онда можете запитати и како то да често и добијате исправно декодиран текст, што значи да је програм ипак правилно одредио кодни распоред? У овом случају, ствар је у томе што постоје неки облици датотека које у себи садрже и информацију о томе којим распоредом текст треба да се декодира. Такве су нпр. HTML датотеке, које приказује ваш веб прегледач када одете на неки интернет сајт или е-поруке које гледате у поштанском програму. Међутим, да би ово радило, онај који прави датотеку мора да поштује начин на који се наводи распоред, а и програм који је чита мора бити правилно испрограмиран да то препозна. Нажалост, нешто од овога често закаже, па се зато деси и да на Интернету или у е-порукама понекад видите „ђубре", тј. погрешно декодиран текст.

Различитих кодних распореда има буквално на десетине. Поред тога што се разликују по паровима број-слово, разликују се и по томе што не покривају сви све језике, прецизније сва слова свих језика. Нпр. поменути ISO-8859-5 је један од распореда који покрива ћирилично писмо (српско, руско, бугарско...), а нпр. ISO-8859-2 покрива источноевропска латинична писма (хрватско, чешко, пољско...). Дакле, помоћу ISO-8859-5 не можете кодирати текст на чешком језику, а помоћу ISO-8859-2 не можете кодирати текст на бугарском језику.

Вероватно већ видите могуће решење ових проблема: било би добро када би постојао само један договорени кодни распоред који би обухватао сва слова на свету и који би сви користили (у ствари, сигурно се питате и откуд уопште толико различитих кодних распореда — одговор, наравно, лежи у мутним водама рачунарске историје). Такав јединствен кодни распоред заправо постоји и назива се Уникод (енг. Unicode), и постаје све више распрострањен. Нажалост, и ту има једно али...

Различити записи Уникода

Сада морамо да се вратимо на други пасус претходног дела, у коме смо рекли да се датотека састоји од бајтова, које можете сматрати бројевима. Сада је време да објаснимо за ову причу битну разлику између бајта и броја. Наиме, бајт јесте број, али само у опсегу од 0 до 255! Другим речима, помоћу једног бајта, не можемо записати нпр. број 348.

С друге стране, програми су (до скоро) најчешће програмирани тако да сматрају да један бајт кодира једно слово, па су то подразумевали и при декодирању текста. То је и један од разлога откуд онолико различитих кодних распореда; већ када бисмо покушали да у један кодни распоред ставимо латиницу, са специфичним словима из свих језика који је користе, и ћирилицу, опет са свим словима, остали бисмо без бројева за кодирање. А да не помињемо грчко, арапско и далекоисточна писма — број потребних бројева се пење на десетине хиљада!

Уникодом су управо дефинисане те десетине хиљада парова број-слово, али како те бројеве записати у датотеци, када бајт може бити само између 0 и 255? Проблем управо овде и настаје, јер постоји више могућности, од којих свака има своје предности и мане. Нпр. број се може записивати увек са два бајта, или са променљивим бројем бајтова.

Због различитих начина записа, и са Уникодом вам се може десити видите погрешно декодиран текст (ако је програму задат погрешан запис). Међутим, изгледа да се тзв. UTF8 запис полако устаљује као најпогоднији — основна карактеристика му је да ће многи програми који уопште нису програмирани тако да раде са Уникодом ипак моћи правилно да раде са UTF8 кодираним текстом. Зато ће текст кодиран Уникодом на који наиђете најчешће бити у UTF8 запису.

Практични савети

Шта да радите када видите погрешно декодиран текст? Ако је иоле новији, програм који користите за преглед тог текста ће највероватније имати опцију да му ручно задате кодни распоред, често у главном менију Приказ View), ставка Кодирање (енг. Encoding). Ту можете да задате који распоред треба да се употреби за декодирање, па испробавањем можете наћи онај којим ће текст бити правилно декодиран. Ако је текст на српском, а искварен тако да је већина слова латинична, само су нека избрљана, онда прво покушајте са кодним распоредом UTF8, затим ISO-8859-2, и на крају CP1250. Ако су сва слова избрљана, онда је текст писан ћирилицом, и тада испробајте редом распореде UTF8, ISO-8859-5 и CP1251.

Што се тиче обичних текстуалних датотека (најчешће имају наставак „.txt" у имену), морате знати (испробати) којим кодним распоредом је текст кодиран и ручно га поставити. Међутим, ако се погрешно декодирање дешава у е-поруци или на веб страни, онда је ручно постављање кодирања само тренутна мера. Пошто то не би требало да се дешава, требало би да откријете да ли је проблем до програма који користите, или до садржаја (веб стране, е-поруке) који гледате. Сетите се, ако је датотека правилно записана и програм коректно испрограмиран, кодни распоред би требало да буде аутоматски детектован. Ако је лоше записано то што гледате, обавестите онога ко је то направио (пошиљаоца е-поруке или веб мастера интернет сајта). Ако је проблем у вашем програму, ажурирајте га на новију верзију или испробајте неки други програм.

Када ви лично правите садржај — шаљете е-поруку, пишете у текстуалну датотеку или правите веб-страну — гледајте да обавезно користите уникод кодирање са UTF8 записом. Као што рекосмо, Уникод је замена за све претходне кодне распореде (какви су поменути ISO- и CP-распореди) и подржава ћирилицу и латиницу истовремено. Као и програм за прегледање садржаја, и програм у коме правите садржај ће имати негде опцију за бирање кодног распореда.

Неки проблеми при приказивању текста који немају везе са кодним распоредима

Може се понекад десити да је текст избрљан тако да се уместо појединих слова приказују нпр. квадратићи, док су остала слова у реду. То је скоро сигуран знак да фонт (колекција изгледа слова) који користите нема у себи та слова. Пошто Уникод дефинише десетине хиљада симбола, лако вам је да замислите да немају сви фонтови све симболе садржане у себи, тј. да су неки фонтови „комплетнији" од других. Поправка за ово је да се пребаците на неки фонт који има тражене симболе.

Ноћна мора звана Јуски

Други чест проблем је да уместо неких наших слова видите отворене и затворене угласте и велике заграде и још по неке уобичајене симболе тамо где им није место. Ово је знак да је текст писан употребом тзв. јуски (енг. YUSCII) фонтова, код којих су поменуте заграде буквално замењене нашим словима. Тј. није употребљено никакво посебно кодирање, већ су енглеска слова и симболи у фонту одстрањени у корист наших. Ово је нешто најгоре на шта можете да наиђете: с једне стране, текст зависи од тога који се фонт користи и зато уз текст увек морају да се испоручују и сами фонтови (текст мора да зависи само од кодирања!), а с друге стране ти фонтови су направљени нестручним преправљањем стандардних фонтова, тако да су лошег квалитета (у смислу изгледа на екрану и папиру). Јуски је настао почетком деведестих као брзо решење за употребу српског језика на рачунарима, када није постојао ниједан кодни распоред који би покрио српски језик (ни ISO- ни CP- ни Уникод, ништа). У том смислу, не може му се много замерити како је настао, али чињеница да се и данас често може наћи је готово неопростива, посебно имајући у виду да постоје конвертори текста којима јуски може да се пребаци у нормалан кодни распоред. Избегавајте јуски по сваку цену!

Кратка напомена читаоцима и уредницима

Овај текст је замишљен као представљање концептуалних појмова о кодним распоредима и њиховој употреби. Циљ је да читалац схвати чему кодни распореди служе и како се може њима манипулисати у случају потребе. Техничка прецизност текста је у другом плану, те је не треба усложњавати ако не доприноси наведеном циљу.

Унос текста

Основна правила за унос текста уз помоћ рачунара: како правилно уносити ћирилични текст да би и други могли да га прочитају:


  1. Текст на српском је боље писати у било ком кодном распореду, него ни у једном. Иако ово можда изгледа парадоксално, није тако. Много је лакше наћи одговарајући програм за пребацивање из једног кодног распореда у други, него ручно мењати слова у целом тексту. Програм који би био довољно паметан да ово уради сам по себи још није направљен – РАС може помоћи, али ни он није свемогућ.

  2. Уколико се текст пише латиницом, за глас „ђ" увек користите одговарајуће латинично слово, а не „dj". Ово је важно због тога што је код пребацивања оваквог текста у ћирилицу немогуће на задовољавајући начин извршити замену „dj" у „ђ", јер постоје речи где се тај двознак чита баш као што је написан (одједном, надјачати...). Због тога је, уосталом, и уведен посебан латинични знак за овај глас.

  3. Водите рачуна о томе како пишете знаке интерпункције. Интерпункцијски знаци којима се завршава реченица се увек пишу „слепљени" уз последњу реч реченице. Никада се између последње речи и знака интерпункције не сме убацивати размакница (бланко, space) док се она мора убацивати после знака интерпункције. Знаци навода и заграде се, сходно овоме пишу одмах испред прве речи наведеног текста, а знаци извода одмах иза последње речи (односно знака интерпункције којим се завршава навод), наравно без размака. Овиме се обезбеђује да код аутоматског прелома текста на рачунару знаци интерпункције не побегну у следећи ред (односно претходни, код навода), оставивши реченицу незавршеном.

  4. Урадите само свој део посла. Ако је текст који пишете намењен објављивању у штампаној или електронској форми, избегавајте да га преламате, да убацујете сувишне знакове размака, непотребне табулаторе и слично (најчешће грешке су убацивање размакница и табулатора на почетак пасуса, чиме се симулира увлачење (eng. indent), или тамо где је потребно текст поравнати са десном маргином). Боље је да се усредсредите на садржај текста који пишете – преламање текста ће увек боље од вас да уради онај коме је то посао, а урадиће га много лакше и брже уколико ви већ нисте умешали своје прсте.

  5. Ако не можете да уносите текст ни латиничним писмом са наших неколико слова, а ни ћириличним онда га можете уносити у неком другом распореду који једнозначно одређује наша слова у оба писма. Користите dual распоред за унос текста по следећој табели (подсетник - где год се користи квачица, додати x, где се користи цртица, као у ć , dodati y):

  6. Постоји неколико програма који могу да пребаце текст из овог распореда у ћирилицу или латиницу. Један од њих је UYU Дејана Ристановића, као и YUK Младена Јаблановића. Можете користити и JavaScript Вучка који има и dual опцију (ако имате ћирилични текст такође га можете пребацити у dual распоред).

О Нашем писму

Пре неколико година, група људи је одлучила да је дошло време да се озбиљно поприча о неким стварима — о нашем писму на интернету и његовој употреби на рачунарима.

Заступљено је мишљење да је ћирилица баук на рачунарима, пре свега да је немогуће, или бар јако компликовано, користити је, као и да је веома застарела и ружна...

На овим страницама ћете наћи све што вам је потребно да би се разочарали у мит о компликованости и неупотребљивости нашег писма у ово рачунарско доба.

О естетском доживљају можете просудити сами разгледањем неких од лепо урађених сајтова. Препоручујемо да баците поглед на презентације: града Ниша, Министарства Просвете и Спорта, Balkan Times-а, Јанусa, „Пројектa Растко" и Ћирилицe.

Комплетнији списак ћириличних страница се може наћи на страници групе Превод.

У крајњој линији, „Наше писмо" служи да добијете одговор на питања која се уклапају у општи образац: „Како да на прави начин урадим/подесим/направим то-и-то да бих могао да користим своје писмо на таквом-и-таквом рачунару.“

уторак, 20. март 2007.

Пројекти: локализација

Везе ка преводилачким пројектима који обухватају и локализацију за српски језик:

  • Превод Ubuntu: Користи веома занимљив програм „Розета“ који омогућава сарадњу у превођењу.
  • Prevod.org: Изворно започет ради превођења радног окружења Гном на српски језик, Prevod.org је постао својеврсно исходиште за неколико успешних преводилачких подухвата.
  • Fedora: (Fedora Core) је дистрибуција заснована на Linux језгру која у наредном издању добија потпун превод на српски језик. Превод Fedora на српски је један од удомљених на месту Prevod.org.
  • Преводи GNU програма: Задужбина за слободни софтвер је уложила деценије рада како би људи широм света могли да имају збирку корисних и бесплатних програма. Преводе GNU програма можете наћи овде.
  • Wordforge: (Ковница речи) има одељак за преводе на српски језик.
  • Превод KDE на српски: Радно окружење KDE има веома квалитетан превод на српски језик.
  • Група за превод на српски: Преводи GNU програма на српски језик.