среда, 07. септембар 2011.

Српски језички атеље — све о српском језику на једном месту

Српски језички атеље бави се стандардним српским језиком, варијететом српског језика који се користи у култури, књижевности, науци, новинарству и у свим званичнијим језичким приликама. Циљ нам је овде да људе који проводе време на интернету, а и оне друге, приволимо граматици и правопису нашег језика и основним појмовима о њему; да им брзо и лако дамо поуздане информације о језичкој појави која их занима и да покушамо решити недоумице са којима се сваког дана срећемо („Како се каже…??“). Осим тога, желимо да јавности приближимо и друге језичке теме, као што су историја језика, етимологија, социолингвистика…, што ће доћи на ред с развојем сајта.

[Опширније]

уторак, 21. јун 2011.

Програмски пакет РАС

Овај пакет, какав имају сви културни народи, омогућује кориснику да мирно и опуштено, без страха од грешака, на рачунару напише пословно писмо, новински прилог, научни рад, књигу, школски темат, дипломски или семинарски рад. Захваљујући овом пакету, припрема текста је олакшана и убрзана, по некима и 50 одсто. Прелом текста је аутоматизован, естетски изглед текста доведен је на завидан, светски ниво, а смањен је број словних грешака и број коректура, као и потрошња папира. Поред практичног значаја, Програмски пакет РАС уводи нас у писменост трећег миленијума, помаже нам да уобличимо и стандардизујемо наш језички израз, да сачувамо од растакања и губљења српски језик и писмо.
[Опширније.]

Српски електронски речник

Руковођен лексикографском логиком да пакет за обраду текста без речничке подршке представља половично решење, Милорад Симић је одлучио да дигитализује три важна српска речника: Речник САНУ закључно са шеснаестим томом (који је допуњен са три завршна тома Речника Матице српске) – под називом Српски електронски речник, Вуков Српски рјечник и Рјечник из књижевних старина српских Ђуре Даничића, како би се успоставила историјска лексикографска вертикала од 21. до 12. века.
[Опширније.]

уторак, 07. јун 2011.

Пробна вожња за ћириличне .срб домене

У нашем латиничном (.rs, ASCII) домену има 66.000 регистрованих сајтова. Након увођења ћириличког домена, .срб, РНИДС је за све регистроване сајтове планирао пробну .срб вожњу: сваки регистровани сајт ће добити и свој ћирилични пар, а биће понуђене и све могуће комбинације у транслитерацији. Подсећамо да у латиничном домену није могуће користити слова š, č, ć...

Опширније у „Политици“.

субота, 04. јун 2011.

Ћирилица и ИТ: Стање и перспективе

Рад „Ћирилица и савремене информационе технологије: Стање и перспективе 2010“, аутора Николе Смоленског и Горана Обрадовића, анализира употребу ћириличког писма на интернет форумима и службеним презентацијама, са освртом на писма, фонтове и језик.

Почетне странице интернет презентација општина у Србији.
Документ садржи списак свих општинских презентација у Србији. Преузмите извештаj (PDF, 519kb).

четвртак, 02. јун 2011.

Програм Вучко и графичка окружења

Вучко и ViM едитор

Програм Вучко нема графичко окружење и прављен је као програмерски алат, за употребу из командне линије. То има својих добрих и лоших страна. Програм се може наћи за неколико различитих рачунарских платформи (Windows/Linux/Solaris UNIX/MacOS) али је његова употреба мало незгодна ако неко жели да пребаци само делове текста из латиничног у ћирилично писмо или обратно без коришћења помоћних датотека. Програм је написан тако да може да се користи као филтер текста "у лету" па се лако интегрише у програме који допуштају уградњу филтера, попут већине бољих едитора (Vi/ViM, Emacs/XEmacs, UltraEdit). За ситне текстове може се користити JavaScript имитација али она има своја ограничења: не препознаје интернет адресе и ел. адресе, не исправља знаке навода, не зна да се снађе за HTML кодом...

На овој страни ће бити дат пример, како користити програм Вучко заједно са ViM едитором. ViM едитор се такође може наћи у издањима за различите оперативне системе. Ако имате UNIX/Linux оперативан систем велике су шансе да је едитор већ инсталиран. Ако користите Windows покупите инсталацију са http://www.vim.org/. Подразумева се да знате основе рада са Vi компатибилним едитором, мада ViM има и "стандардни режим рада" на који сте навикли у једноставнијим едиторима. Користите прозорску а не терминалску верзију едитора - иде под именом gViM.

Пошто ћете програме vucko/c2l/htmlany2utf позивати из других програма, из командне линије у различитим директоријумима, пожељно је да се они нађу тамо где ће их оперативни систем при сваком позиву наћи. Под Windows оперативним системом можете или подесити системску променљиву PATH да садржи и директоријум где се налазе програми из пакета Вучко или (много лакше) ископирати ове програме у C:\WINDOWS\ директоријум.


Пресловљавање текста у Уникод распореду

Следи пример, како пребацити део текста у ћирилицу, а потом можете користити текст где год вам је потребан (рецимо за слање ел. поштом). На исти начин се може пребацити и текст из ћирилице у латиницу само што ће се као филтер користити програм c2l који је такође део пакета Вучко.

Покрените gViM едитор

Покрените ViM едитор

Подесите едитор тако да ради у Уникод кодном распореду. уколико то већ није учињено преко конфигурационе датотеке:

Подесите кодни распоред

Унесите текст

Унесите текст који желите да пребаците у ћирилицу - ископирајте из неког другог прозора или укуцајте.

Унесите текст

(Текст је из песме Алексе Шантића - преузет са http://www.aleksasantic.com/.)

Обележите део који треба пребацити у ћирилицу

Обележите текст

Унесите име филтера - (vucko)

Откуцајте ! (ускличник) и vucko (едитор аутоматски додаје ознаке '<,'> приказане на слици), и потом притисните тастер Enter/Return.

Унесите име филтера - Вучко

Текст је пребачен у ћирилицу!

Текст је пребачен у ћирилицу

Добијате текст који је пребачен у ћирилично писмо и који се сада може (copy/paste) пребацити у неки други програм.


Пресловљавање HTML текста

Ако радите на дизајну интернет страница и желите да постојеће стране пребаците у ћирилично писмо и то селективно такође можете користити ViM едитор као што је већ описано.

Некад пред собом имате HTML документ који је писан у погрешном кодном распореду у коме нема наших слова (најчешћи случај су стране у latin1/ISO-8859-1 кодном распореду), како ћириличних тако ни латиничних. У том случају наша слова ће бити записана као децимални Уникод, нешто што личи на &#xxxx;. Текст је нечитљив из едитора (мада се лепо види у програму за приказ HTML страница - Internet Explorer, Netscape, Mozilla...) и не може се одмах преко Вучка (vucko) пребацити у ћирилично писмо. Прво је потребно пребацити текст у Уникод UTF-8 кодни распоред и учинити га читљивим. У том случају је поред Вучка (vucko) потребно користити и друга два програма: c2l и htmlany2utf (vucko, c2l, htmlany2utf - синтакса командне линије и опис сваког програма је дат у упутству).

Следе два примера.


Пример #1

У првом случају је дато парче HTML документа у латиничном писму и то у погрешном кодном распореду (latin1) па у тексту нема ни латиничних слова са кукама и квакама већ су та слова децимално кодована. HTML текст је прво потребно пребацити у Уникод UTF-8 кодни распоред (подразумева се да сте подесили ViM едитор да ради са Уникод распоредом, као што је приказано на првој слици), а тек потом се може пресловити.

Унесите HTML код

Можете отворити неку HTML датотеку или пребацити део HTML кода из неке интернет странице, писма које пишете...

Унесите HTML код - copy/paste од негде

Решите се децимално кодованих слова - HTML текст треба да буде читљив

У овом примеру текст (из песме Хасанагиница) је у latin1 кодном распореду, што се види из команде на слици. У тексту не постоје ни латинична слова, види се децимално кодовање. (Исправније би било да је коришћена опција -UTF8 јер су сви подаци у едитору већ у Уникод кодном распореду.)

Одаберите текст који треба пребацити...

Добија се читљив текст:

Читљив текст - нема децимално кодованих слова

Пресловите HTML текст (или део текста)

Одаберите део HTML кода који желите да пресловите у ћирилицу и пропустите кроз Вучка (vucko). Програм води рачуна о HTML ознакама и оне неће бити уништене (пребачене у ћирилично писмо).

Обележите HTML текст који треба пресловити

Након филтрирања (vucko) добија се ћирилични HTML текст који даље можете копирати где је потребно (copy/paste).

Пресловљен HTML текст


Пример #2

У другом случају већ имате текст у ћириличном писму али је нечитак јер је записан у погрешном кодном распореду. Понекад кодни распоред HTML датотеке не мора да буде погрешан, односно могуће је имати и читљива ћирилична и латинична слова, али је једноставно запис погрешан, децимално кодован (до тога може доћи ако је текст прво писан у неком HTML едитору, Front Page рецимо, у погрешном кодном распореду а потом је писање настављено у исправном кодном распореду па је стари текст нечитак, мада све изгледа савршено читко кад се прикаже у рецимо Internet Explorer-у). Уз помоћ програма htmlany2utf текст можете направити читљивим. Преко програма c2l делове текста можете пребацити и у латинично писмо.

Унесите HTML код

Пребаците у ViM едитор неки нечитак ћирилични текст, писан у погрешном кодном распореду и децимално кодован.

Ћирилични HTML текст - децимално кодован и нечитак

Учините текст читљивим

Пропустите део текста кроз htmlany2utf и децимални код ће бити замењен одговарајућим словом.

Обележите текст...

Добићете читљив текст:

HTML код - коначно читљив

Пребацивање дела текста у латинично писмо

Понекад је потребно пребацити део HTML текста (или цео текст) у латинично писмо. Обележите текст који треба пресловити:

Део текста који желите да пребаците у латинично писмо.

Пропустите текст кроз c2l филтер:

Део текста је пребачен у латинично писмо.

Добијате текст у коме је један део пребачен у латинично писмо.

На овај начин можете увек направити две верзије писма или HTML документа, а да би избегли грешке најбоље је оригинал увек писати у ћириличном писму а потом пребацити у латиницу, по потреби. При пребацивању текста из ћирилице у латиницу можете делове текста обележити тако да увек остану у оригиналном ћириличном писму - текст треба ставити у <lang></lang> окружење.


Различита "графичка окружења" за Вучка

Сваки едитор који омогућава филтрирање текста (попут приказаног ViM-а) се може сматрати графичким окружењем за Вучка. У едитор можете уносити текст копирањем (copy/paste) из других извора или ручно, утипкавањем, а потом се делови текста могу пребацивати у ћирилично писмо, или из ћириличног писма у латинично писмо (уз помоћ програма c2l). Једини предуслов је да едитор који треба да глуми графичко окружење подржава Unicode (UTF-8) кодни распоред.

Примери на овој страници показују да Вучко може да буде моћан алат ако се користи у спрези са добрим едитором.

Програм Вучко: Преузимање програма

Програм (ознака 0.989) није мењан од 10. новембра 2003.

MD5SUM и SHA1SUM потписи архива.

Коришћење програма је слободно и бесплатно. На презентацији која је пресловљена на ћирилицу уз помоћ Вучка ставити линк на ову страницу.

Примери пресловљених презентација:




Упутство за коришћење можете прочитати у прилогу: „Програм Вучко: Пресловљивач HTML докумената, из латинице у ћирилицу и обратно“.

среда, 01. јун 2011.

Програм Вучко: Пресловљивач HTML докумената, из латинице у ћирилицу и обратно

Страница на којој је био удомљен Вучко је скинута са мреже.
Уз дозволу аутора постављамо материјал на нашу презентацију
.


Чему служи?

Уз помоћ програма Вучко можете пребацити HTML документе и чист текст из латиничног у ћириличко писмо.

Како је настао?

Програм је настао као део подухвата „Рачунарски алати за српски језик“, а у склопу акција „Националног већа за српски језик и писмо“. Написан је у програмском језику C и у неизмењеном облику ради на више рачунарских платформи.

Програм ради са HTML документима и чистим текстом у следећим кодним распоредима: cp850, cp852, cp855, cp866, cp1250, cp1251, cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3), iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9, iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9), iso8859-16, koi8-r и utf8. Текстови на српском језику у латиничном писму су углавном писани у cp1250 iso8859-2 или Unicode UTF-8 кодном распореду.

Програм ради са Unicode подацима. Документе који нису у Unicode UTF-8 кодном распореду претходно треба пропустити кроз програм htmlany2utf који ће извршити потребну конверзију.

За пребацивање текста из ћирилице у латиницу на располагању је програм c2l. И овај програм, као и Вучко, ради само са HTML и текстуалним датотекама у Unicode UTF-8 распореду. Ако у латинично писмо треба пребацити текст писан у неком другом распореду податке програму треба доставити преко htmlany2utf програма — на исти начин као и за Вучка.

Страница/текст која је пребачена у ћирилицу/латиницу је у Unicode UTF-8 распореду што омогућава читљивост на свим оперативним системима.

Основне карактеристике

Рад из командне линије

Програм се покреће из командне линије (DOS-а, UNIX терминала). Може да ради и као филтер, за пребацивање текста „у лету“. Програм долази са помоћним програмом htmlany2utf који представља предфилтер и омогућава рад са великим бројем кодних распореда.

htmlany2utf

htmlany2utf 0.801 (2003-10-26)

Program that converts HTML file from given encoding to UTF-8 encoding replacing
HTML decimal and hex unicode encoded characters to single unicode character.
Usage:
htmlany2utf -inputencoding [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.
Inputencoding is one of: cp850, cp852, cp855, cp866, cp1250, cp1251,
cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3),
iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9,
iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9),
iso8859-16, koi8-r, utf8.

vucko

Vucko 0.989 (2003-11-10)

Program that transliterates Serbian HTML/TXT documents written in Latin
alphabet to Cyrillic alphabet. Works only for pages in UTF-8 encoding!
For HTML/TXT pages in other encodings first use program 'htmlany2utf'.
Usage:
vucko [-text] [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.
-text Process file as text, ignore HTML tags.
Useful for emails, agency news...

c2l

c2l 0.01 (2003-10-26)

Program that transliterates Serbian HTML/TXT documents written
in Cyrillic alphabet to Latin alphabet. Works only for pages in
Unicode UTF-8 encoding! For HTML/TXT pages in other encodings
first use program 'htmlany2utf'.
Usage:
c2l [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.

Примери

Пресловљавање у ћирилично писмо

Ево како би у ћирилицу пресловили index.html датотеку записану у cp1251 кодном распореду и снимили у index-c.html датотеку:

htmlany2utf -cp1250 -in index.html | vucko -out index-c.html

Детаљнији опис, шта се дешава у овој командној линији: програм htmlany2utf улазну датотеку index.html која је у cp1250 кодном распореду пребацује у Unicode UTF-8 распоред и шаље је на стандардни излаз (stdout), пошто пошто -out датотека није наведена. Стандарни излаз је преусмерен на стандардни улаз (stdin) програма vucko који одатле (пошто -in датотека није дата) преузима податке пребачене у Unicode UTF-8 распоред и пресловљен текст записује у index-c.html датотеку.

Windows корисници могу користити и bvucko.bat скрипт који ће урадити исти посао: bvucko -cp1250 -in index.html -out index-c.html.

Пресловљавање у латинично писмо

За пресловљавање датотеке index.html у iso8859-5 распореду у латинично писмо и index-l.html датотеку:

htmlany2utf -iso8859-5 -in index.html | c2l -out index-l.html

Windows корисници могу користити и bc2l.bat скрипт:
bc2l -iso8859-5 -in index.html -out index-c.html

Пребацивање докумената у Unicode UTF-8 распоред

Програми vucko и c2l очекују податке у Unicode UTF-8 кодном распореду. Ови програми такође не могу да раде са децимално записаним Unicode карактерима у HTML (&#xxx;).

Уз помоћ htmlany2utf текст се може пребацити из било ког распореда у потребан Unicode UTF-8, без пресловљавања текста из писма у писмо. Може се искористити да се поправе странице које су грешком записане у распореду где нема ни наших латиничних слова већ је за њих коришћен децимални или хексадецимални Unicode HTML запис.

Пример: htmlany2utf -iso8859-5 -in index.html -out index-utf8.html.

Графичко окружење

Програм не долази са графичким окружењем и није „шарен“ — намењен је раду из командне линије. Ипак, лако се укључује у постојећа графичка окружења за едитовање текста која омогућавају спољашње текстуалне филтере (попут едитора ViM, Emacs, UltraEdit...).

„Вучко“ у комбинацији са вашим омиљеним едитором представља комплетан алат за пресловљавање текстова! Погледајте упутство са примерима: Вучко и ViM едитор.

Илустрације из упутства:


Едиторски рад: обележите текст који треба пресловити.


Едиторски рад: пресловљен текст, HTML код је неоштећен.

JavaScript Вучко

Понекад је погодно имати алат за брзо пресловљавање текстова, увек доступан преко интернета, „на клик“. Као део пакета ћете наћи и JavaScript верзију Вучка, али је то само бледа имитација онога што Вучко може да уради. Не води рачуна о страним речима, електронским адресама, HTML коду, наводницима и осталим детаљима. Ипак, може да послужи за брзо пресловљавање у латиницу или за пребацивање текста из латиничног дуал распореда у ћирилично писмо — ако рецимо пожелите да откуцате ћирилично електронско писмо али немате инсталирану ћириличну тастатуру.

Често постављана питања

Да ли ће електронске адресе бити пресловљене?

При пребацивању текста из латиничног у ћирилично писмо програм vucko препознаје електронске адресе и неће их пресловити у ћирилицу.

Како да спречим да се део текста не пресловљава?

Текст који не треба пресловљавати треба ставити у <lang></lang> тагове. При пребацивању из латинице у ћирилицу текст смештен између <lang> и </lang> неће бити диран, али ће тагови бити уклоњени.

Интернет читачи игноришу непознате тагове.

Како спречити ћирилизацију страних речи?

Реч која у себи садржи неко од слова qwyx се не пребацује у ћирилицу. Треба имати у виду да програм не разуме енглески и друге језике па ће стране речи без тих слова ипак бити пребачене у ћирилицу. У тим случајевима делове текста претходно ставити у <lang></lang> тагове — што је коришћено y пресловљавању неких од тест страница на ћирилицу.

Како спречити спајање слова: „nj“ у „нј“, не „њ“?

Ако треба спречити стапање слова, „n“ и „j“ у слово „њ“ онда треба поставити празан таг између,<!> ће послужити. Без тог раздвајања прогам ће неисправно пресловити „Tanjug“ у „Тањуг“ (уместо „Танјуг“). Списак изузетака није уграђен.

Како до наводника: отворени доле, затворени горе?

Већина текстова на интернету не користи правилне отворене (доле: „) и затворене (горе: “) наводнике. При пресловљавању у ћирилично писмо програм vucko ће се потрудити да исправни постојеће наводнике и усклади са правописом.

Како спречити vucko потпис/печат?

При пресловљавању у ћирилично писмо програм на крају оставља потпис, који у при прегледу HTML датотеке неће бити видљив у читачу али ипак некоме може да смета:

<!--===================================================================
Пребацивање HTML документа из латинице у ћирилицу обављено уз помоћ
програма „Вучко“ верзија 0.984, http://galeb.etf.bg.ac.yu/~alexa/
Copyright © 2003. Александар Веселиновић — Алекса
===================================================================-->

Пре свега приметите да је адреса у потпису застарела. При стартовању програма користите опцију -nosig и програм се неће потписати.

Како се из ћирилице у латиницу пребацује: ЊЕГОШ и Његош?

Програм c2l води рачуна о присуству великих слова при пребацивању слова „њ“ и „љ“. Тако се „ЊЕГОШ“ исправно пресловљава у „NJEGOŠ“ а не у „NjEGOŠ“, а „Његош“ у „Njegoš“.

Да ли ће се и римски бројеви пребацити у ћирилицу?

Ако имате латинични текст у коме се могу наћи римски бројеви (рецимо XII, III, IV, IX) Вучко ће пробати да их остави неизмењеним, али не рачунајте да то ради за све бројеве: рецимо за M или I. Пробаће да препозна комбинацију римских бројева (више од једног знака), али за сваки случај проверите пресловљени текст.

Да ли ће се „11:30PM“ пребацити у „11:30ПМ“?

Не, програм ће при пребацивању у ћирилицу покушати да препозна временске ознаке и остави их у латиничном писму.

Да ли при пресловљавању пази на мерне јединице?

Не зна за све мерне јединице али се труди: ознаке величине датотека (као рецимо 100kb), температура (20ºC), или брзина (km/s) неће бити пресловљене.

Која је званична адреса Вучка на интернету?

Програм Вучко је био смештен на неколико различитих интернет адреса али је у последњих неколико година увек био доступан преко www.aleksa.org/vucko/, али је од скора на новој адреси: http://nasepismo.net/2011/06/vucko.html — то је адреса коју можете проследити даље.

Да ли Вучко има конкуренцију?

На сву срећу: да! Вучко је био први и још увек једини програм који је могао да изађе на крај са HTML документима, и самим тим омогући лакше одржавање и прављење ћириличних интернет презентација. Због рада из командне линије није баш најсрећније решење, мада уз добар едитор то више није препрека. Прегледајте списак сличних алата.

Ауторска права

Да ли и под којим условима могу користити програм?

Коришћење програма је слободно и бесплатно. На презентацији која је пресловљена на ћирилицу уз помоћ Вучка ставити линк на ову страницу.

Преузимање програма

Програм (ознака 0.989) није мењан од 10. новембра 2003.

MD5SUM и SHA1SUM потписи архива.

уторак, 26. април 2011.

Србија друга земља са ћириличним доменом на Интернету

БЕОГРАД - Србија је, после Русије, друга земља којој је Интернет корпорација за додељена имена и бројеве одобрила употребу ћириличног домена на Интернету, изјавио је данас у Београду директор Регистра националног Интернет домена Србије (РНИДС) Ненад Маринковић.

Директор Маринковић је у изјави Танјугу подсетио да је 8. новембра прошле године ICANN (Internet Corporation for Assigned Names and Numbers - ICANN) одобрила захтев да српски ћирилични домен гласи .срб, а 21. априла ове године подржан је захтев да тај домен буде додељен на управљање РНИДС.
[Опширније у „Политици“ и Б-92.]