среда, 01. јун 2011.

Програм Вучко: Пресловљивач HTML докумената, из латинице у ћирилицу и обратно

Страница на којој је био удомљен Вучко је скинута са мреже.
Уз дозволу аутора постављамо материјал на нашу презентацију
.


Чему служи?

Уз помоћ програма Вучко можете пребацити HTML документе и чист текст из латиничног у ћириличко писмо.

Како је настао?

Програм је настао као део подухвата „Рачунарски алати за српски језик“, а у склопу акција „Националног већа за српски језик и писмо“. Написан је у програмском језику C и у неизмењеном облику ради на више рачунарских платформи.

Програм ради са HTML документима и чистим текстом у следећим кодним распоредима: cp850, cp852, cp855, cp866, cp1250, cp1251, cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3), iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9, iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9), iso8859-16, koi8-r и utf8. Текстови на српском језику у латиничном писму су углавном писани у cp1250 iso8859-2 или Unicode UTF-8 кодном распореду.

Програм ради са Unicode подацима. Документе који нису у Unicode UTF-8 кодном распореду претходно треба пропустити кроз програм htmlany2utf који ће извршити потребну конверзију.

За пребацивање текста из ћирилице у латиницу на располагању је програм c2l. И овај програм, као и Вучко, ради само са HTML и текстуалним датотекама у Unicode UTF-8 распореду. Ако у латинично писмо треба пребацити текст писан у неком другом распореду податке програму треба доставити преко htmlany2utf програма — на исти начин као и за Вучка.

Страница/текст која је пребачена у ћирилицу/латиницу је у Unicode UTF-8 распореду што омогућава читљивост на свим оперативним системима.

Основне карактеристике

Рад из командне линије

Програм се покреће из командне линије (DOS-а, UNIX терминала). Може да ради и као филтер, за пребацивање текста „у лету“. Програм долази са помоћним програмом htmlany2utf који представља предфилтер и омогућава рад са великим бројем кодних распореда.

htmlany2utf

htmlany2utf 0.801 (2003-10-26)

Program that converts HTML file from given encoding to UTF-8 encoding replacing
HTML decimal and hex unicode encoded characters to single unicode character.
Usage:
htmlany2utf -inputencoding [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.
Inputencoding is one of: cp850, cp852, cp855, cp866, cp1250, cp1251,
cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3),
iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9,
iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9),
iso8859-16, koi8-r, utf8.

vucko

Vucko 0.989 (2003-11-10)

Program that transliterates Serbian HTML/TXT documents written in Latin
alphabet to Cyrillic alphabet. Works only for pages in UTF-8 encoding!
For HTML/TXT pages in other encodings first use program 'htmlany2utf'.
Usage:
vucko [-text] [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.
-text Process file as text, ignore HTML tags.
Useful for emails, agency news...

c2l

c2l 0.01 (2003-10-26)

Program that transliterates Serbian HTML/TXT documents written
in Cyrillic alphabet to Latin alphabet. Works only for pages in
Unicode UTF-8 encoding! For HTML/TXT pages in other encodings
first use program 'htmlany2utf'.
Usage:
c2l [-in inputfile] [-out outputfile]
If inputfile is omitted stdin is used.
If outputfile is omitted stdout is used.

Примери

Пресловљавање у ћирилично писмо

Ево како би у ћирилицу пресловили index.html датотеку записану у cp1251 кодном распореду и снимили у index-c.html датотеку:

htmlany2utf -cp1250 -in index.html | vucko -out index-c.html

Детаљнији опис, шта се дешава у овој командној линији: програм htmlany2utf улазну датотеку index.html која је у cp1250 кодном распореду пребацује у Unicode UTF-8 распоред и шаље је на стандардни излаз (stdout), пошто пошто -out датотека није наведена. Стандарни излаз је преусмерен на стандардни улаз (stdin) програма vucko који одатле (пошто -in датотека није дата) преузима податке пребачене у Unicode UTF-8 распоред и пресловљен текст записује у index-c.html датотеку.

Windows корисници могу користити и bvucko.bat скрипт који ће урадити исти посао: bvucko -cp1250 -in index.html -out index-c.html.

Пресловљавање у латинично писмо

За пресловљавање датотеке index.html у iso8859-5 распореду у латинично писмо и index-l.html датотеку:

htmlany2utf -iso8859-5 -in index.html | c2l -out index-l.html

Windows корисници могу користити и bc2l.bat скрипт:
bc2l -iso8859-5 -in index.html -out index-c.html

Пребацивање докумената у Unicode UTF-8 распоред

Програми vucko и c2l очекују податке у Unicode UTF-8 кодном распореду. Ови програми такође не могу да раде са децимално записаним Unicode карактерима у HTML (&#xxx;).

Уз помоћ htmlany2utf текст се може пребацити из било ког распореда у потребан Unicode UTF-8, без пресловљавања текста из писма у писмо. Може се искористити да се поправе странице које су грешком записане у распореду где нема ни наших латиничних слова већ је за њих коришћен децимални или хексадецимални Unicode HTML запис.

Пример: htmlany2utf -iso8859-5 -in index.html -out index-utf8.html.

Графичко окружење

Програм не долази са графичким окружењем и није „шарен“ — намењен је раду из командне линије. Ипак, лако се укључује у постојећа графичка окружења за едитовање текста која омогућавају спољашње текстуалне филтере (попут едитора ViM, Emacs, UltraEdit...).

„Вучко“ у комбинацији са вашим омиљеним едитором представља комплетан алат за пресловљавање текстова! Погледајте упутство са примерима: Вучко и ViM едитор.

Илустрације из упутства:


Едиторски рад: обележите текст који треба пресловити.


Едиторски рад: пресловљен текст, HTML код је неоштећен.

JavaScript Вучко

Понекад је погодно имати алат за брзо пресловљавање текстова, увек доступан преко интернета, „на клик“. Као део пакета ћете наћи и JavaScript верзију Вучка, али је то само бледа имитација онога што Вучко може да уради. Не води рачуна о страним речима, електронским адресама, HTML коду, наводницима и осталим детаљима. Ипак, може да послужи за брзо пресловљавање у латиницу или за пребацивање текста из латиничног дуал распореда у ћирилично писмо — ако рецимо пожелите да откуцате ћирилично електронско писмо али немате инсталирану ћириличну тастатуру.

Често постављана питања

Да ли ће електронске адресе бити пресловљене?

При пребацивању текста из латиничног у ћирилично писмо програм vucko препознаје електронске адресе и неће их пресловити у ћирилицу.

Како да спречим да се део текста не пресловљава?

Текст који не треба пресловљавати треба ставити у <lang></lang> тагове. При пребацивању из латинице у ћирилицу текст смештен између <lang> и </lang> неће бити диран, али ће тагови бити уклоњени.

Интернет читачи игноришу непознате тагове.

Како спречити ћирилизацију страних речи?

Реч која у себи садржи неко од слова qwyx се не пребацује у ћирилицу. Треба имати у виду да програм не разуме енглески и друге језике па ће стране речи без тих слова ипак бити пребачене у ћирилицу. У тим случајевима делове текста претходно ставити у <lang></lang> тагове — што је коришћено y пресловљавању неких од тест страница на ћирилицу.

Како спречити спајање слова: „nj“ у „нј“, не „њ“?

Ако треба спречити стапање слова, „n“ и „j“ у слово „њ“ онда треба поставити празан таг између,<!> ће послужити. Без тог раздвајања прогам ће неисправно пресловити „Tanjug“ у „Тањуг“ (уместо „Танјуг“). Списак изузетака није уграђен.

Како до наводника: отворени доле, затворени горе?

Већина текстова на интернету не користи правилне отворене (доле: „) и затворене (горе: “) наводнике. При пресловљавању у ћирилично писмо програм vucko ће се потрудити да исправни постојеће наводнике и усклади са правописом.

Како спречити vucko потпис/печат?

При пресловљавању у ћирилично писмо програм на крају оставља потпис, који у при прегледу HTML датотеке неће бити видљив у читачу али ипак некоме може да смета:

<!--===================================================================
Пребацивање HTML документа из латинице у ћирилицу обављено уз помоћ
програма „Вучко“ верзија 0.984, http://galeb.etf.bg.ac.yu/~alexa/
Copyright © 2003. Александар Веселиновић — Алекса
===================================================================-->

Пре свега приметите да је адреса у потпису застарела. При стартовању програма користите опцију -nosig и програм се неће потписати.

Како се из ћирилице у латиницу пребацује: ЊЕГОШ и Његош?

Програм c2l води рачуна о присуству великих слова при пребацивању слова „њ“ и „љ“. Тако се „ЊЕГОШ“ исправно пресловљава у „NJEGOŠ“ а не у „NjEGOŠ“, а „Његош“ у „Njegoš“.

Да ли ће се и римски бројеви пребацити у ћирилицу?

Ако имате латинични текст у коме се могу наћи римски бројеви (рецимо XII, III, IV, IX) Вучко ће пробати да их остави неизмењеним, али не рачунајте да то ради за све бројеве: рецимо за M или I. Пробаће да препозна комбинацију римских бројева (више од једног знака), али за сваки случај проверите пресловљени текст.

Да ли ће се „11:30PM“ пребацити у „11:30ПМ“?

Не, програм ће при пребацивању у ћирилицу покушати да препозна временске ознаке и остави их у латиничном писму.

Да ли при пресловљавању пази на мерне јединице?

Не зна за све мерне јединице али се труди: ознаке величине датотека (као рецимо 100kb), температура (20ºC), или брзина (km/s) неће бити пресловљене.

Која је званична адреса Вучка на интернету?

Програм Вучко је био смештен на неколико различитих интернет адреса али је у последњих неколико година увек био доступан преко www.aleksa.org/vucko/, али је од скора на новој адреси: http://nasepismo.net/2011/06/vucko.html — то је адреса коју можете проследити даље.

Да ли Вучко има конкуренцију?

На сву срећу: да! Вучко је био први и још увек једини програм који је могао да изађе на крај са HTML документима, и самим тим омогући лакше одржавање и прављење ћириличних интернет презентација. Због рада из командне линије није баш најсрећније решење, мада уз добар едитор то више није препрека. Прегледајте списак сличних алата.

Ауторска права

Да ли и под којим условима могу користити програм?

Коришћење програма је слободно и бесплатно. На презентацији која је пресловљена на ћирилицу уз помоћ Вучка ставити линк на ову страницу.

Преузимање програма

Програм (ознака 0.989) није мењан од 10. новембра 2003.

MD5SUM и SHA1SUM потписи архива.