Формат појмовника — диверглос ИксМЛ

Часлав Илић caslav.ilic at gmx.net
Sat Apr 12 12:48:26 UTC 2008


(Послато на адресе Нашег писма, превода Федоре и Опенофиса, као минимални
скуп који ће пратити већина активно укључених у тренутна дешавања на домаћој
сцени превођења слободног софтвера, и у овом тренутку посебно
заинтересованих за усаглашавање терминологије.)

По систему „објави ил' нестани“, пошто сам бар на два места приметио намере
да се пређе на „други ступањ“ састављања и усаглашавања превода које
користимо по разним окружењима, пожурих ових дана да довршим свој предлог за
складишну подлошку таквом подухвату — формат појмовника.

У питању је ИксМЛ формат, посебно скројен за наше потребе на основу мог
досадашњег искуства и постојећих формата и извора. Нпр. посебно сам обратио
пажњу да подржим све могућности са recnik.prevod.org (које су у функцији
појмовника, не рачунајући гласање). Кратак (кх, кх) текст о формату налази
се овде:

http://caslav.gmxhome.de/writings/divergloss.html

али је можда боље да претходно прођемо кроз један пример тачно прилагођен
нашем миљеу :) Ево таквог појмовника, подељеног у две датотеке (прави би био
исецкан ко̑ помфри, наравно):

http://caslav.gmxhome.de/writings/dgex01.xml

http://caslav.gmxhome.de/writings/dgex01-keydefs.xml

Прво отворити dgex01.xml; то је највиши документ, који укључује све
поддокументе (овде само овај други). Матаподаци, наслов појмовника и слично,
то је јасно. Прескачемо укључивање &keydefs;, прелазимо на концепте. Прво и
главно је да појмовник није уређен као „енглеска реч, српски превод“, већ на
нивоу појмова, сваки са јединственим кључем. Појам садржи кратак опис, за
којим следе изрази који га именују, енглески и српски. Поред језика,
посебно, изрази се могу разликовати по *окружењу* где је неопходно.

Први концепт, id="cut", садржи атрибут related, којим се указује на кључеве
повезаних појмова („види и...“); слично, у његовом се опису помиње појам /
clipboard/, на који се шаље ознаком <ref>. Текст који <ref> омотава мало је
чудан: угњеждени бирач, који узима део текста према окружењу у којем се
појмовник представља (нпр. да л' на сајту Мозиле, или где већ). У њему,
ниске fed, moz, ooo, кључеви су окружења. Потом следе енглески и српски
израз, и то је крај концепта.

Наредни концепт, id="copy", приказује један нови моменат у односу на
претходни: када се израз разликује од окружења до окружења. Тако су дата два
израза, ‘копирати’ и ‘умножити’, специјализована по окружењу један са
атрибутом env="fed", а други са env="ooo moz". Тако се опет при градњи
појмовника за одређено окружење може испоставити прави израз за дати појам.

Концепт id="copyfs" је ту да илуструје непходност поделе на појмове: иста
енглеска реч, у овом случају /copy/, користи се за два различита појма. У
српском може бити и другачије; нпр. овде сам (чисто примера ради) ставио да
сва окружења користе ‘копирати’ (просто тиме што нема специјализације).
Даље, ту је и пример како израз који именује појам може бити „проширен“
(ознака <eterm>) са више детаља о том изразу; овде је само прокоментарисано
(ознака <comment>) да извесни уредник није сигуран у вези са
специјализацијом израза. Као и кључеви окружења, уредник је дат кључем у
атрибуту by="ci".

Потом долази концепт id="paste", који је дат само као пример појма за који
имамо какофонију израза (оно што је за све нормалне људе, је ли,
„пејстовати“). Неки су по окружењу као и раније, неки су из других
терминолошких извора (атрибут src="rmk"), итд.

Концепт id="clipboard" уводи још два елемента. Први је деклинација као
проширени податак израза (ознака <decl>), овде у српском традиционално
незгодни генитив множине (атрибут gr="genmn", који опет даје кључ облика).
Други је више детаља о појму (ознака <details>) из спољашњег извора, на који
указује атрибут root="rwpen", кључ енглеске Википедије.

Е сад, шта са свим тим кључевима по атрибутима? Прво, *сваки* атрибут у
диверглос појмовнику садржи кључ нечега, никад текст који би се кориснику
директно приказао. Друго, сви кључеви који нису сами концепти, односно оно
што стоји иза њих, дефинисани су оним укључењем које смо прескочили на
почетку: сад отворити датотеку dgex01-keydefs.xml. После водичке туре кроз
концепте, њен садржај је сад вероватно интуитивно јасан (кључеви који се
користе у појмовима дефинисани су свуда атрибутом id="...").

Толико што се тиче формата. Предлози су наравно добродошли, само имајте на
уму да сам гомилу ствари већ са̑м одбацио ради једноставности :)

Од алата за обраду диверглоса, до сада сам написао само ДТД:

http://caslav.gmxhome.de/writings/divergloss.dtd

(ако се смести у исти директоријум са датим датотекама појмовника, овај се
може оверити рецимо помоћу xmllint --valid dgex01.xml >/dev/null). На
жалост, ДТД-ом не могу да се улове све могуће семантичке погрешке, нпр.
давање кључа уредника у деклинацији и томе слично. Иначе планирам питонску
скриптицу која би, поред овере свих елемената изнад ДТД-а, извозила
појмовник у разне формате, с различитим нивоима детаљности и могућношћу
специјализације за одређено окружење. ХТМЛ за почетак.

Као што рекох на почетку, предложени формат је само складишни елемент
„Појмовника радне површи“. Ако бисмо се и прихватили диверглоса, треба
разрешити још свакаква организационо-представна питања за заједнички рад на
појмовнику.
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 189 bytes
Desc: This is a digitally signed message part.
Url : http://lists.fedoraproject.org/pipermail/trans-sr/attachments/20080412/7739a64f/attachment.bin 


More information about the trans-sr mailing list