google code-beautifer

顯示具有 l10n 中文 翻譯 標籤的文章。 顯示所有文章
顯示具有 l10n 中文 翻譯 標籤的文章。 顯示所有文章

星期五, 11月 06, 2009

ispell 與中文環境emacs

中文emacs使用者可能會遇到一個問題:環境是設好了可以用中文。但是用英文打字了半天想要作一下拼字檢查,卻發現錯誤訊息:"No Word lists can be found for language zh_TW",因為找不到對應語言環境的中文字典檔。

要避免這問題,可以下達
M-x ispell-change-dictionary
再指定要用的字典,比如說美式英語是en_US 。或者是在.eamcs 強迫設定變數 ispell-dictionary:
(setq ispell-dictionary "en-US")

ispell 支援中文拼字檢查的可能性


ispell 支援多國語言,但是沒有中文。他的支援語言語言清單設定在變數
ispell-dictionary-alist
裡面沒有中文。只要去看了他的編排方式,就知道至不是很適合中文這種字數是
上萬的語言。舉兩個例子:

("en_US" "[[:alpha:]]" "[^[:alpha:]]" "'" t
("-d" "en_US")
nil utf-8)

("en" "[[:alpha:]]" "[^[:alpha:]]" "'" t
("-d" "en")
nil utf-8)

星期五, 1月 04, 2008

歷史文件: 自由軟體產業

--2003 的願景到2007年底的現況

v1.0

這下面是 2003 Sep/Oct 我在軟體自由社群電子郵件論壇發表的,很多不幸的預言都已實現,有一些建設性的東西被某些單位抄去跟政府要錢,但是被亂搞一通。真正重要的東西卻沒人著力。還讓我在網路上被人倒打一記悶棍。。這以後再談。

假如能集合更多志同道合的人,記取歷史的教訓,事情的發展就會不一樣了,現下我還在默默作一些關鍵的事,希望下個四年可以有不同的景象。這裡僅作歷史文件留存,有些聯結到軟體自由協會因其經營不善而逸失,除了排版外內容儘量不更動,更新版會另外發表。
---------------------------------------------------------------------------

借回復ghost Sep 23 在Software Liberty Movement in Taiwan - 軟體自由社群電子郵件論壇
發抒一下對自由軟體產業的看法
我未修飾的原文在此
9/27
10/3

美國在outsourcing產業, 但不同於十年前,台灣要是不能走在大陸印度日韓之前,下場就會像今日的菲律賓般: 台灣從賣成衣塑膠升級到IC電腦,而菲律賓還是菲律賓。在別人也趕上來時,唯有走在前面才能生存,要是當個IT人,被不論台資或美資公司派到大陸去工作,就算不情願也是沒辦法。IBM 這個百足之蟲,投資轉型到linux 服務業不是盲目的理想。而是現實下不得不的考量,希望台灣的老闆及官員們看得到這點。

但我想在這裡有的共識是實作全字集CCCII 內碼給政府電子公文處理中心以外所有的人使用。換句話說,一旦我們做出了desktop 一般使用者的解決方案,字形公司就可以開拓新的end user市場,而不限於政府電子公文處理中心市場,市場其實可以很大,當然他們得善意的放點資源出來才能把餅坐大。

提醒一句,大陸在人力便宜的優勢下發展電玩軟體工業,他們就不會發展2byte
GBK正體字型嗎?以他們人治的體制,臺灣廠商有機會翻身嗎?文鼎之類的公司今日不幫忙自由軟體社群把全字集市場坐大,大家等著看下場吧。

資訊基本建設


有一些事是有助於自由軟體運動,也有助於所謂自由軟體產業,應該算資訊基本建設,我覺得自由/開放軟體的社群應要在這種場合呼籲編預算完成:


  • 向量字(ttf,..)of 標準楷書 in unicode, CCCII,CNS11463 in 類GPL的授權方式(文鼎只有公開big5 且聽說有部分字筆畫不合一般習慣,不適用在教科書上,Big5 的問題更不用提了,正式電子文件署名游錫(方方土)院長? 這樣的碼怎麼用!)
  • unicode 4.0 <-> CCCII <->CNS11463 <-> big5 mapping table
    ( 想要作圖書館生意嗎, 想作中文電子文獻服務的商務或研究嗎?沒有這些都免談,然後眼睜睜的看幾年後對岸用GBK碼把你的市場吃掉)如上次ghost提到Postgres 只有轉CNS11463過期的版本。各位大官大老闆們,就算Postgres是免費的,沒人把這的問題修好 ,你要怎麼作公家機關自由軟體資料庫的生意?)

    • 缺字表

      (有哪些big5字無法當unix檔名... 要提供 Samba服務嗎? 跑不掉的問題吧)

  • 其他...

    • 比較急的成立是政府電子服務障礙網,對民眾而言要能監督抱怨封閉規格造成資訊不公開。對廠商而言他們可以質疑採購封閉規格圖利特定廠商,這該是雙贏的吧。

    • CLDP,在協會的網頁已不再更新
      我們產業界的老闆們對看英文技術文件都像在廁所看金庸小說那麼順暢嗎? 假如沒有,呼籲編個預算請專業翻譯翻LDP好不好?假如國人連接觸開放軟體文件的管道都付諸闕如,是用不著多談發展開放軟體產業的。以台灣的平均研發能力是作不了英文市場的,如果在中文電腦上不著力,就等著被印度中國大陸淘汰。

      就算請一個翻譯專職一年不會用太多錢吧。



政府政策面


有個香港的朋友向我感慨,看看Debian在東方語文的討論及發展成果,就知道日本政府投下了多少力氣 。台灣人要用自由軟體做生意,可以,但先看看人家日本政府在自由軟體是怎樣鴨子划水的。假如說自由軟體是免費的午餐,也得自備餐具,夢想等別人餵就只好等死。

開放軟體的社群不用為不肖的商業模式背書,但要有對社會的影響力 。就要有監督不肖政商模式的前瞻想法,與其讓政府高談推動開放軟體產業 ,要先問政府本身做好了自身作為開放軟體消費者的準備嗎? 德國政府有個值得借鏡的例子,他們在2002就曾有一個 groupware solution 的需求,把這樣的預算拿出來請業界開發自由軟體,得標的三家公司就成立了 Kroupware 計劃然後實作出 Kolab Server 等重量級軟體。 Server GNU/Linux, FreeBSD之類的跑. Clients available for KDE 或 Windows (NT,2000), 沒有只能用微軟平台的限制。

我們個人階層要求的軟體自由,到政府階層就變成機會公平的議題 。要有人去
關切圖利特定廠商的問題,例如為何政府憑證中心(原文出自http//www.linuxfab.com/indexNewsData.php?NID=5630&PAGE=0&DETAILTHREAD=1&POSTID=\7#1-7 )只提供windows可用? 聽說電子報稅也是一樣 。政府服務用開放規格對大家(政府/個人/所有的廠商)都有好處 。舉個例子,寧願編預算給朝陽作開放軟體研究造福全國人民,政府單位及諸多開放軟體廠商,也不要給資源已比他校要多的交大編預買微軟使用執照,只有一校師生及微軟享用到好處 。這並非是否認了交大在學術研究的地位,而是要堅持資源公平及最佳運用的使用原則 。

自由軟體計劃預算應用的重點


預算應用制度,要透明公開制度

  • 發展純自由軟體計劃的優先性,要比在自由軟體上發展封閉軟體的計劃高
    免得自由軟體計劃經費都被封閉軟體拿去搭自由軟體便車

  • 要求建立好制度規範,所有經費要分次發放,避免一次全部發包 而不管計劃書的內容和結果有沒有一致,若年中前期執行成效不彰,後面的預算要能喊停,改撥到其他候選計劃

  • 要求計劃結果都要用類GPL的方式公開回饋

    • 由「名為自由軟體計劃」預算編出來的所產生的軟體部分,必須以符合 fsf 自由軟體定義, 或 osi 開放原始碼定義的授權方式釋出
    • 有很多計劃不寫一行碼,但表格文件極重要,廣義的軟體(表格文件)應也可要求用creative commons 的授權方式釋出

    避免讓不肖單位及廠商圍標走了

其他如商業開放軟體租稅減免,以國防替代役兵源協助政府機構轉向開放軟體等,可能的政策訴求,就讓大家發揮吧。

以2003 計劃未來發展



  • 長遠看,開放軟體研究,要編到大專院校資訊資管相關科系課程 。甚至,開放軟體應用,要編到專科或職技社會教育 。才有辦法培育人才滿足各方面的需求 。
    對開放原碼運動的看法。我自己的想法是,要在台灣作研究或在學校教書,就要帶一群人用打群架的方式累積一些成果, 美國一流研究發展全是團隊工作下的產物 。他們國家縱使有99/100的廢物,那1/100的精英聯手起來的力量就叫人不得不括目相看 。台灣精英遠超過1/10,沒人領導各自為政的結果就是今天的鳥樣 。以前想法比較單純 以為把我自己關注的人工智慧搞好就好了,觀察了中美社會十年 ,才深感覺得到龍應台說的: 那裡有肉就有政客,人民要自我成長,三代後才會有政治家出現 。
  • 關心開放原碼運動,其實是自力救濟:
    李果正兄有一次在論壇上提到這些應由研究機關來作,可惜台灣絕大部分的研究機關 較大的學術單位,都不是由 像洪朝貴老師這樣看得到自由軟體前景的教授領導。我對永遠的非主流派進入主流,不抱太大期望 。不說爭千秋的廢話,但爭不了今年,至少爭明後年。先把這些該作的事列出來, 在沒錢時,大家沈潛討論學新的趨勢。有錢有機會時,再把這些之前該作的完成,有機會發聲 就不要放棄機會,我不願見為商業背書,但有機會為自由軟體爭取空間就不要放過。


社群要想辦法討論出共識



  • 哪些是臺灣 FS/OSS 社群最迫切需要的
  • 與政府預定釋出的資源有無交集
    (綜觀這整件事,是政府在經濟面訴求的考量上,撒一筆錢以堵眾口之悠悠)
    但我覺得是有交集的 (詳見數日前我的post)

    沒有交集的,不如省下力氣在教育社群/自我成長上
    在有交集的地方,要求政府優先支援FS/OSS 社群最迫切需要的

大家要強調

  • 建立社群聯繫對開放原碼軟體工業的重要
  • 臺灣對嵌入式系統產業的迷思
    許多嵌入式系統廠商以為把linux 放到產品上而不管社群,顧客就會跑來。這是錯的,遠見(哈電族)及Sharp 的 linux PDA 未能擴大市場就是一個例子。

    Phillps TIVO大賣不是在賣硬體而是在賣服務,其服務的賣點在於對社群完全公開的介面,其他的類似嵌入式系統都賣的不怎樣。

    臺灣不成功的前例包括:資策會的嵌入式系統(PDA?)專案(後來一票人在Internet泡泡剛起時spin off),遠見的linux PDA,....。

    自由軟體嵌入式系統著是能賣錢,但重點是服務,不是硬體,硬體的優勢大陸廠如海爾在一兩年內就可以用低價趕上。臺灣產業及政府機構要是不能洞悉建立社群服務對自由軟體產業的重要,徒然白費力氣。

  • 不反對商業型態的開放原碼軟體,但政府不要掛羊頭賣狗肉,用自由軟體為名來作分贓的動作。oss.org.tw 很明顯應正名 oss.gov.tw "開放原碼軟體"網站之流

一點想法,願能拋磚引玉

星期六, 12月 15, 2007

Zaurus 中文資源站

(原於 2007-5-8發表於http://www.palmislife.com/thread-76432-1-2.html )

Zaurus 是一台好機器,雖然停產了,但我個人覺得未來還有可為,只是會用其他的硬體形式出現(比如說Eee PC)。就像當初Next 電腦的架構在新一代的Mac OS 上重現。以前有很多義工對Zaurus 做了很多中文資源的貢獻,要是就此散失會是很可惜的,何況還有不少人還在用Zaurus 。

我最近把籌備兩年的 電腦 l10n 正體中文社群資訊網骨幹建立起來,除了推動各式各樣的中文資源開發跟分享外外,有一個對大家都有益的是程式介面翻譯reusability的問題跟解決聯合方案,這個可以藉由查詢前人的中文資源來加速翻譯的速度。這已經獲得包括台灣 mozilla, fedora ,...等各社群的支持,我希望Zauzus 的社群也能共襄盛舉。
比如說中文化的 PO/MO 檔,這些對Zaurus 網友有用的資料,對Linux或其他平台的開放軟體也是有挹注。分享出來可以達到魚幫水,水幫魚的加成效果。這個網站是建在台灣的學術網路上,所以沒有後顧之憂,可以做一個長期的存放場所。

Zaurus 的部份在
http://l10n.fsftw.org/zaurus/
要是您有資料願意分享,請跟我聯絡

星期四, 11月 22, 2007

emacs-mule 內建中文輸入法 (v1.2)

v1.2 星期四, 一月 5, 2008

(v1.1 星期四, 十一月 22, 2007
v1.0 於 星期二 十月 19, 2004 12:22 pm 發表在
http://cle.linux.org.tw/forum/viewtopic.php?t=132)

quail


用quail選定輸入中文,在Emacs 下是在
Options->"Mule (MultiLingual Environment)->
在xEmacs 下是在
Edit->MultiLingual "Mule"->

xemacs-mule


下面是目前 xemacs-mule內建中文輸入法
在系統沒有裝中文輸入法的情況下,依然能在xemacs-mule用quail輸入中文。特別對實驗性的中文需求,如在新的作業系統或新的中文大字集環境,這點讓emacs 的內建中文輸入變成很重要。我會在這個主題下陸續討論相關的技術問題

chinese-4corner 四角號碼
chinese-array30 行列30
chinese-b5-quick 簡易
chinese-b5-tsangchi 倉頡
chinese-cns-quick 簡易
chinese-cns-tsangchi 倉頡
chinese-ctlaub 劉錫祥式粵音
chinese-ecdict 英漢辭典
chinese-etzy 倚天注音
chinese-punct-b5 標點符號
chinese-py-b5 拼音
chinese-py-punct-b5拼音及標點符號
chinese-qj-b5全角
chinese-zozy 零壹(標準)鍵盤注音
chinese-egg-pinyin
chinese-egg-zhuyin

衍生閱讀


skk 跟egg是其他兩個輸入法,非日文的資料不多,Wnn的繁體字輸入時需要 Chinese CNS character sets 這裡有一點消息

星期六, 10月 20, 2007

GCC 最佳翻譯徵求懸賞

在我的"現代中央處理器的C 整數長度"blog 文刊出後,蒙 jserv 立即回應參考 "理解 64-bit Programming Model 一文後,才發現了zonble 之前竟然blog了 本日金句:LongLong Long is Too Long」這篇妙文。我決定來個最佳翻譯徵求懸賞,共襄盛舉:

請中文翻譯 mjhsieh 當初碰到這一段gcc 編譯錯誤:
"test.c:22: error: `long long long' is too long for GCC"

原則上要詩/技(geek)意雙全為佳。

我會找幾位自由軟體社群中對文藝有涉獵的朋友作評判,有可能的話還會請一位
詩畫俱佳的藝術家前輩作評判。比賽截止日期暫定 2008 詩人節,我記得我手頭
上還有一本全新鹿橋寫的"人子"躺在某處箱子裡。要是找不到的話,至少會有一本 Linux的書作為獎品。

願意加碼提供獎品,或有其他促進更大參與層面主意的朋友,也請不吝賜教。



我先拋磚引玉:

測試點兮二二行, 編譯錯誤兮信息:
"長兮長兮長整兮、過長兮於姬兮兮"

(註: 行也可讀成 "行"走的音)

星期日, 7月 01, 2007

歷史文件: (翻譯)標準與社群的未來

以下是我2003 在軟體自由協會的論壇上發表的舊文,由於該協會經營不善,造成重要歷史資料遺失。只好在個人部落格重建部分內容,作為臺灣自由軟體發展歷史的見證。

---------- Forwarded message ----------
Date: Fri, 6 Jun 2003 06:33:28 -0500 (CDT)
From: 我的舊信箱
To: slat-talk@softwareliberty.org
Subject: (翻譯)標準與社群的未來

看到 幽靈 在 LinuxFab 談到Oopenoffice.org 1.3beta English version
Taiwan 被改成 China(Taiwan)而China 沒變成China(Mainland)
忍不住要回一下
http://www.linuxfab.com/indexForumData.php?FID=69 *註1

想要和大家討論一下該怎麼走

每次碰到這種事 有人就會反應 台灣沒參與開發自由軟體 所以使不上力
這也許是事實 但我們要如何做 以後才使得上力 是我更關心的問題

這不是嘴巴叫叫 熱心的hackers 就自動會冒出來
在阿貓阿狗也能變成熱心的hackers前 有好一段路 需要熱心的大家來打底

我想到現有的一件事是 建立標準草稿目錄 各式各樣的標準目錄

為何要標準: 可以交換回收用於其他類似的地方
如kde 的中文化選單 .po file? 可以給 gnome參考用
假如其他團體需要寄排版格式文書 Slat推薦哪幾種 pdf?, sxw?

為何要目錄: 事情太多了 必須分工 目錄是合作的依據: (權威管理's idea in library science)
如CCCII <-> unicode 3.1 mapping table list
.po 中文化項目也有上萬個 誰在進行linux哪部分文件翻譯?
沒有目錄 要合作在短期完成 如同靠天吃飯
為何要草稿: 事情不可能一次作到好 有個草稿可以逐次修正 (Prototype's idea in Software Engnering

我在藝術家與科學家間遊蕩 發現社群還有好大一段路要走 (不管台灣美國都一樣) 事情很多 其實閒置人力也不太少 麻煩是如何糾集大家(而且背景都不同)

hackers 通常只是會寫程式 不表示他們也擅長作其他苦工 其他人就該盡量和hackers 溝通需要幫忙的地方 讓hackers 就不用分太多精神在其他地方 但hackers 也最好花多點耐性解釋 技術上需要一般人幫忙的地方

UH linux 使用者協會 和Slat一樣 在網路上談純技術的時間遠少於談其他的時間 但我想在初期是正常的 因為有太多的事是有關於從技術上出發改造社會

我自己也在參與社群工作 目前在帶領 中國文學電子圖書館計畫(cell.cs.uh.edu) 有很多事也是在惶恐中作中學 網站該怎麼管? 設立論壇該用什麼軟體?
如何建立機制呈現管理標準草稿目錄讓義工分工?有太多的未知 (休士頓大學 linux 使用者協會BSD+php nuke春天被hack, slat 論壇之前被spam,... )
每一弱勢團體除各自專業的問題外 都有電腦技術上的疑慮 我衷心希望有一天 Slat 不但可以走出自己的一條路 也能有個網頁告訴其他團體在電腦技術上該怎麼作 網際網路的時代 弱勢團體在爭取特定的自由平等前 有賴軟體自由來構建凝聚族群

除了AI programming外 我也不太會寫程式 技術層面上的考量 還請開發程式的前輩指教

在公布標準草稿目錄後 就可以推動政策執行 一是法案面上 一是提供工具來促進 比如說邀集媒體定期來監督政府對的軟體自由努力 甚至白皮書支持願意替軟體自由背書的候選人
之前洪朝貴教授提的資訊分享障礙網站主意很好(只是名稱有再討論的必要)
有很多人必定樂於回報 ( 老問題 技術上如何作個bugzilla回報機制讓大眾參與?)
可以從政府機關網站開始監督 (記得順便向媒體公布該首長的大名)
在學校裡要是要求博碩士論文提供開放軟體的Style sheet,如 Tex 或 Openoffice.org
有一些人應該會投奔自由吧 慢慢就會像滾雪球般

有些人也許有疑慮Salt 與政治的參與 我想軟體自由不可能自外於政治經濟
重點在 為軟體自由參與政治經濟 而非為政治經濟參與軟體自由 許多人在 COSA
的OSS與Microsoft的立場表明的很清楚 不用我多說

大家辛苦了 一點拙見希望能拋磚引玉


-----------------------------------------------------
*註1

我在美國待了一陣子可以瞭解(但不諒解)為何會有這種錯
我建議大家(Slat)寫一個網頁供外國開發者參考比較有權威

如以地理國家分
Taiwan (big5,euc-tw,CCCII...)
China (gb2312,...)
Hongkong (big5-hkcs,...)
以主權國家分
ROC (big5,...)
PRC (GB,...)
PRC (Hongkong) (,..)
以地域分
China (Mainland) (big5,..)
China (Taiwan) (GB,..)
China (Hongkong) (,...)

細節可以再討論(獨派人士可能對第三項有意見)
但我的基本原則是兩岸的命名要對等 不能單向包括

星期二, 6月 12, 2007

在OpenOffice.org 中文計劃上歷史的今天

參與 OpenOffice.org 中文計劃的人,甚至臺灣開放軟體社群不參與OpenOffice計劃的人,大概很難不注意OpenOffice中文計劃第一任管理員黃沛霖的講話。在那麼多正體中文跟簡體中文言論上的衝突場合裡,先不管誰是誰錯,我覺得他是極極少數能讓雙方都能平靜下來聽他說話的人。像較於一些只會高分貝雞同鴨講的基本教義派,他光是這點我覺得就很難得的。相對於臺灣一堆都在正式的OpenOffice.org 中文計劃之外打轉沒有進入核心的人,這幾年參與OpenOffice.org 中文計劃的簡體字人數優勢漸漸超過用正體中文的義工,不過相處還相當融洽,這是非常難得的。很可惜他因為個人因素即將要卸任,對於臺灣OpenOffice.org 的社群,甚至開放軟體社群,我覺得臺灣都不見得有人能取代他對正體中文 OpenOffice.org 的助益。對我的感覺,就像 Keith Packard 從 Xfree86.org 離開一樣。只不過Keith Packard 當年是被迫的,黃先生是主動的。

很多事情我不能明講, 這只有長期在中文 OpenOffice.org 待的人才能體會。很多事不是我一個人能控制的,所以我在OpenOffice.org 中文計劃開發者論壇留了一個回應,留待幾年之後大家回頭來看這個事,就知道什麼是我不能明講的。

-----------------------------------------------------

黃兄作為第一任中文計劃管理員,從無到有開創了目前的局面,我覺得非常難得。我個人從一開始就參與OOo中文計劃,覺得在參與者裡少有像黃兄這樣熱心的,黃兄退下這個位置是OOo中文計劃的損失,不過也祝福黃兄個人前途大展。

之前有些長期參與的義工也很熱心竟然都沒有出來接這個位置,現在有人出來接當然是很好。只有一點小小的想法: 希望借這個第一次轉換的機會,為將來更好的發展打下基礎。我對誰來接沒有什麼意見,這主要是程序的問題,其實黃兄要叫誰接,我想也沒有多少人有異議。不過既然黃兄特別提到用民主的方式,我希望藉此建立起一個好的制度,讓OOo中文計劃以後的管理員,都能基於前人的基礎愈做愈好。真正的民主不是嘴巴高喊"人民"或"社群"口號,而是能真的在這些小節裡落實:

1. 贊成/反對票到時會不會公開計名? 不公開計名的話,票是寄到黃兄的哪個私人信箱去?
2. 贊成/反對票是針對個人投兩票,還是對這兩個人整體投一票?

Pui Lam Wong 提到:
> > 各位好。
> >
> > 因為個人時間不足,固在與 OpenOffice.org Native Language Confederation 主席 Charles-H. Schulz、副主席 Louis Suárez-Potts、一些中文計劃成員、以及一些自由軟體人士討論後,決定任命兩位新主席共同掌管中文計劃:洪宗勝博士及 Cheng Lin。
> >
> > 二人簡介列於此信之下。對此一決定無反對意見者,請回覆此信並於回信第一行寫上「+1」。若有反對者,請於回信第一行書「-1」,並請書明原因。有問題者,請回信發問。
> >
> > 表決期為七日。即表決將於北京時間 2007年6月19日 23:59 終止。若讚成者多於反對者,此一任命張於 2007年6月20日 00:00 生效。
> >
> > 在下手頭上所有的重點資料皆在下面,若有重要遺漏,請 Mr. Lin 及 洪博士回信補足。
> >
> >
> > 黃沛霖上
> >
> > -----------------------
> >
> > 洪宗勝
> > ===
> > 洪宗勝博士,號威豆,網上人稱「威豆博士」。1987年得清華大學核子工程博士之位。2000年,成為 RedHat Certified Engineer 及 RedHat Certified Examiner。2003年當選(台灣)軟體自由協會第二屆理事,及(台灣)開放系統協會第六屆理事。2002 - 2003 年間多次應邀到不同大學及組織演講與推廣自由軟體。2004年為(台灣)資訊工業策會顧問,輔仁大學資訊管理所助教,青年國是會議自由軟體題之専家證人,後為晟鑫科技總經理。2005年,與 Firefly 等人共同發起「中文OSS 桌面應用增進計劃」(http://opendesktop.org.tw)。2006年當選開放系統協會第七屆常務理事。
> >
> > Cheng Lin
> > ===========
> > Cheng Lin 於 2001 至 2004 年間掌管 RedOffice 之開發及發佈。後於 2006 年,成為 OASIS UOML (http://www.oasis-open.org/committees/tc_home.php?wg_abbrev=uoml) 及 Chinese UOF (Uniform Office Format) Standard 組織之成員。同年,始掌 RedOffice 之人手及以 OOo VCL TestTool 完成之自動測試。

星期日, 1月 21, 2007

程式介面翻譯reusability的問題跟解決聯合方案

* 背景:
某人今天在Mandriva Linux 上的Gnome桌面用了某英文介面程式,覺的不錯想把他中文化,可是他對各個開發社群並不很瞭解。

態度一:管他的,自己翻譯PO檔自己爽就好。(結果一堆使用者作重複的事)
態度二:管他的,先作再說。找個地方發表PO檔就算功德圓滿(結果進不了上游,下一版還是英文)
態度三:我用Ubuntu,上Rosetta把PO檔發表回溯上游啊 (結果跟上游衝突,見http://www.ubuntu.org.tw/modules/newbb/viewtopic.php?viewmode=flat&topic_id=403&forum=8)
態度四: XXX,我來找有心的社群朋友們一起來解決這個問題(這篇要討論的)

直接去Rosetta 改不是Ubuntu only但上游已經有人作的軟體,會出一些問題,
Rosetta https://launchpad.net/rosetta是專為 Ubuntu 服務
不提供像是 CVS 或 SVN 等傳統的管理機制。建議直接至上游 upstream 聯繫。

問題1:這個軟體的上游到底在哪裡?
Adacity -> 獨立 (雖然我是在 Mandriva/Gnome下跑)
xmms -> 獨立(可是Mandriva 上翻譯有列xmms 耶!,那Ubuntu Linux或其他XYZ Linux的使用者又該上游到哪去?)
denemo -> 獨立 (用了 Gnome project 下的gtk,但不是 Gnome project 下的)
Gmorgan -> 獨立 (有G 字頭的但不是Gnome project 下的)
Amarok/rosegarden ->KDE (雖然我是在 Mandriva/Gnome下跑)
Krusader -> 是KDE 嗎?(不見得,沒有G 字頭的也可能是Gnome project 下的)
其他軟體-> ?
比如說 Rosegarden
http://www.rosegardenmusic.com/resources/documents/i18n.shtml
是屬於誰呢?


問題2: 我在XYZ Linux 上看到 LMN 軟體的訊息"ABC"沒有翻譯,到哪找其他UVW Linux 上的OPQ 軟體對"ABC"這個詞的翻譯?

* 解決方案

我要作的跟鄭原真先生的"KDE PO 資料庫"(註一)有一點類似,不過我不想
被綁在KDE或Web上,我希望能有更大的彈性。真正的用意不是在只搜尋一個計劃
的PO翻譯,而是去看多個計劃的PO翻譯情況。所以打算先建個好的local PO/MO
查詢環境作基礎,往後再慢慢往上加其他的東西(作firefox search plugin,...
之類的加強。)以及合併其他格式翻譯對照。
作的彈性一點,可以先下載PO檔資料,在離線的時候也可以用local databae 來
查詢,或是查詢local機器上的商用翻譯軟體。

最簡單的應用例子:要知道某軟體的上游在哪,就去database 裡搜尋哪個計劃的
網站索引是有存這個軟體PO檔...一下就可以知道 urpmi的上游在 Mandriva。
當然還可以看哪個人對哪個詞是怎樣翻譯的。比如同樣是正體中文,我對
process 不會翻"進程"而會翻"程序";要認領翻譯某個程式想知道有沒有人已經
開始動手了,....都可以用這個來解決查詢

然而撇開對個人翻譯查詢單詞的效率提升之外,這個計劃的成功還是得基於在社群互助的善意上。假如所有人都持上面的態度一或態度二,那還是成不了大氣候。
套用我對美國社群的說法: "Help me so that I can help you!"
除了請能寫程式的朋友幫忙寫,也需要不懂程式但參與各個不同翻譯的朋友有機會看到其他的翻譯時,能幫忙宣揚這個機制,務使所有的翻譯成果都能儘量的累積回收。

我有把雛議送給幾個zh-TW 翻譯社群領袖,目前mozTW領頭的趙柏強,BOINC
的Jose Sun,tug的Pake ,openoffice的黃沛霖,還有一些其
他獨立翻譯人,已經表示支持我這個聯合翻譯參考資料庫的想法。

我對PO 的詳細格式不熟,得先參考看看別人作的查詢環境來寫我的Perl code。
但我想作系統分析,跟公眾關係還可以。各個計劃(如openoffice)的翻譯資料格式長的不太一樣,希望不同社群朋友能來幫忙一起作。

* 各計劃翻譯索引

** GNU正體中文翻譯
GNU正體中文翻譯官方索引
http://www.iro.umontreal.ca/translation/registry.cgi?team=zh_TW
有兩個表格

其中第二個表格欄位
Domain 程式名(連結指到各種語言的翻譯資料)
Assigned translator 翻譯人英文名(連結指到翻譯人的Email/網站)
Version (最後)翻譯版本
Translated 中文翻譯項目數量/該版本PO項目總數
Current Version 最新版本(假如翻譯版本比較舊)
Translated 中文翻譯項目數/最新版本PO項目總數


從Domain連結指到各種語言的翻譯資料的檔案中
其中第二個表格欄位,
第一欄是語言,比較可能為台灣翻譯者參考的資料有
zh_HK
zh_CN
zh_TW
ja
第三欄是指到實際的翻譯PO檔的不同版本(連結指到其URL)

我想在server 用at 或 cron table 每半天抓一次最新的PO檔
把msgid,跟對應的msgstr 讀到database 去
我們就可以用database query 來看某人/某程式/某版本/的某message 是如何翻譯
但是msgid跟msgstr裡會有夾雜引數用法,比如說
msgid "This program is running as process number $pid."
msgstr "本程式正在執行中,進程編號為 $pid。"
$pid 要考慮分開處理。
基本上用笨方法字串全文檢索,就可以搜尋"process",而得到一堆
msgid 包含 "process"跟他們對應的msgstr
(我還沒想到要怎樣把對應的詞從字串中找出來,註二),不過先這樣應該夠了,
以後再去fine tune。



以下我還沒時間分析,待續
** Gnome
http://l10n-status.gnome.org/HEAD/zh_TW/index.html
http://l10n-status.gnome.org/gnome-2.18/zh_TW/index.html
http://linuxhall.org/~deaddog/evolution-po/

** KDE
http://i18n.kde.org/stats/gui/HEAD/zh_TW/index.php
http://i18n.kde.org/stats/gui/KDE_3_5_BRANCH/zh_TW/index.php
http://i18n.kde.org/stats/gui/KOFFICE_1_3_BRANCH/zh_TW/index.php

** Openoffice

用到特殊格式,解讀message 檔需要特殊軟體(SunTrans),所以只能由OOo member 作message 檔格式轉換。

jose > 如果可以的話,Openoffice 或許可以用rosetta這個模式修改之後一併送給 Sun

** Mozilla

有關於 Mozilla 相關程式的部份,Mozilla 未來也有打算改採 po 格式的locale,這樣就會省事些。現在還沒。

字詞資料庫的部份,moztw 能作的就是分享給大家moztw的翻譯表(定點,跟經常更新)
一但有更動格式或地點,要跟我們說一聲

定期從 source 抓資料的話,可以直接連到 CVS tree 抓,但是格式需要轉換一下。
database server 端這邊需要知道 CVS tree checkout 的詳細程序跟檔案URL,
格式可以在database server 端這邊轉換,但需要moztw提供格式詳細資料
moztw 的 Jose sun 已提供了CVS 的資料。

** Mandriva
http://www.mandrakelinux.com/l10n/zh_TW.php3

** Ubuntu

** Fedora

** Suse

** Debian

** Gentoo

** zaurus(linux)

** 其他計劃

除了提到的那些大部頭軟體/distro 還有很多獨立軟體。這些是也要慢慢建立認
領翻譯的索引。假如哪為朋友有為哪個獨立開放軟體作中文化的工作而願意跟我們分
享,請跟我們聯絡

*** BOINC
也是 PO 格式,locale owner: Jose Sun



* 資源

** server 可以放在 http://l10n.fsftw.org/ 上面有database
** 開發的code 我可以建一個google code project,要參與而需要gmail 邀請函的可以
跟我說一聲

註一:
鄭原真先生在
[Zh-l10n] KDE PO 資料庫 update !!
http://www.linux.org.tw/pipermail/zh-l10n/2004-December/003500.html
上說到
C / Script / php code 在
http://rt.openfoundry.org/Foundry/Project/index.html?Queue=65

其中
http://words.2share.net/podb/已經離線了
不過
http://words.2share.net/index.php/%E9%A6%96%E9%A0%81
還在

原先他這個東西主要是綁 mysql. kde 在他的 sql schema 只是一個欄位,
web 對他來講, 也不過是因為有一個 php 可以快速的 query mysql / provide
service.

原始碼在
http://rt.openfoundry.org/Foundry/Project/index.html?Queue=65
http://svn.openfoundry.org/zhi18nmisc/
在trunk/podb/下
trunk/stcc/下是簡正中文互換的程式

註二:
也許可以把所有包含"process"msgid對應的msgstr去找最大共同中文字串
(不過萬一同一個人有不同譯法還是會有誤,這裡要如何去猜才好,我可能會寫
一篇小論文來討論...)

註三

Bob Chao建議:

>提供「參考」比意圖「統一」來得好些,一則同樣的字詞用在不同軟體可能用詞
> 也不同,二則感覺上除了專有名詞不應分歧擾亂視聽之外、一些日常用語本來就
> 可以有不同面目(例如「郵件」與「信件」可能都是不錯的詞)。
>
> 如果除了譯詞的查詢之外,也同時能提供相關的討論串,或許也不錯。每個人選
> 用某詞應有理由,大家也常花了很多時間討論,除了「結果」(譯詞)之外若此
> 計畫也能兼以集中過去各項討論,對查詢者來說應該會方便許多、決定使用某詞
> 時也更能了解緣由而不僅是「依個人喜好/習慣」。

你說的"針對不同上下文,詞可以有不同的翻譯"這我完全同意,提供某詞在某語
境,不同的翻譯考量的相關的討論也是很對,
但是這已經不容易用程式自動收集,而需要大量人工。但我們可以做到的是,按我
的計劃去跑database,然後給個別計劃(如mozTW)
一份翻譯對照表,你們再用這份翻譯對照表去自己網站搜尋相關討論。用人工作摘
要。要跨計劃作也是有機會,不過不是三兩下就作的出來的。這先列為中期計劃,
先把基本詞查詢對照表做出來再說,不過以其他Linux 上遵照 PO/MO 模式的軟體
翻譯格式有列翻譯者,你可以搜尋不同翻譯者對某詞的不同翻法(假定他們都維持
同一風格)

jose sun 建議:

> 目前看起來僅在「參考」用,而非像 Rosetta 一樣能修改翻譯,
> > 雖然 Rosetta 有關起門來自己搞的問題,但是他的集中管理想法很不錯,或許
> > 可以和各個 zh-TW
> > 的翻譯者協調好後,可以線上修改,這樣想翻譯的人就不需要從上游翻譯,而
> > translator
> > 則可以對每個詞審核!

Rosetta 走的方向是個理想,但有賴於跨社群的合作,很多人甚至不知道上游的問題。真要作的話要有完善的 locking 機制,免的給上游翻譯造成不一致。這先列為中期計劃,

註四:
介紹要如何使用 KBabel 來做 KDE 應用程式界面與文件的翻譯工具。
http://kde.linux.org.tw/index.php?pagename=KBabel
* 先將 template 與 po 檔 checkout 下來。
$ mkdir -p kde/translate
$ cd kde/translate
$ svn co "svn://anonsvn.kde.org/home/kde/branches/stable/l10n/templates"
$ svn co "svn://anonsvn.kde.org/home/kde/branches/stable/l10n/zh_TW"