終於把mageia 6 裝起來。(之前不知為何進入桌面幾分鐘之內就會自動重開機,只好再重裝。)這一次改版終於把中文整合搞定到順手。我之前在mageia 5裝好堪用的hime 輸入法在這一次又沒法用了,但因為ibus新酷音這次可以整合到堪用,(甚至比windows 7/10+pime新酷音還好)所以就先回到ibus新酷音。這下可以一直停在新酷音輸入法不要動,然後用shift鍵快速做中英切換。這對中文使用者應該是要有的基本功能,但這幾年主流設計都是不同語系要切換用不同輸入法輸入,但是不同輸入法輸入之間切換的時間延遲代價比起在單一中文輸入法裏做中英模式切換來的高很多。所以問題很多都變成很難用,這次算是回復到應有的水準。不管是gnome-terminal 或 xed(取代gedit),輸入中文都沒問題。emacs還沒時間試。
不過呢,因為gnome-shell 語言列只能顯示目前哪個輸入法而不能顯示額外的狀態,所以我又裝了topicon plus 這個擴充讓ibus新酷音在狀態列顯示多餘的圖示,而這圖示的右下角在全形時會顯示橘色圓圈提醒。可以用把游標移到該處用滑鼠右鍵切換全半形,我覺的算是蠻合理的設計。但是有兩個問題:一是新的gnome shell 預設是使用wayland 的後端而非xorg 的後端,但是有一些舊程式一時還沒做出相容的措施,在登入使用wayland 後端topicon plus 就看不到該程式,比如說blueman 。這不是topicon plus的問題,因為ibus新酷音在兩者下登入都可以在topicon plus內正常顯示狀態顯示
另一個就是遠憂:GtkStatusIcon 在gnome-3.26 之後就要被Gtk+ 拿掉了。到時你想用topicon plus 來hack顯示狀態顯示都不成。所以下次改版前要把這問題解決。我查了一下,牽涉很多並不是很容易,不過也不是不行,後面有頭緒再來開一個專案跟分享一些想法。
開放世代("Generation Open"),特指以 "Open Content" (開放內容,包括知識,軟體與創作,...)為出發點的一種新的生活型態 但這裡強調的是群體長期的自由,而非個人一時的自由,因為個人一時的任意自由,是可以被有心人不公不義的用來去擷取個人利益而妨礙群體長期的自由,那不是大家所樂見的。
google code-beautifer
星期二, 10月 17, 2017
星期三, 6月 07, 2017
用 windows版emacs輸入中文
忘了是 23 版還是24 版之後的emacs 加入了unicode 支援,所以在新的winodws 上輸入中文還是改用unicode 編碼吧
得先安裝unicode-fonts套件
然後把這兩行加到.emacs
(require 'unicode-fonts)
(unicode-fonts-setup)
在windows 下.emacs 他的路徑要放在\User\使用者名稱\AppData\Roaming\之下 (怪異的是我照新的方式在.emacs.d下設置init.el 沒用 )
中文輸入法我目前是用pime ,不過pime 1.10 或0.16對emacs 都有個問題:在按enter 之前,選字buffer 不會出現,但是按enter後選字buffer 的內容會正確送到應用程式裡
可是在其他編輯程式如emeditor下 pime都沒有問題
然後目前cygwin mate desktop下我沒有辦法輸入中文,可能跟它預設的ibus 輸入有關,
cygwin 版emacs其實可以用symbolic link 跟windows版emacs共用設定檔,但是額外安裝套件跟路徑得自己搞定
得先安裝unicode-fonts套件
然後把這兩行加到.emacs
(require 'unicode-fonts)
(unicode-fonts-setup)
在windows 下.emacs 他的路徑要放在\User\使用者名稱\AppData\Roaming\之下 (怪異的是我照新的方式在.emacs.d下設置init.el 沒用 )
中文輸入法我目前是用pime ,不過pime 1.10 或0.16對emacs 都有個問題:在按enter 之前,選字buffer 不會出現,但是按enter後選字buffer 的內容會正確送到應用程式裡
可是在其他編輯程式如emeditor下 pime都沒有問題
然後目前cygwin mate desktop下我沒有辦法輸入中文,可能跟它預設的ibus 輸入有關,
cygwin 版emacs其實可以用symbolic link 跟windows版emacs共用設定檔,但是額外安裝套件跟路徑得自己搞定
星期六, 2月 11, 2017
在ibook G4 上安裝lubutu 16.04
基本上就跟這一篇在ibook G4 上安裝ubutu mate 15.10 步驟一樣,不過lubutu 16.04 已經把http://ports.ubuntu.com/加進去了,預設軟體管理換成synaptic,省掉很多麻煩
系統基本設定裝完後,第一件事先做套件更新,然後把字形之類的介面設定調一下,安裝hime 中文輸入跟其他個人需要的軟體。老機又可以嚇嚇叫了
在這種10幾年老機上。跑LXDE 速度真的比mate 還快,比起之前的使用經驗好很多。只可惜lubutu 的powerPC 版久久才改版一次,不過對我而言12"螢幕等於隨身帶個大號的平版,感覺比10" 的平版跑被閹割的作業系統來的方便。感覺比較省電:同樣舊電腦,core 2 due 三兩下就沒電了。這個可以撐3 小時。所以不需要大量運算的場合用這還比較方便。
sensord 是我在x86 系統上愛用的溫度監視器,但是我照x86 上經驗跑sensord-detect 這一些程式都出不來,所以先放棄
再則面板上氣象溫度我沒有辦法正確搜尋當地地理位置,不過這機子不是工作主力,也就先擱著
之前裝gnome 3-based 發現ibus 會跟hime 衝突。這邊目前還沒看到這樣情況,但是fcix 反而跟系統綁在一起不容易拿掉。就先放著不動他
系統基本設定裝完後,第一件事先做套件更新,然後把字形之類的介面設定調一下,安裝hime 中文輸入跟其他個人需要的軟體。老機又可以嚇嚇叫了
在這種10幾年老機上。跑LXDE 速度真的比mate 還快,比起之前的使用經驗好很多。只可惜lubutu 的powerPC 版久久才改版一次,不過對我而言12"螢幕等於隨身帶個大號的平版,感覺比10" 的平版跑被閹割的作業系統來的方便。感覺比較省電:同樣舊電腦,core 2 due 三兩下就沒電了。這個可以撐3 小時。所以不需要大量運算的場合用這還比較方便。
目前遇到問題
sensord 是我在x86 系統上愛用的溫度監視器,但是我照x86 上經驗跑sensord-detect 這一些程式都出不來,所以先放棄
再則面板上氣象溫度我沒有辦法正確搜尋當地地理位置,不過這機子不是工作主力,也就先擱著
之前裝gnome 3-based 發現ibus 會跟hime 衝突。這邊目前還沒看到這樣情況,但是fcix 反而跟系統綁在一起不容易拿掉。就先放著不動他
星期六, 7月 02, 2016
關掉 gnome desktop screensaver 的密碼要求
這一年megeia 5常常遇到一個怪異情況,電腦idel 一段時間後被screensaver 鎖住這是正常的,但是打半天密碼根本進不去,害我得硬是切到文字組態,砍掉舊的X 行程重新來過。因為當掉時按打大小寫切換鍵是有效的,但是英文密碼就是輸不進去,所以我懷疑我裝的 hime 中文輸入跟gnome desktop 整合有問題 。這個問題要修不知哪年才得解決。
但是不能讓電腦這樣有事沒事給我罷工,所以只好先把screensaver 預設用密碼鎖住的行為關掉。網上找了一下,有很多gnome舊版的資訊都不能用了,新一點的(3.14 以後)是用(主選單->系統工具->)dconf 去改org.gnome.desktop.screensaver.lock-enabled (把他關掉)
這個選項以前是有整合在桌面GUI 裏供人選擇,但是這幾年gnome 3 改的亂七八糟,不知為何這個選項跟很多選項就被拿掉了,得自己hack。希望megia 6 搭配的 gnome 3.20 會好一些
但是不能讓電腦這樣有事沒事給我罷工,所以只好先把screensaver 預設用密碼鎖住的行為關掉。網上找了一下,有很多gnome舊版的資訊都不能用了,新一點的(3.14 以後)是用(主選單->系統工具->)dconf 去改org.gnome.desktop.screensaver.lock-enabled (把他關掉)
這個選項以前是有整合在桌面GUI 裏供人選擇,但是這幾年gnome 3 改的亂七八糟,不知為何這個選項跟很多選項就被拿掉了,得自己hack。希望megia 6 搭配的 gnome 3.20 會好一些
星期二, 3月 15, 2016
Linux 多媒體系統隨身光碟/USB
我試過了以下幾個
這些都停止發展了,只剩APODIO
目前我愛用 Apodio
iso 檔3.8 GB 所以最好準備個8G 隨身碟給他
APODIO 跟artistx 兩者改過設定之後都可以把USB 碟變成可寫的。
artistx 的repository 可以裝gcin 但是只有pd 。雖說新的 pd (0.4.3)之後然後手動增加pd外掛增強模組(Externals wrangler for Pure Data)deken也可以
apodio 內建沒有gcin可裝,但是內建pd-extended
- bolic 現在根本就進不去
- artistx.org只有puredata沒有pd-extented,
- krosspop 跟Apodio是32bit
- puredyne有分64/32bit 的版本,是安裝 pd-extented
這些都停止發展了,只剩APODIO
目前我愛用 Apodio
iso 檔3.8 GB 所以最好準備個8G 隨身碟給他
APODIO 跟artistx 兩者改過設定之後都可以把USB 碟變成可寫的。
artistx 的repository 可以裝gcin 但是只有pd 。雖說新的 pd (0.4.3)之後然後手動增加pd外掛增強模組(Externals wrangler for Pure Data)deken也可以
apodio 內建沒有gcin可裝,但是內建pd-extended
星期一, 10月 21, 2013
Linuxer/Emacser 在OSX 下用PC的鍵盤
v 0.9
(還在摸索中。下面不定期增補)
理論上
Command (⌘)鍵對應到window鍵 (emacs 的super鍵)
Option (⌥) 鍵對應到alt鍵 (emacs 的meta鍵)
但是在呆鵝牌的鍵盤上,不管是firefox ,終端機,....他們的⌘對到alt鍵。所以我只好去系統偏好設定的鍵盤設置裡把這兩個鍵交換
1. 把 spotlight 的^-SPC快捷鍵關掉,不然使用中英文切換一定會抓狂,反正spotlight少用而且桌面右上角就是spotlight 了。理論上,可以用小麥注音一直進入到注音輸入法,然後用capslock 鍵切換中英,但是有些程式好像不支援(比如說processing),按半天capslock 鍵只是英文切換大小寫,特別是輸入看不見的文字時,所以還是把這切換換成跟Linux一致的^-SPC
2. 把 space 的 ^-左鍵 ^-右鍵 快捷鍵關聯拿掉,這樣emacs 才用的爽。反正關掉還可以用^-1 ^-2快捷鍵切換。這要到space設定裏把 ^-方向鍵 關掉或換成 option-方向鍵
奇怪的是:明明在emacs 裏就是好好的沒事。但終 端機bash的 ^-左鍵 ^-右鍵 在OSX沒了,這得想辦法把他補回來。記得到終端機設定裏:鍵盤有個使用option key as meta key 的選項要勾選。然後 ^-左鍵的鍵盤碼要設成 ESC b ,(銀幕上的顯示碼是 \033b) 。用同樣方式改 ^-右鍵 到\033b
這樣bash的 ^-左鍵 ^-右鍵就正常了。
假如把滑鼠的第三鍵對應dashboard 的連結關掉,這時終端機/emacs的滑鼠 highlight/select 就可以搭配滑鼠的第三鍵作如同X windows 下的copy and paste !這樣工作就順手多了。但是這只有部分程式支援,其他的像firefox 還是沒辦法。需要用其他軟體設定,這以後再說
(PS.
有人是用這個
https://pqrs.org/macosx/keyremap4macbook/index.html.en
或
http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=ukelele
不過我對第三方鍵盤程式安全比較保守,不喜歡用)
(還在摸索中。下面不定期增補)
理論上
Command (⌘)鍵對應到window鍵 (emacs 的super鍵)
Option (⌥) 鍵對應到alt鍵 (emacs 的meta鍵)
但是在呆鵝牌的鍵盤上,不管是firefox ,終端機,....他們的⌘對到alt鍵。所以我只好去系統偏好設定的鍵盤設置裡把這兩個鍵交換
1. 把 spotlight 的^-SPC快捷鍵關掉,不然使用中英文切換一定會抓狂,反正spotlight少用而且桌面右上角就是spotlight 了。理論上,可以用小麥注音一直進入到注音輸入法,然後用capslock 鍵切換中英,但是有些程式好像不支援(比如說processing),按半天capslock 鍵只是英文切換大小寫,特別是輸入看不見的文字時,所以還是把這切換換成跟Linux一致的^-SPC
2. 把 space 的 ^-左鍵 ^-右鍵 快捷鍵關聯拿掉,這樣emacs 才用的爽。反正關掉還可以用^-1 ^-2快捷鍵切換。這要到space設定裏把 ^-方向鍵 關掉或換成 option-方向鍵
奇怪的是:明明在emacs 裏就是好好的沒事。但終 端機bash的 ^-左鍵 ^-右鍵 在OSX沒了,這得想辦法把他補回來。記得到終端機設定裏:鍵盤有個使用option key as meta key 的選項要勾選。然後 ^-左鍵的鍵盤碼要設成 ESC b ,(銀幕上的顯示碼是 \033b) 。用同樣方式改 ^-右鍵 到\033b
這樣bash的 ^-左鍵 ^-右鍵就正常了。
假如把滑鼠的第三鍵對應dashboard 的連結關掉,這時終端機/emacs的滑鼠 highlight/select 就可以搭配滑鼠的第三鍵作如同X windows 下的copy and paste !這樣工作就順手多了。但是這只有部分程式支援,其他的像firefox 還是沒辦法。需要用其他軟體設定,這以後再說
(PS.
有人是用這個
https://pqrs.org/macosx/keyremap4macbook/index.html.en
或
http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=ukelele
不過我對第三方鍵盤程式安全比較保守,不喜歡用)
星期三, 2月 06, 2008
中文頻率最高的前100個詞
下面的資料是來自「中央研究院平衡語料庫詞集及詞頻統計(Word List with Accumulated Word Frequency in Sinica Corpus 3.0)」。這跟Big5 產生的年代已經有一些距離了。
可是我很好奇,會不會有些字即使後來使用頻率居上,比如王建(火宣),陶(吉吉),...但是受到電腦編碼下Big5 的影響,而在語料庫裡永不得翻身?其實光這點在學術上就很有得爭論。但關於這樣的問題,我一時是無法回答的,因為Sinica Corpus 不公開對外開放。要的人除了要花一筆錢外,使用上還有諸多限制。
不管是作gcin/linbchewing 輸入法的基礎,或是作中文 IR stop word list ,這些是很基本的資料,開放出來對政府機構其實也就是少收那一點錢,比起民進黨政府沒有效用的灑錢斷交的種種動作而言,實在是九牛一毛,可是對台灣整體的科技跟帶動的經濟都會有強勢的影響。台灣還在關起門自己搞之時,可是美國跟大陸已經在中文自然語言相關的研究上急起直追了,令人感嘆。
詞類標記 -- 依據中研院詞庫小組所架構的分類系統(參見原文)
詞頻 -- 在語料庫中出現的次數
累積頻率 -- 照詞頻排序至此詞的累積頻率(100為總頻率和)。
詞項 詞類 頻率 累積頻率
的 DE 285826 5.82
是 SHI 84014 7.53
一 Neu 58388 8.72
在 P 56769 9.88
有 V_2 45823 10.81
個 Nf 41077 11.64
我 Nh 40332 12.47
不 39014 13.26
這 Nep 33659 13.95
了 Di 31873 14.59
他 Nh 30025 15.21
也 D 29646 15.81
就 D 29211 16.40
人 Na 24269 16.90
都 D 20403 17.31
說 VE 19625 17.71
而 Cbb 18452 18.09
我們 Nh 18152 18.46
你 Nh 17298 18.81
了 T 15958 19.14
要 D 15955 19.46
之 DE 15893 19.78
會 D 14066 20.07
對 P 13944 20.36
及 Caa 13758 20.64
和 Caa 13585 20.91
與 Caa 13445 21.19
以 P 13172 21.45
很 Dfa 13013 21.72
種 Nf 12263 21.97
中 Ng 12231 22.22
的 T 11580 22.45
大 VH 11577 22.69
能 D 11125 22.92
著 Di 11026 23.14
她 Nh 10776 23.36
那 Nep 10740 23.58
上 Ncd 10619 23.79
但 Cbb 10242 24.00
年 Nf 10127 24.21
還 D 9698 24.41
可以 D 9671 24.60
時 Ng 9565 24.80
最 Dfa 9416 24.99
自己 Nh 9069 25.17
為 P 9026 25.36
來 D 8992 25.54
所 D 8873 25.72
他們 Nh 8818 25.90
兩 Neu 8692 26.08
各 Nes 8651 26.26
上 Ng 8650 26.43
可 D 8508 26.60
為 VG 8369 26.77
或 Caa 8317 26.94
好 VH 8304 27.11
等 Cab 8070 27.28
又 D 8037 27.44
將 D 7858 27.60
後 Ng 7752 27.76
因為 Cbb 7592 27.91
於 P 7395 28.06
由 P 7344 28.21
從 P 7303 28.36
更 D 7298 28.51
被 P 7272 28.66
才 Da 7266 28.81
已 D 7256 28.95
者 Na 7221 29.10
每 Nes 7207 29.25
次 Nf 7087 29.39
把 P 7024 29.54
三 Neu 6954 29.68
什麼 Nep 6729 29.81
問題 Na 6683 29.95
其 Nep 6667 30.09
讓 VL 6624 30.22
此 Nep 6599 30.36
做 VC 6597 30.49
再 D 6563 30.62
所以 Cbb 6529 30.76
只 Da 6521 30.89
與 P 6519 31.02
沒有 VJ 6510 31.15
則 D 6476 31.29
台灣 Nc 6414 31.42
卻 D 6388 31.55
地 DE 6329 31.68
並 Cbb 6171 31.80
位 Nf 6015 31.92
得 DE 5969 32.05
想 VE 5898 32.17
去 D 5748 32.28
呢 T 5577 32.40
學生 Na 5523 32.51
表示 VE 5504 32.62
到 P 5468 32.73
公司 Nc 5421 32.84
將 P 5365 32.95
如果 Cbb 5336 33.06
可是我很好奇,會不會有些字即使後來使用頻率居上,比如王建(火宣),陶(吉吉),...但是受到電腦編碼下Big5 的影響,而在語料庫裡永不得翻身?其實光這點在學術上就很有得爭論。但關於這樣的問題,我一時是無法回答的,因為Sinica Corpus 不公開對外開放。要的人除了要花一筆錢外,使用上還有諸多限制。
不管是作gcin/linbchewing 輸入法的基礎,或是作中文 IR stop word list ,這些是很基本的資料,開放出來對政府機構其實也就是少收那一點錢,比起民進黨政府沒有效用的灑錢斷交的種種動作而言,實在是九牛一毛,可是對台灣整體的科技跟帶動的經濟都會有強勢的影響。台灣還在關起門自己搞之時,可是美國跟大陸已經在中文自然語言相關的研究上急起直追了,令人感嘆。
詞類標記 -- 依據中研院詞庫小組所架構的分類系統(參見原文)
詞頻 -- 在語料庫中出現的次數
累積頻率 -- 照詞頻排序至此詞的累積頻率(100為總頻率和)。
詞項 詞類 頻率 累積頻率
的 DE 285826 5.82
是 SHI 84014 7.53
一 Neu 58388 8.72
在 P 56769 9.88
有 V_2 45823 10.81
個 Nf 41077 11.64
我 Nh 40332 12.47
不 39014 13.26
這 Nep 33659 13.95
了 Di 31873 14.59
他 Nh 30025 15.21
也 D 29646 15.81
就 D 29211 16.40
人 Na 24269 16.90
都 D 20403 17.31
說 VE 19625 17.71
而 Cbb 18452 18.09
我們 Nh 18152 18.46
你 Nh 17298 18.81
了 T 15958 19.14
要 D 15955 19.46
之 DE 15893 19.78
會 D 14066 20.07
對 P 13944 20.36
及 Caa 13758 20.64
和 Caa 13585 20.91
與 Caa 13445 21.19
以 P 13172 21.45
很 Dfa 13013 21.72
種 Nf 12263 21.97
中 Ng 12231 22.22
的 T 11580 22.45
大 VH 11577 22.69
能 D 11125 22.92
著 Di 11026 23.14
她 Nh 10776 23.36
那 Nep 10740 23.58
上 Ncd 10619 23.79
但 Cbb 10242 24.00
年 Nf 10127 24.21
還 D 9698 24.41
可以 D 9671 24.60
時 Ng 9565 24.80
最 Dfa 9416 24.99
自己 Nh 9069 25.17
為 P 9026 25.36
來 D 8992 25.54
所 D 8873 25.72
他們 Nh 8818 25.90
兩 Neu 8692 26.08
各 Nes 8651 26.26
上 Ng 8650 26.43
可 D 8508 26.60
為 VG 8369 26.77
或 Caa 8317 26.94
好 VH 8304 27.11
等 Cab 8070 27.28
又 D 8037 27.44
將 D 7858 27.60
後 Ng 7752 27.76
因為 Cbb 7592 27.91
於 P 7395 28.06
由 P 7344 28.21
從 P 7303 28.36
更 D 7298 28.51
被 P 7272 28.66
才 Da 7266 28.81
已 D 7256 28.95
者 Na 7221 29.10
每 Nes 7207 29.25
次 Nf 7087 29.39
把 P 7024 29.54
三 Neu 6954 29.68
什麼 Nep 6729 29.81
問題 Na 6683 29.95
其 Nep 6667 30.09
讓 VL 6624 30.22
此 Nep 6599 30.36
做 VC 6597 30.49
再 D 6563 30.62
所以 Cbb 6529 30.76
只 Da 6521 30.89
與 P 6519 31.02
沒有 VJ 6510 31.15
則 D 6476 31.29
台灣 Nc 6414 31.42
卻 D 6388 31.55
地 DE 6329 31.68
並 Cbb 6171 31.80
位 Nf 6015 31.92
得 DE 5969 32.05
想 VE 5898 32.17
去 D 5748 32.28
呢 T 5577 32.40
學生 Na 5523 32.51
表示 VE 5504 32.62
到 P 5468 32.73
公司 Nc 5421 32.84
將 P 5365 32.95
如果 Cbb 5336 33.06
星期一, 1月 21, 2008
blosxom writeback plugin
writeback plugin提供回應與(張貼)回溯(TrackBack 有人翻"搥背")功能。
讀者回應資料預設會放在變數$writeback_dir
也就是 blosxom::plugin_state_dir/writeback下依分類階層展開。
所以移動網誌檔案時,相關的回應資料 .wb檔也要跟著移動。
讀者回應資料預設會放在變數$writeback_dir
也就是 blosxom::plugin_state_dir/writeback下依分類階層展開。
所以移動網誌檔案時,相關的回應資料 .wb檔也要跟著移動。
星期日, 12月 30, 2007
設定(X)Emacs中文環境參數
1.1 版
在已完善中文化的Linux 系統如Mandriva 2008上跑big5跟utf8中文已不成問題。不過這兩個編碼系統都不夠好。要在Linux上跑CCCII等大字集編碼還有一段路,還是有必要仔細研究一下Emacs對中文設定(X)Emacs中文環境參數,這樣可以用Emacs來作大字集編碼中文的發展測試平台。
這裡針對討論近年來3個版本討論: xEmacs 21.5 及 Emacs22.0.50, Emacs 22.1.5 (支援unicode)。其中 Emacs 22.1.5是在Mandriva 新版(2008)上的測試結果(locale 設定: LANG=zh_TW.UTF-8)。其他是直接引用舊版的測試結果,應該是Windows上的Emacs。我不太確定當初locale 設定,我猜是LANG=zh_TW(意思就是big5)。Emacs以後的23 版的結構應該跟22.1接近,這裡專注在這個版本討論。
Mule 在 win32 build 的 xEmacs 21.5 及 Emacs 22.0.50(跟之後) 都有內建。
查看設定值可由選單中選 Edit->MultiLingual "Mule"->Describe CurrentCoding system
( XEmacs 21.5 在 在選單 Options->Advanced (Customize) ->Emacs-> Environment-> I18n->mule
Emacs 22.0.50 在 Options->Customize Emacs->Top level CustomizationGroup -> Environment -> I18n -> mule)
兩者預設值都是 ISO8 -- iso-2022-8
Emacs 22.1.5 在這裡就看不到這兩個變數,我猜測是因為支援unicode造成的改版,實際上是否移到別的地方,或者可否自行在起始檔(如.emacs) 加入選項,還待研究。
Emacs 22.1.5相關的重要變數有
XEmacs 21.5 相關的重要變數有
Emacs 22.0.50相關的重要變數有
前言
在已完善中文化的Linux 系統如Mandriva 2008上跑big5跟utf8中文已不成問題。不過這兩個編碼系統都不夠好。要在Linux上跑CCCII等大字集編碼還有一段路,還是有必要仔細研究一下Emacs對中文設定(X)Emacs中文環境參數,這樣可以用Emacs來作大字集編碼中文的發展測試平台。
這裡針對討論近年來3個版本討論: xEmacs 21.5 及 Emacs22.0.50, Emacs 22.1.5 (支援unicode)。其中 Emacs 22.1.5是在Mandriva 新版(2008)上的測試結果(locale 設定: LANG=zh_TW.UTF-8)。其他是直接引用舊版的測試結果,應該是Windows上的Emacs。我不太確定當初locale 設定,我猜是LANG=zh_TW(意思就是big5)。Emacs以後的23 版的結構應該跟22.1接近,這裡專注在這個版本討論。
基本設定
Mule 在 win32 build 的 xEmacs 21.5 及 Emacs 22.0.50(跟之後) 都有內建。
查看設定值可由選單中選 Edit->MultiLingual "Mule"->Describe CurrentCoding system
( XEmacs 21.5 在 在選單 Options->Advanced (Customize) ->Emacs-> Environment-> I18n->mule
Emacs 22.0.50 在 Options->Customize Emacs->Top level CustomizationGroup -> Environment -> I18n -> mule)
- Coding system for saving this buffer:
- Default coding system (for new files):
兩者預設值都是 ISO8 -- iso-2022-8
Emacs 22.1.5 在這裡就看不到這兩個變數,我猜測是因為支援unicode造成的改版,實際上是否移到別的地方,或者可否自行在起始檔(如.emacs) 加入選項,還待研究。
Emacs 22.1.5相關的重要變數有
- Keyboard Coding Syste (預設值: nil)
- Default Input Method (設定值: chinese-py-punct-b5)
- Current Language Environment (設定值: Chinese-BIG5)
- Utf Translate Cjk Unicode Range (預設值: Cons-cell:
Integer: 11904
Integer: 55203
Cons-cell:
Integer: 65280
Integer: 65519
- Utf Translate Cjk Mode (預設值: t)
- Utf 8 Compose Scripts (預設值: nil)
- Enable Multibyte Characters (預設值: t)
- Selection Coding System (預設值: compound-text-with-extensions)
- Unibyte Display Via Language Environment (預設值: nil)
- Describe Char Unicodedata File (預設值: )
- Leim (預設值: )
XEmacs 21.5 相關的重要變數有
- Current Language Environmen
- Default Input Method
Emacs 22.0.50相關的重要變數有
- Keyboard Coding Syste (預設值: cp950)
- Default Input Method (預設值: chinese-py-punct-b5)
- Current Language Environment (預設值: Chinese-BIG5)
- Utf Translate Cjk Unicode Range (預設值: )
- Utf Translate Cjk Mode (預設值: t)
- Utf 8 Compose Scripts (預設值: nil)
- Enable Multibyte Characters (預設值: t)
- Selection Coding System (預設值: utf-16le-dos)
- Unibyte Display Via Language Environment (預設值: nil)
- Describe Char Unicodedata File (預設值: )
- Leim (預設值: )
星期四, 11月 22, 2007
emacs-mule 內建中文輸入法 (v1.2)
v1.2 星期四, 一月 5, 2008
(v1.1 星期四, 十一月 22, 2007
v1.0 於 星期二 十月 19, 2004 12:22 pm 發表在
http://cle.linux.org.tw/forum/viewtopic.php?t=132)
用quail選定輸入中文,在Emacs 下是在
Options->"Mule (MultiLingual Environment)->
在xEmacs 下是在
Edit->MultiLingual "Mule"->
下面是目前 xemacs-mule內建中文輸入法
在系統沒有裝中文輸入法的情況下,依然能在xemacs-mule用quail輸入中文。特別對實驗性的中文需求,如在新的作業系統或新的中文大字集環境,這點讓emacs 的內建中文輸入變成很重要。我會在這個主題下陸續討論相關的技術問題
chinese-4corner 四角號碼
chinese-array30 行列30
chinese-b5-quick 簡易
chinese-b5-tsangchi 倉頡
chinese-cns-quick 簡易
chinese-cns-tsangchi 倉頡
chinese-ctlaub 劉錫祥式粵音
chinese-ecdict 英漢辭典
chinese-etzy 倚天注音
chinese-punct-b5 標點符號
chinese-py-b5 拼音
chinese-py-punct-b5拼音及標點符號
chinese-qj-b5全角
chinese-zozy 零壹(標準)鍵盤注音
chinese-egg-pinyin
chinese-egg-zhuyin
skk 跟egg是其他兩個輸入法,非日文的資料不多,Wnn的繁體字輸入時需要 Chinese CNS character sets 這裡有一點消息
(v1.1 星期四, 十一月 22, 2007
v1.0 於 星期二 十月 19, 2004 12:22 pm 發表在
http://cle.linux.org.tw/forum/viewtopic.php?t=132)
quail
用quail選定輸入中文,在Emacs 下是在
Options->"Mule (MultiLingual Environment)->
在xEmacs 下是在
Edit->MultiLingual "Mule"->
xemacs-mule
下面是目前 xemacs-mule內建中文輸入法
在系統沒有裝中文輸入法的情況下,依然能在xemacs-mule用quail輸入中文。特別對實驗性的中文需求,如在新的作業系統或新的中文大字集環境,這點讓emacs 的內建中文輸入變成很重要。我會在這個主題下陸續討論相關的技術問題
chinese-4corner 四角號碼
chinese-array30 行列30
chinese-b5-quick 簡易
chinese-b5-tsangchi 倉頡
chinese-cns-quick 簡易
chinese-cns-tsangchi 倉頡
chinese-ctlaub 劉錫祥式粵音
chinese-ecdict 英漢辭典
chinese-etzy 倚天注音
chinese-punct-b5 標點符號
chinese-py-b5 拼音
chinese-py-punct-b5拼音及標點符號
chinese-qj-b5全角
chinese-zozy 零壹(標準)鍵盤注音
chinese-egg-pinyin
chinese-egg-zhuyin
衍生閱讀
skk 跟egg是其他兩個輸入法,非日文的資料不多,Wnn的繁體字輸入時需要 Chinese CNS character sets 這裡有一點消息
星期六, 10月 27, 2007
公開的手寫辨識程式跟實作資訊
最近在思考一些有趣的事情:中文的部首/字/詞是分別對應到英文的字母/字/詞。不知道中文詞的平均筆劃經過頻率統計加權後的結果會不會比英文詞小?(因為資訊傳達是以詞作單位,而不僅是以字作單位的任意組合)是的話,這到是半理論證明"中文輸入不會比英文慢": 所謂正體中文會妨礙科學進步的論調只是那些不深思熟慮的傢伙不經證明的夸夸之詞。我為什麼直覺這樣推斷?因為直覺上中文字形的的熵(entrop)平均值應該比英文字形的大。假如我的假說成立的話,以手寫來說,中文輸入會比英文快。
我的確是有在著手一些關連到中文的語料問題,這些是解決很多事的關鍵性基礎研究。不過對大多數的人而言,最重要的問題反倒是: 能不能有公開的手寫辨識程式?關於這點,目前看到公開的手寫辨識程式跟實作資訊有:
Palatis 寫了 Chrasis,似乎可以用滑鼠輸入。今年6月 的時候我曾試著在Mandriva 2007.1上編譯看看,但還不成功,後來忙就先擱著。
jserv 寫了這一篇從Chrasis 談手寫辨識引擎在移動裝置的機會,有提到一些相關的問題
歪林 (superylam@netcape.net)為了掌心雷跟百變小蒙恬寫了X Windows手寫板驅程程序及輸入法
根據網路上的說法,蒙恬筆豪華版(LLC 504)隨附的數位手寫版(型號FT-0405-U02),是由知名數位繪圖板廠商Wacom代工。而Linux 在wacom 的支援好像還不錯。臺灣的繪圖板就不知道。
繪圖板蠻貴的,我連每天要用的老舊交通工具都沒錢去修,一時沒辦法負擔得起這種昂貴的玩具。那天要是弄得到不管是臺灣或Wacom的繪圖板時,再來試試看把歪林跟Palatis的成果整合在一起。就看誰要先借我手寫版來開發了。
我的確是有在著手一些關連到中文的語料問題,這些是解決很多事的關鍵性基礎研究。不過對大多數的人而言,最重要的問題反倒是: 能不能有公開的手寫辨識程式?關於這點,目前看到公開的手寫辨識程式跟實作資訊有:
Palatis 寫了 Chrasis,似乎可以用滑鼠輸入。今年6月 的時候我曾試著在Mandriva 2007.1上編譯看看,但還不成功,後來忙就先擱著。
jserv 寫了這一篇從Chrasis 談手寫辨識引擎在移動裝置的機會,有提到一些相關的問題
歪林 (superylam@netcape.net)為了掌心雷跟百變小蒙恬寫了X Windows手寫板驅程程序及輸入法
根據網路上的說法,蒙恬筆豪華版(LLC 504)隨附的數位手寫版(型號FT-0405-U02),是由知名數位繪圖板廠商Wacom代工。而Linux 在wacom 的支援好像還不錯。臺灣的繪圖板就不知道。
繪圖板蠻貴的,我連每天要用的老舊交通工具都沒錢去修,一時沒辦法負擔得起這種昂貴的玩具。那天要是弄得到不管是臺灣或Wacom的繪圖板時,再來試試看把歪林跟Palatis的成果整合在一起。就看誰要先借我手寫版來開發了。
星期日, 5月 06, 2007
"不負責"自由軟體中文輸入法改進規劃:
下面是我目前比較關心的: (我之前還列出重覆輸出,後來不知道怎樣了。)
1. 列出同音字待選
2. 編打編唸 (用語音確認)
3. 放大輸入緩衝區 (這樣user 可以少按幾次輸出鍵)
第一個 在我提出feature request 後, gcin 的作者已經實作出來了,太帥了。新酷音好像還沒看到。
第二個 工程浩大,但我一直有在設法集合各方力量去實作,包括結合圖書館界想要作無障礙閱讀環境的資源。除了基本的收集標準語音外(402 個基本音,加上四聲變化,會少於 400x5=2000個音),
在Linux 上,還需要聯接Alsa API,我覺得最好能支援用Jack IT ,因為怕多工環境下延遲
第三個 其實我沒很大把握,因為我還沒從頭到尾trace 過gcin 跟新酷音的原碼,不瞭解取詞的演算法 ....先當我是小白好了,所以這篇取名"不負責"...規劃。已經做好心裡準備被罵搞不清狀況,不過至少當豬頭拋磚引玉,應該比光要人改進,但連實作規畫都沒有的來的強一點點。
想法從下面節錄新酷音兩位網友的討論引申出來,要在便利跟效率中取得平衡:
有沒有可能改成,把大的緩衝區分成兩部份,在M 字輸入緩衝區中(比如說 M=45),只look ahead 最接近游標的 N (=15)字主緩衝區? N <=M 。一直輸入不後退超過了N 字的話,緩衝區前面(M-N) 字就暫時放到次緩衝區去 (移 link-list 的指標就好,其實沒有copy 資料的動作) 次緩衝區暫時不能改。假如使用者游標一直退到前 m-n 個字串範圍裡,主緩衝區跟次緩衝區會跟著變動,主緩衝區只look ahead 最接近游標的n 字
這樣只會constant-time slow : up to 2^N = 2^15 外加上 "雙緩衝區" (這我不知該如何解釋)的overhead, 應該是 linear time
能不能實做還是要看新酷音的原碼,其實不是不想,但以前就說了,沒有註解的C程式 我實在吃不消
---------------------------
windows_usr wrote:
> > 我用的是win32的最新win32-chewing-0.3.4.2.exe版本,說明裡寫著輸入一整句後按Enter,但我發現每輸入15個字就會
> > 自動送出超過此長度的字串。句子一般長度也有25-50個字吧,15個字真的太少了,打字時常常需要翻看,因為怕字自動送出了,沒有修改的機會,這樣很
> > 大地影響打字速度。酷音輸入法真的很好用,希望開發組可以加入自訂自動送出字串長度的功能。
Kuang-che Wu wrote:
> > On Thu, Apr 26, 2007 at 04:28:35AM -0700, windows_usr wrote:
>> >> 普通句子長度是25-35個字,加上夾雜一些英文。我想最好有45個字的buffer。
> >
> > 現在 libchewing 的運作原理, 當太長的話可能會很慢 (接近 2^n 的速度成長)
> >
> > 你可以試試看輸入
> >
> > 程式程式程式程式....
> >
> > 一整串, 越長會越慢, 在 input line 快滿那時, 速度已經慢到可以察覺.
> > 再更長的話, 可能就會慢到無法接受了
1. 列出同音字待選
2. 編打編唸 (用語音確認)
3. 放大輸入緩衝區 (這樣user 可以少按幾次輸出鍵)
第一個 在我提出feature request 後, gcin 的作者已經實作出來了,太帥了。新酷音好像還沒看到。
第二個 工程浩大,但我一直有在設法集合各方力量去實作,包括結合圖書館界想要作無障礙閱讀環境的資源。除了基本的收集標準語音外(402 個基本音,加上四聲變化,會少於 400x5=2000個音),
在Linux 上,還需要聯接Alsa API,我覺得最好能支援用Jack IT ,因為怕多工環境下延遲
第三個 其實我沒很大把握,因為我還沒從頭到尾trace 過gcin 跟新酷音的原碼,不瞭解取詞的演算法 ....先當我是小白好了,所以這篇取名"不負責"...規劃。已經做好心裡準備被罵搞不清狀況,不過至少當豬頭拋磚引玉,應該比光要人改進,但連實作規畫都沒有的來的強一點點。
想法從下面節錄新酷音兩位網友的討論引申出來,要在便利跟效率中取得平衡:
有沒有可能改成,把大的緩衝區分成兩部份,在M 字輸入緩衝區中(比如說 M=45),只look ahead 最接近游標的 N (=15)字主緩衝區? N <=M 。一直輸入不後退超過了N 字的話,緩衝區前面(M-N) 字就暫時放到次緩衝區去 (移 link-list 的指標就好,其實沒有copy 資料的動作) 次緩衝區暫時不能改。假如使用者游標一直退到前 m-n 個字串範圍裡,主緩衝區跟次緩衝區會跟著變動,主緩衝區只look ahead 最接近游標的n 字
這樣只會constant-time slow : up to 2^N = 2^15 外加上 "雙緩衝區" (這我不知該如何解釋)的overhead, 應該是 linear time
能不能實做還是要看新酷音的原碼,其實不是不想,但以前就說了,沒有註解的C程式 我實在吃不消
---------------------------
windows_usr wrote:
> > 我用的是win32的最新win32-chewing-0.3.4.2.exe版本,說明裡寫著輸入一整句後按Enter,但我發現每輸入15個字就會
> > 自動送出超過此長度的字串。句子一般長度也有25-50個字吧,15個字真的太少了,打字時常常需要翻看,因為怕字自動送出了,沒有修改的機會,這樣很
> > 大地影響打字速度。酷音輸入法真的很好用,希望開發組可以加入自訂自動送出字串長度的功能。
Kuang-che Wu wrote:
> > On Thu, Apr 26, 2007 at 04:28:35AM -0700, windows_usr wrote:
>> >> 普通句子長度是25-35個字,加上夾雜一些英文。我想最好有45個字的buffer。
> >
> > 現在 libchewing 的運作原理, 當太長的話可能會很慢 (接近 2^n 的速度成長)
> >
> > 你可以試試看輸入
> >
> > 程式程式程式程式....
> >
> > 一整串, 越長會越慢, 在 input line 快滿那時, 速度已經慢到可以察覺.
> > 再更長的話, 可能就會慢到無法接受了
星期一, 4月 03, 2006
新酷音輸入法Win32
新酷音輸入法Win32版
新酷音是延續著名的酷音輸入法的發展計
畫,他是一種能自動選字的智慧型注音輸入法,所以對電腦初學者非常重要。新酷音輸入法原始碼是開放的,所以任何人都可以把他的功能自行作進一步的改良。新酷音的官網在http://chewing.csie.net/index.html
新酷音輸入法在各大Linux 發行版都有包好的下載套件,甚至在微軟視窗下也有,目前Win32版(微軟視窗平台)主要的開發者是 PCMan (洪任諭), Seamxr和 Andy Horng 。
微軟有很多枉顧客戶需求的惡名昭彰的動作,譬如說早些年對支援Big5 Plus 字碼的承諾,到後來也是不了了之,與其繼續被奴役,不如一步步幫助大家逃脫出來,新酷音輸入法win32版有著這一方面的指標性的意義。因為大部分的使用者都被微軟視窗的封閉架構所卡死了,可是對一般使用者而言,
要從這個壟斷的架構一下子轉換到Linux 的使用平台,並不是易如反掌的,所以,在微軟視窗上發展開放原始碼的注音輸入法,有其普及性的意義。以後我們要揚棄Big5 大五碼轉到CCCII 或CNS 11643中文全字集環境,或加上一些其他商業輸入法有用的功能如編打編唸...,也可以由擴充這個輸入法來逐一達成。
新酷音win32版安裝的問題
我從 Win32-chewing 0.2.5c 起到0.26a,每次安裝他都說
"...請確定你有系統管理員權限,以及舊版不在執行中,..."
無法正常安裝成功,要求我移除舊版程式。但往往照作就算重新開機也是無法解決問題。
參見圖一

這通常都是因為由於 windows 本身設計的缺陷所照成的:輸入法只要有啟動過,即使已經沒有程式在用,一樣不會卸載,檔案只要還在使用中,系統就是不允許刪除。因此造成安裝新版新酷音輸入法時,出現在c:\windows\system32\Chewing.ime 寫入錯誤。此為XP/9X上的例子,
Windows 2000 是在c:\winnt\....下, 查看檔案名,參見圖二

避免問題的技巧在於安裝時之前,先不要啟動輸入法,最簡單的方式,就是重開機完還沒執行其他程式造成啟動新酷音前輸入法前,就安裝新版。要是因為不可預知的因素,造成檔案沒有正確刪掉,在重開機後而還沒移除或安裝前先動手確定檔案Chewing.ime已經拿掉了,或把它改成程其他名稱如1Chewing.ime
雖然還是有人回報在0.27b版遇到同樣問題,
http://freesf.tnc.edu.tw/modules/news/article.php?storyid=2381
但我在0.27b版下,按照上面我所說的方式來測試,這樣就能順利解決安裝問題了。所以這個小技巧應該是有效的。
目前核心已改成unicodeUTF-8 編碼,詞庫編輯的問題應該不是問題了
嘉義縣教育網路中心有一篇使用介紹,可以看一看
http://enc.cyc.edu.tw/modules/news/article.php?storyid=38
打造屬於自己的新酷音
新酷音官方首頁上的討論群組 http://chewing.csie.net/mailinglists.html 指到之前酷音的網站 http://chewing.good-man.org,我在Houston 一直都 time out 進不去
不過目前「新酷音」至少在自由軟體鑄造廠的
http://rt.openfoundry.org/Foundry/Project/index.html?Queue=271> 下登記了專案,似乎可以用tracker:
http://rt.openfoundry.org/Foundry/Project/Tracker/?Queue=271
來回報問題
或是到自由軟體技術交流往下的這個舊討論回應
http://freesf.tnc.edu.tw/modules/news/article.php?storyid=2375&com_id=8289&com_rootid=8253&com_mode=flat&com_order=0#comment8289
另外,可以加入 irc.freenode.net 的 #im-dev 頻道,與此輸入法相關的開發者都在這個IRC頻道上。不過或許由於美國與臺灣的時差,我還沒有成功的與任何開發者在IRC上交談過。
Win32-chewing 的原始碼要到 http://chewing.csie.net/download.html,參考
「下載Subversion版本」此一項目。Tarball 下載裡的 Win32 版只有編譯好的執行檔。
我還不確定編譯方式的資料到哪裡找。
如果要為新酷音加上新功能的話,未來也需要 commit程式碼的權限。可以考慮加入新酷音開發者的行列。
新酷音的後續發展
新酷音的功能或除錯的部份目前會由 Seamxr 帶領。而PCMan 的主要目標是打算重整程式內部的介面,計畫名稱是: EasyIME - framework for developing Win32 IME,希望能做出一組新的架構讓它可以容易被重複使用。目前的草案在:
http://openvanilla.org/wiki/zh/index.php?title=Win32_IME_Framework_%E8%8D%89%E6%A1%88
這樣不但可以方便將來想創作輸入法的人,同時可以有機會接上另一個知名的輸入法專案開放香草輸入法 OpenVanilla,該輸入法內含三十幾種中文輸入法,目前支援Mac, Linux, 還有 Windows 三種平台。
不過新酷音的win32 版的進展比較快,對於仍然需要用微軟視窗系統的使用者而言,新酷音是一個不可忽視的選擇
訂閱:
文章 (Atom)