O世代的新思維: 在Emacs 上用正規表達式(Regular Expression)

星期五, 6月 08, 2007

在Emacs 上用正規表達式(Regular Expression)

前言

我痛恨Computer Science 一堆老師的位子都被有辦法的外系背景的人佔走，這些人又不懂電腦實務，結果搞出來的電腦教育七零八落。變成惡性循環。這檔事中外皆然，但臺灣尤烈。

假如離散數學學過了正規表達式(Regular expression)跟automata ，就一廂情願以為是可以直接在compiler 上套用non-deterministic的觀念，那就會死的很慘。就算修過compiler ，知道了要用deterministic的觀念，要以為在unix 上的find/grep/awk/表達檔案 wild card 上也可直接套用正規表達式(regular expression) 觀念來用，保證也死的很慘。因為解釋方式不一樣。現在發現，就算知道了前述 unix 系統上的工具如何正確的用正規表達式，在Emacs 下用法還是不太一樣，要小心。但是一但會用，真是如虎添翼。

在eamcs裡起動正規表達式的取代是用
ctrl-alt-%

先輸入搜尋字串正規表達式模版，按enter 後，再輸入取代的字串，一般基本的擴充正規表達式(extended Regular Expression)大多可以用

要輸入控制字元如 Crtl-J (也就是unix 上的換行控制字元)，用按Ctrl-Q 後再按j 也就是先按 Ctrl-Q 後再按該字元。這讓Emacs 可以搜尋跟取代跨行的文字。強！

以下是詳細列表

[ ... ]

[^ ... ]

$ ... $

\數字

\scode

\Scode

我這裡寫的有一點心虛，是因為emacs原來只針對英文設計，處理中文時，因為語文結構上的差異造成了功能定義變得不明確。不過基本上我目前用emacs 22 處理中英文的試驗結果，\b 跟 \w 對待中文字的確是如同英文一般。有意者可以參考gnu 出版的原文手冊。這裡是GNU emacs 手冊提到正規表達式的章節:
http://www.gnu.org/software/emacs/manual/emacs.html#Regexps