glob

NAME

glob - 形成路徑名稱

描述 (DESCRIPTION)

很久以前在 UNIX V6 版中有一個程式 /etc/glob 用來展開萬用字元模板. 不久以後它成為 shell 內建功能. 現在人們開發了類似的庫函式 glob(3), 讓使用者程式實現同樣的功能.

此規則遵循 (POSIX 1003.2, 3.13).

萬用字元匹配 (WILDCARD MATCHING)

包含 '?', '*' 或 '[' 字元的字串稱為萬用字元模板(wildcard pattern). 形成路徑名(globbing) 指一種操作, 把萬用字元模板展開為匹配該串的路徑名. 匹配定義為:

不在方括弧中的 '?' 匹配任意單個字元.

不在方括弧中的 '*' 匹配任意字串, 包括空串.

字符集 (Character classes)

對於表示式 `[...]', 如果在第一個 '['符後面出現的第一個字元不是 '!', 則該表示式匹配任意一個在 `[...]'內出現的字元. 方括弧內不能有空串, 因此 ']' 可以作為第一個字元出現在方括弧內. (像這樣, '[][!]' 匹配下列三個字元中的任意一個, '[', ']' 和 '!'.)

範圍集 (Ranges)

字符集有一個特例: 用 '-' 分開的兩個字元表示一個範圍集. (像這樣, `[A-Fa-f0-9]' 等於 `[ABCDEFabcdef0123456789]'.) 把 '-' 放到方括弧內的開頭或最後可以獲得它的本意. (像這樣, `[]-]' 匹配 ']'和'-' 中任意一個. 而 `[--/]' 匹配 `-', `.' 和`/'中任意一個.)

補集 (Complementation)

表示式 '[!...]' 表示一個字元, 該字元不匹配方括弧內去掉開頭 '!' 後的表示式. (像這樣, `[!]a-]' 匹配除了 ']', 'a' 和 '-' 的任意一個字元.)

要去掉 '?', '*' 和 '[' 的特殊含義, 可以透過前面加一個反斜槓; 或者在 shell 命令列中, 透過引號來引用這些字元. 在方括弧內這些字元顯露出本意, 所以, '[[?*\]' 匹配這四個字元中的一個: '[', '?', '*', '\'.

路徑名 (PATHNAME)

形成路徑名功能應用於路徑中的每一個成員部分. 路徑中的 '/' 不能被萬用字元 '?' 或 '*', 或範圍集如 '[.-0]' 匹配. 範圍集不能直接包含 '/', 否則導致語法錯誤.

如果待匹配的檔名以'.'開頭, 那麼這個 '.' 字元必須直接給出. (比如說, ´rm *' 不會刪除 '.profile' 檔案, 'tar c *' 不會打包你的所有檔案; 用 'tar c .' 會更好.)

空列表 (EMPTY LISTS)

上述的簡單優雅規則, 把萬用字元模板展開為匹配的路徑名, 來源於最初的 UNIX 定義. 它允許展開出空串, 例如

	xv -wait 0 *.gif *.jpg

這裡可能沒有 *.gif 檔案 (而且不算錯誤).

然而, POSIX 要求句法錯誤或路徑名列表為空時, 保留萬用字元模板不變. (譯註: 即不展開.)

在 bash 中可以透過設定 allow_null_glob_expansion=true 把它強置為傳統的風格. (其他地方也有類似的問題, 例如, 老式的語句是

	rm `find . -name "*~"`

新的寫法為

	rm -f nosuchfile `find . -name "*~"`

以避免由於空引數呼叫 rm 而產生錯誤資訊.)

注意 (NOTES)

正規表示式 (Regular expressions)

注意, 萬用字元模板不是正規表示式, 儘管它們有點象. 首先, 它匹配檔名, 而不是正文; 其次, 規則不一樣, 例如正規表示式裡的 '*' 代表零個或多個前面內容的重複.

正規表示式的方括弧表示式用 '^' 引導取反操作, (而不是 '[!...]'). POSIX 宣告, 在萬用字元模板中, '[^...]' 未做定義.

字符集和國際化 (Character classes and Internationalization )

當然, 範圍集最初指 ASCII的範圍, 因此 '[ -%]' 意思是 '[ !"#$%]','[a-z]' 指所有小寫字元.

一些 UNIX實現把這個歸納為: 範圍 X-Y 指 X的編碼到 Y的編碼之間的編碼字元. 可是, 這要求使用者知道他們本地系統的字元編碼, 此外, 如果本地的字母表順序和字符集順序不對應, 那就更不方便了.

因此, POSIX 對萬用字元模板和正規表示式的方括弧表達法作了重大擴充套件, 上面我們知道了方括弧表示式中的三個型別, 它們是 (i) 取補集 (ii) 直接列出的單個字元和 (iii) 範圍集.

POSIX 對範圍集在國際化方面作了更有力的說明, 並且增加了三個型別:

(iii) 範圍 X-Y 由 X 和 Y 之間所有的字元組成 (包括X和Y), X 和 Y 的當前編碼序列由當前場合的 LC_COLLATE 分類定義.

(iv) 命名字符集, 象

[:alnum:]  [:alpha:]  [:blank:]  [:cntrl:]
[:digit:]  [:graph:]  [:lower:]  [:print:]
[:punct:]  [:space:]  [:upper:]  [:xdigit:]

因此可以用 '[[:lower:]]' 代替 '[a-z]', 它在丹麥語裡同樣有效, 雖然丹麥的字母表裡 'z' 後面還有三個字母. 這些字符集由當前場合的 LC_CTYPE 分類定義.

(v) 符號對映, 象 '[.ch.]' 或 '[.a-acute.]', 在 '[.' 和 '.]' 之間的字串是定義在當前場合的對映元素. 注意這可以是多字元元素.

(vi) 等類表示式, 象 '[=a=]', 在 '[=' 和 '=]' 之間的字串是任意等類中的對映元素, 它定義在當前場合. 例如, '[[=a=]]' 可以等同於 `[a徉溻]' (警告: 這裡有 Latin-1 字元), 也就是 `[a[.a-acute.][.a-grave.][.a-umlaut.][.a-circumflex.]]'.

12 June 1998

Unix

NAME

描述 (DESCRIPTION)

萬用字元匹配 (WILDCARD MATCHING)

字符集 (Character classes)

範圍集 (Ranges)

補集 (Complementation)

路徑名 (PATHNAME)

空列表 (EMPTY LISTS)

注意 (NOTES)

正規表示式 (Regular expressions)

字符集和國際化 (Character classes and Internationalization )

SEE ALSO

[中文版維護人]

[中文版最新更新]

《中國Linux論壇man手冊頁翻譯計劃》

跋

Recommended readings

Questions & Answers