訊息國際化的解決方案 (gettext 簡介)

1 前言

在前幾期的文章裡面，我們花了不少篇幅跟大家介紹了 GLIBC 提供的國際化支援以及 locale 的基本結構，我們也提到過 "LC_MESSAGES" 這個環境類別會決定程式用何種語言來顯示訊息，在這一期裡面，就讓我們來更深入的研究一下訊息多國語言的解決方案，看看在一個多國語言環境之中，要如何讓同一個程式在不同 locale 環境下可以自動顯示不同語言的訊息。

1.1 訊息國際化的問題

有寫過程式的人都知道，一般情況下程式的訊息都是寫死在程式碼裡面的，例如說：

printf("Hello World!!");

這一段 C 程式碼會印出 "Hello World!!" 這個字串，假如要把程式的訊息改成其他的語言的話，必須要修改原始碼，然後再重新把程式編譯一遍才行，這樣的作法在國際化的系統裡面是行不通的，因為一個國際化的系統應該要有能力隨時依照使用者設定的語言環境 (就是 LC_MESSAGES 的內容) 來選取要輸出訊息的版本，也就是說，用同一份程式碼就可以顯示不同語言的訊息，才能稱之為國際化的系統。GLIBC 雖然提供了 setlocale() 的介面以及 LC_MESSAGES 的環境類別，不過卻沒有定義訊息多國語言的實作方式，所以要做到訊息的國際化，必須得要使用 GLIBC 以外的函式套件才行。

由於在 C 函式庫中並沒有標準的定義，所以實際上在 GNU/Linux 裡面進行訊息國際化的解決方案並不只一種，常見方式可以歸類成下面三種：

利用 X 的資源定義資料庫 (X resource database) 來作訊息國際化
這是 X 視窗系統提供的標準方法，許多 X 應用程式都是用這種方法來作訊息的國際化的，例如 Netscape 或 xedit 等程式就是屬於這一類；X 允許您將程式使用到的訊息存放在 X 的資源資料庫 (resource database) 裡面，由於 X 應用程式在執行時會依照 locale 設定到 /usr/X11R6/lib/X11/{locale}/app-defaults/ 目錄下去尋找對應到該 locale 的資源定義檔案，所以只要把訊息字串定義在資源定義檔案裡面，把這些字串翻譯好，然後再放到該 locale 的 app-defaults 目錄底下，就可以依照 locale 設定顯示不同語言的訊息了，讀者可以在 /usr/X11R6/lib/X11/app-defaults/ 目錄下找到一些未翻譯的資料檔案。假如您有加裝一些中文套件的話，很可能還可以在 /usr/X11R6/lib/X11/zh_TW.Big5/app-defaults/ 目錄下找到 Netscape 的繁體中文定義檔，這裡面以 labelString 結尾的資源項目就是 Netscape 程式用到的訊息，讀者可以自己參考看看。
利用 GNU gettext 套件
gettext 套件是 GNU 對訊息國際化提出的一個統一的解決方案，只要程式寫作時注意幾點小事情，對程式碼做好適當的修改並連結到 gettext 程式庫，編譯一次以後，不須重新編譯就能顯示多國的訊息，讓國際化 (i18n) 的工作可以更簡單的達成；因為使用簡單，支援的程式工具也多，gettext 已經漸漸成為 GNU/Linux 上面訊息國際化的標準作法，像 GNOME 程式、KDE 程式等等都是用 gettext 來作訊息的國際化。
應用程式自行定義的方法
某些應用程式有自己的一套訊息國際化的架構，像 linuxconf 就自己定義了一套方式來作訊息的國際化；這些方法通常跟 gettext 的基本架構很類似，作法的流程也有很多可以類比之處，不過這都不是標準的作法，自己重新發展一套訊息資料的處理方法也是一件費時費力的工作，過去 GNU/Linux 上面的 gettext 還不成熟的時候或許有需要，不過在目前 gettext 已經被廣泛接受使用的情況下，通常是沒必要自己再重新發明一遍輪子囉。

上面所述的三個方法裡面，X 提供標準出現的最早，但是因為在程式設計階段就得自行將訊息分離處理，用起來並不方便，也缺乏一些工具程式的支援，因此遲遲未能受到大家廣泛使用。在 GNU gettext 已經逐漸成熟以後，多數的程式也不再用這個方法。目前 gettext 套件已經算是被大家接受的標準作法了，雖然它現在的版本還只是 0.10 版，但是對於訊息國際化的支援 (LC_MESSAGES) 已經算是穩定，再加上幾乎所有的 GNU 程式也都支援 gettext ，因此現在把它當作一個標準，來作 Linux 上訊息中文化的工作，應該是一個適當的時機，我們也建議所有有心讓自己程式顯示多國語言的程式設計者都能善加利用 gettext 套件，因此本文討論的對象會專注在 gettext 這個套件的使用方式之上，X 或其他程式的作法我們就不詳談了。

接下來讓我們先來看看 gettext 的基本原理吧。

2 gettext 的使用

2.1 gettext 的工作原理

圖 1 是從 GNU 的 info page 抄出來的，它總括說明了 gettext 套件的工作原理，就請讀者們參照後面的說明以及這張圖上的流程，一起來看看 gettext 套件的工作流程吧。

Figure 1: gettext 的工作流程圖

2.1.1 修改程式碼

我們前面提過，使用 gettext 套件的時候原始碼要作一些適當的修改，圖 1 裡面的 "Source Code" 指的就是還沒有經過任何修改的程式碼，"Marked Source Code" 指的就是修改後的程式碼，那麼，要作些甚麼修改呢?

要讓你的程式支援訊息國際化，程式設計師在寫作程式的時候就必須把有需要國際化的訊息標出來，這個時候該注意的是應該只標示出需要被翻譯成他國文字的訊息，比如 "%s %d" 這樣的字串是不必被翻譯的，也就不必標示，而 "Hello World!!" 這類的說明訊息就需要標示出來，標示的方法如下：

printf(gettext("Hello World"));

懂 C 的朋友應該可以看出這個標示的意義，程式碼這樣修改以後，程式在印出訊息時，並不是直接取得訊息的字串，而是透過一個 gettext() 函式呼叫來獲得字串；這個 gettext() 函式是在 libintl.h 裡面定義的，它會在程式真正被執行時檢查 locale 的情況 (事實上是在程式開始時先呼叫 setlocale() 函式來設定 LC_MESSAGES 類別，在這一步程式會去檢查 LC_ALL 或 LC_MESSAGES 或 LANG 這環境變數，並做好 locale LC_MESSAGES 類別的設定)，然後以 gettext() 的參數 ( "Hello World" ) 作為一個 id key，去該 locale 底下的訊息資料庫裡面抓取合乎這個 id key 的訊息，這樣子同一個程式，就可以 show 出許多不同語言的訊息了。

從 "Source Code" -> "Marked Source Code" 這一段修改程式碼的流程，是程式設計師的工作，也是程式訊息多國語言的過程之一，更詳細的修改步驟我們在第 3.1 節裡面會用實例跟大家介紹，且留待後面再討論吧。

2.1.2 製作 PO 檔案

改好程式碼以後，接著應該就要把訊息從程式碼裡面抽出來，製作出 "訊息資料庫" ，那訊息資料庫是甚麼？要怎麼作呢？

GNU gettext 套件裡面有一個程式叫 xgettext，可以用來處理 Marked Source Code，把原始碼裡面有標記的訊息抓出來，產生 PO 檔 (Portable Object)，xgettext 的基本使用如下：

xgettext [選項] INPUTFILE ...

INPUTFILE 就是 "Marked Source Code"，假如給定的輸入檔名為 `-' 的話，則程式會從標準輸入讀入資料，有多個檔案需要處理的話，在後面列入就可以了，這個程式常用的選項有：

-d NAME: 用 NAME.po 做為輸出檔名 (預設是 messages.po)
-D DIRECTORY: 增加 DIRECTORY 到檔案搜尋列表中
-f 程式的 PO 檔案拿到 Microsoft Windows 作業系統裡面用 Notepad 編輯、翻譯好再拿回來 GNU/Linux 底下使用，這也就是 PO 的全名 "Portable Object" 的意思。經過使用者把每個項目裡面的訊息一一翻譯完成的 PO 檔，只要檔用 msgfmt 編譯以後擺到適當的地方，就可以讓翻譯過的訊息發生作用，接著我們就來看看怎麼讓 PO 檔案生效吧。