fzk.u UJIS形式付属語情報ファイル
/usr/local/lib/wnn/ja_JP/dic/src/fzk.* (SAMPLE)
- UJIS形式付属語情報ファイルは、どのような付属語が存在するかということと、
付属語どうしのつながり方、付属語と自立語のつながり方をより分かり易いように、
UJIS
コードで書かれたテキストファイルである。
このファイルは、atof(1)
コマンドによって、jserver(1)
が読み込むことの
できるデータ形式付属語情報データ(fzk.data(5))
に変換できる。
UJIS形式では、品詞ごとにまとめて付属語とその接続情報を定義する。
接続情報は、その付属語の前に接続可能な付属語品詞名の列でもって表す。
この形式のファイルの一部分を取り出して見ると、次のような形式をしている。
\<付属語の品詞名>
<付属語1>/付属語1のコメント/接続可能な品詞名:\
接続可能な品詞名:接続可能な品詞名:....
<付属語2>/付属語2のコメント/接続可能な品詞名:\
接続可能な品詞名:接続可能な品詞名:....
.........
例をとってみると、
\[u63A5]助で,て
で/接続助詞で/五イ便2:準助の:並助だり,たり:\
接助と:助動ない止体:
て/接続助詞て/一段不変化部(体言):\
一段不変化部(非体言):カ変動詞き:五仮命:\
五段等用:くる用:いる用未:接助と:\
助動られる,れる未1用:助動らしい用1く:\
助動みたいだ用2だっ,助動ます用命し:\
助動ない用1く:助動たい用1く:\
助動せる,させる未用:さ変未1用し:\
五段等促,撥:形用1く:\
サ五段用:助動させる幹未用:\
助動しめる幹未用:
\五イ便2
ん/バマナ五段撥音便ん/ナ五幹:バ五幹:マ五幹:
い/カガ五段連用イ音便2/カ五幹(特):ガ五幹:
この例では、「接助で,て」という品詞に付属語「で」と「て」が、属していて、
それらは接続助詞であり、「で」の前には、「五イ便2」、「準助の」、「並助だり,
たり」………といった品詞に属する付属語が来れることを表わしている。
また、品詞「五イ便2」には、バ、マ、ナ行五段活用動詞の撥音便語尾の「ん」と
カ・ガ五段
連用イ音便の「い」が属していて、「ん」は、ナ行、バ行、マ行五段活
用動詞の語幹に続くことが分かる。
ここでさらに、「接助で,て」という品詞が終端ベクトルに属しており、「あそ」と
いう読みで「遊」という漢字を持つ「バ五幹」という品詞の自立語が辞書にあれば、
「あそんで」を「遊んで」に変換することができる。
このファイルでは、付属語品詞名は、「五イ便2」、「準助の」などという文字列で
表現されている。文字列の書き間違いを防ぐために、付属語品詞名にどのようなもの
があるのかをあらかじめこのファイルの初めの方で、\fuzokugo-id
という印の後に
定義しておかなければならない。
\fuzokugo-id
五仮命
五イ便2
よる仮命
五段等未1
五段等用
........
........
付属語の品詞は、このファイルの中だけで定義されて使われるものであるが、自立
語の品詞は、辞書の中やサーバやクライアントのプログラムの中でも使われている。
それらの場所では、自立語の品詞は、数字で参照されています。そこで、このファイ
ルの中で用いられている品詞名とその品詞を表わしている数字との間の対応をあらか
じめ、このファイルの初めの方で、jiritugo-id
という印に後に、定義しておかな
ければならない。
\jiritugo-id
カ五幹/0
カ五幹(特)/1
ガ五幹/2
サ五幹/3
タ五幹/4
..........
..........
固有名詞/29
単漢/31
これらの定義の後で、先に例を上げたように、個々の付属語の接続情報を書くこと
ができる。それは、zokugo
という印に続いて行う。
終端ベクトルとしてどのようなのを使うかは、それまでの解析結果によって変える
ことが考えられる。そのために、このファイルでは、5種類の終端ベクトルを定義で
きて、それぞれ sv0, sv1, sv2,
sv3, sv4
と名前を付けられている。しかし、実際
に、現在のバージョンの
jserver
が用いるのは、この内の、sv0
と sv1 だけである。 sv0
は、連文節解析の時に、sv1
は、単文節解析の時に用いる。
終端ベクトルの書き方は、次のような形式である。
\syuutanv
\sv0/一段不変化部(体言):一段不変化部(非体言):\
サ変(名詞型)幹:形容動詞幹:名詞:\
.......
\sv1/.......
\sv2/.......
\sv3/.......
\sv4/.......
\bye
以上をまとめると、このファイルの形式は、次のようになる。
UJIS形式は、基本的には、5つの部分から成る。それらは、順番に、属性定義、自
立語品詞定義、付属語品詞定義、付属語情報、終端ベクトルである。
\attribute
{属性の定義}
{属性の定義}
………
\jiritugo-id
{自立語の品詞名}/{数字}
{自立語の品詞名}/{数字}
………
………
\fuzokugo-id
{付属語の品詞名}
{付属語の品詞名}
………
………
\fuzokugo
\{付属語の品詞名}
{付属語の読み}/{コメント}/{品詞名}:{品詞名}:
……:
………
{付属語の読み}/{コメント}/{品詞名}:{品詞名}:
……:
\{付属語の品詞名}
{付属語の読み}/{コメント}/{品詞名}:{品詞名}:
……:
{付属語の読み}/{コメント}/{品詞名}:{品詞名}:
……:
………
………
\syuutanv
\sv0/{品詞名}:{品詞名}:
……:
\sv1/{品詞名}:{品詞名}:
……:
\sv2/{品詞名}:{品詞名}:
……:
\sv3/{品詞名}:{品詞名}:
……:
\sv4/{品詞名}:{品詞名}:
……:
\bye
ただし、{品詞名}は、それ以前に\jiritugo-id、\fuzokugo-id
の下で、付属語の
品詞名、または、自立語の品詞名として、定義されたものでなければならない。
また、品詞名などに許される文字は、UJISコードから、:、/、\、スペース文字、コ
ントロール文字を除いたものである。
また、付属語の読みは、全角ひらがな文字と、「、」、「。」だけであり、最大8文
字までである。
このファイルに含まれる空白、空行は、無視される。また、ファイル中に、';'
が、
書かれていると、それ以降は行末まで、コメントとして無視される。長い行は、行末
に、\をつけることによって、次の行に続けることができる。
atof(1), fzk.data(5)