Amis - A maximum entropy estimator for feature forests

オプション	デフォルト	有効な値	効果
--enable-debug	no	0 ～ 5 または no	デバッグメッセージを表示する/しないを設定します．数が大きいほどたくさんのメッセージを表示します．
--enable-profile	no	0 ～ 5 または no	プロファイル(各関数の実行時間の測定)をする/しないを設定します．数が大きいほどたくさんの関数のプロファイルをとります．

その他のオプションについては，configure スクリプトのヘルプ (--help オプションで表示されます) で見ることができますが，正しく動かない機能もあるので注意してください．

make でプログラムをコンパイルします．
```
% make
```
コンパイルが終了すると ./src/ ディレクトリに amis という実行ファイルが作成されます．
実行ファイルやマニュアルをインストールします．
```
% make install
```

以上により，/usr/local/bin/amis がインストールされます．

起動方法

Amis を起動するには，設定ファイル(後述)を引数として，amis を実行します．

% amis [設定ファイル]

引数を省略すると，デフォルトでは amis.conf を設定ファイルとして読み込みます．amis.conf が読み込めないときは，エラーとなり終了します．起動時にオプションを指定することもできます．

設定ファイルには，設定項目の名前とその値の組を記述します．具体的には，以下のようになります．

DATA_FORMAT     Amis
FEATURE_TYPE    integer
MODEL_FILE      example.model
EVENT_FILE      example.event
OUTPUT_FILE     example.output
LOG_FILE        example.log
ESTIMATION_ALGORITHM    BFGS
NUM_ITERATIONS  1000
REPORT_INTERVAL 1
PRECISION       6

オプションを指定する場合は、

% amis -e foo.event -a BFGSMAP [設定ファイル]

のようになります．

各設定は，以下の優先順位で有効になります．

起動時オプション
設定ファイル
デフォルト値

指定できるオプションは以下の通りです．この他のオプションは，"--help" で詳しい説明が表示されますが，正しく動かない機能もあるので注意してください．

設定項目	実行時オプション	デフォルト値	有効な値	効果
BC_LOWER	--bc-lower	1.0	0以上の実数	BLMVMBC，BLMVMBCMAPで使われる，不等式制約の下限．論文[8]のBが，この値の逆数に設定される． (0に近いほど，結果は一様分布に近づく)
BC_UPPER	--bc-upper	1.0	0以上の実数	BLMVMBC，BLMVMBCMAPで使われる，不等式制約の上限．論文[8]のAが，この値の逆数に設定される． (0に近いほど，結果は一様分布に近づく)
DATA_FORMAT	--data-format，-d	Amis	Amis，AmisTree，AmisFix	データファイルの形式
ESTIMATION_ALGORITHM	--estimation-algorithm，-a	GIS	GIS，GISMAP，BFGS，BFGSMAP，BLMVMBC，BLMVMBCMAP	推定アルゴリズム
EVENT_FILE [1] [2] ... [n]	--event-file，-e	amis.event	ファイル名のリスト	入力イベントファイルのリスト．「-」を指定すると，対応する番号に標準入力をとる．オプションの場合は複数指定しても良い
EVENT_FILE_COMPRESSION	--event-file-compression		raw，gz，bz2	入力イベントファイルの圧縮
EVENT_ON_FILE	--event-on-file	false	真偽値	計算の際イベントをファイル上に保持する（イベントがメモリに乗り切らないときに使用）
EVENT_ON_FILE_NAME	--event-on-file-name	amis.event.tmp	ファイル名	EVENT_ON_FILEで使われるファイル名
FEATURE_TYPE	--feature-type，-f	binary	binary，integer，real	素性関数の値のタイプ．動作速度に影響する．
FEATURE_WEIGHT_TYPE	--feature-weight-type，-w	alpha	lambda，alpha	モデルファイル，参照確率ファイルの入出力の際の素性の重みのタイプ．
FILTER_INACTIVE_FEATURES	--filter-inactive-features	false	真偽値	PRECISIONの範囲で無視しうる素性を出力しない
FIXMAP_FILE [1] [2] ... [n]	--fixmap-file，-x	amis.fixmap	ファイル名のリスト	AmisFix形式の，イベントファイルの書式設定ファイルのリスト．「-」を指定すると，対応する番号に標準入力をとる．オプションの場合は複数指定しても良い
FIXMAP_FILE_COMPRESSION	--fixmap-file-compression		raw，gz，bz2	FIXMAP_FILEの圧縮
LOG_FILE	--log-file，-l	amis.log	ファイル名	推定の経過の出力先
MAP_SIGMA	--map-sigma，-s	1	実数	GISMAP，BFGSMAP，BLMVMBCMAPで使われる，事前分布の標準偏差 (0に近いほど，結果は一様分布に近づく)
MEMORY_SIZE	--memory-size	5	整数	BFGS，BLMVMにおける，使用メモリ量．
MODEL_FILE [1] [2] ... [n]	--model-file，-m	amis.model	ファイル名のリスト	入力モデルファイルのリスト．「-」を指定すると，対応する番号に標準入力をとる．オプションの場合は複数指定しても良い
MODEL_FILE_COMPRESSION	--model-file-compression		raw，gz，bz2	入力モデルファイルの圧縮
NUM_ITERATIONS	--num-iterations，-i	200	整数	推定アルゴリズムの反復回数
OUTPUT_FILE	--output-file，-o	amis.output	ファイル名	出力モデルファイルのファイル名
OUTPUT_FILE_COMPRESSION	--output-file-compression		raw，gz，bz2	出力モデルファイルの圧縮
PARAMETER_TYPE	--parameter-type	alpha	alpha，lambda	内部で計算に使うパラメタのタイプ．alphaだと高速に，lambdaだと頑健に動作する
PRECISION	--precision，-p	6	整数	推定結果の有効桁数
REFERENCE_DISTRIBUTION	--reference	false	真偽値	参照分布の使用
REFERENCE_FILE [1] [2] ... [n]	--reference-file	amis.ref	ファイル名のリスト	参照分布のファイル名
REPORT_INTERVAL	--report-interval，-r	1	整数	推定経過の出力の間隔

入出力仕様

amis を利用するには，上で述べた設定ファイルの他に，モデルファイル, イベントファイルを用意する必要があります．それぞれについて以下で説明します．

各ファイルにおいて，# から行末まではコメントとして無視されます．コメントはスペースと同等の扱いとなります．各トークンはスペースまたはタブで区切られ，改行文字が行の終りを表します．また，コロン(:)は特別な文字として認識されます．これらの特別な文字をトークンの一部として使いたい時は，バックスラッシュ(\)でエスケープしてください．バックスラッシュ自身は \\ で表します．

入力モデルファイル

モデルファイルは，素性関数の名前と，それに対応する重みの初期値を与えるファイルです．

素性名    初期値
素性名    初期値
素性名    初期値
...

一行が一素性に対応し，各行には素性名と素性の重みの初期値を，スペースまたはタブで区切って記述します．素性名には，スペース，タブ，コロン(:)，シャープ(#)以外の文字ならなんでも使えます．初期値は C スタイルの実数で記述します．初期値は正の実数（FEATURE_WEIGHT_TYPEがlambdaなら任意の実数）ならいくつでも構いませんが，普通は 1.0 （FEATURE_WEIGHT_TYPEがlambdaなら0.0）にします．

入力イベントファイル

イベントファイルでは，学習データとなる事象のリストを与えます．最大エントロピー法における事象は，観測事象(observed event)と補完事象(complement event)からなります．補完事象には，観測事象以外の，想定される選択肢を列挙します．各々の事象は，観測事象と補完事象の和集合のなかから，観測事象を選びとることと見なすことが出来ます．実際には，観測事象，補完事象ともに，そこで観測された素性を列挙することによって記述します．

イベントファイルの形式は，Amis形式，AmisFix形式，およびAmisTree形式から選ぶことが出来ます． AmisFix形式は一定数のラベル集合から，分類対象に付与するラベルを選ぶ問題に使います． AmisTree形式は feature forest に対するパラメータ推定アルゴリズムを利用する時に使います． Amis形式とAmisTree形式は，理論的には同等の表現力を持ちますが， feature forestがコンパクトに記述できるような問題では，速度，メモリともにAmisTree形式のほうが大幅に高効率となります． AmisFix形式は，表現力が制限されますが，単純な分類問題ではAmis形式に比べて消費メモリが少なくなります．ただし，速度はAmis形式のほうが速くなる可能性があります．

Amis形式

event_1
1    素性 素性 素性 ...
0    素性 素性 素性 ...
0    素性 素性 素性 ...
0    素性 素性 素性 ...
...

event_2
0    素性 素性 素性 ...
1    素性 素性 素性 ...
0    素性 素性 素性 ...
...

...

ただし，「素性」の部分には，

素性名

を書きます． FEATURE_TYPEでintegerやrealを指定した場合は

素性名:素性の値

を書くこともできます．

空行で分けられたブロックが一つの事象に対応します．一行目には，事象の名前を記述します．事象名には，上述した特殊文字以外の任意の文字が使えます．事象名は，推定には影響を与えないので，意味のない文字列でも構いません．次の行からは，各行に観測事象または補完事象を記述します．行の先頭には，その事象の観測回数を記述します．観測事象の場合は正の数，補完事象の場合は0になります．一つの事象につき観測事象は一つしか記述できません．観測回数の後ろに，発火した素性を列挙します．素性は，モデルファイルで記述したものを指定します．モデルファイルにない素性を指定するとエラーになります．各素性の後ろには，素性関数の値を指定することができます．上の例の通り，コロン(:)に続けて素性関数の値を指定します．省略した場合は１とみなされます．

各事象は，空行で区切ります．空行は何行でも構いません．コメントのみの行も空行とみなされるので注意して下さい．

AmisFix形式

まず，イベントファイルから素性を取り出すために， FIXMAP_FILEとして，次の形式のファイルを指定します．

ラベル名 ラベル名 ラベル名 ...
特徴名 ラベル名 素性名  ラベル名 素性名 ...
特徴名 ラベル名 素性名  ラベル名 素性名 ...
特徴名 ラベル名 素性名  ラベル名 素性名 ...
...

イベントファイルとしては，次の形式のものを与えます．

ラベル名 1 特徴 特徴 特徴 ...
ラベル名 1 特徴 特徴 特徴 ...
ラベル名 1 特徴 特徴 特徴 ...
...

ただし，「特徴」の部分には，

特徴名

または

特徴名:素性の値

を書きます．

FIXMAPファイルの先頭の行では，分類に用いるラベルを列挙します．先頭以外の行は，一行が一つの特徴に対応し，各特徴がそれぞれのラベルと共起したときに発火する素性を指定します．

イベントファイルは，一行が一つの観測事象に対応します．行頭には，観測されたラベルと，その事象の頻度を記述します．それに続けて，観測された特徴を列挙します． Amisは，行頭のラベルと，列挙された特徴を組み合わせて， FIXMAP_FILEの対応する素性からなる観測事象を作ります．補完事象は，行頭に書いたもの以外のラベルを用いて，自動的に作られます．

入力仕様(AmisTree形式)

事象名
頻度       素性 素性 素性 ...
[disjunctive node]

[disjunctive node]は，BNF風に書くと以下のようになります．

[disjunctive node] :=
  ノード名の参照 |
  { ノード名 [conjunctive node] [conjunctive node] ... }
[disjunctive node] :=
  ノード名の参照 |
  ( ノード名 素性 素性 ... [disjunctive node] [disjunctive node] ... )

中かっこ及び小かっこの前後には必ずスペースを空けてください．スペースがない場合はノード名や素性名の一部とみなされます．

具体的には，以下のようになります．

event_1
2       feature1:2 feature2:3 feature3
{ dnode_1 ( node_1 feature1:2 { dnode_2 ( node_2 feature2:3 ) ( node_3 ) } { dnode_3 $node_2 ( node_4 feature3 ) } ) }

event_2
1       feature2:3
{ dnode_1 ( node_1 feature1 ) ( node_2 { dnode_2 ( node_3 feature2:3 ) ( node_4 feature3 ) } ) }

...

Amis 形式と同様に，空行が事象の区切りを表します．AmisTree 形式では，一つの事象を３行で記述します．１行目は，事象の名前を記述します．２行目には，その事象の観測回数と，観測事象の素性を記述します．上の例では，事象 event_1 は２回，event_2 は１回観測されたことを表します．Amis 形式と同様，素性の名前と素性関数の値を組で記述します．３行目には，観測事象および補完事象の feature forest を記述します．まず，disjunctive node は中かっこで表します．中かっこの中に，はじめにノード名を記述し，次に conjunctive node をスペースで区切って並べます．ノード名は，イベント単位で一意になっている必要がありますが，共有する必要のないノードに対しては，'_'にすることもできます． conjunctive node は，小かっこまたはノード名で表します．小かっこで表すときは，最初にその conjunctive node の名前を記述します．conjunctive node の名前は，ノードの共有を表すために使います．素性と同様に，特殊文字以外の任意の文字が使えます．その後にそのノードで発火する素性を記述します．素性の記述方法は Amis 形式などと同じです．その後に，disjunctive node を記述することもできます．conjunctive node や disjunctive node の共有を表すときは，ノード名を用います．既出のノードについて，そのノード名の先頭に $ をつけたものでノードの共有を表します．上の例では，event_1 において，$node2 は前に出てきた node2 と共有していることを表します．このようにノードを共有して feature forest のサイズを小さくすると，計算量が小さくなり，スピードアップします．

feature forestからは，次のような相互再帰的な手続きで，観測/補完事象の素性列を取り出すことができます．

[disjunctive node]に出会ったら，子ノードのどれかから取り出した素性列を返す
[conjunctive node]に出会ったら，そのノードの素性列と，全ての子ノードから取り出した素性列を合併して返す

AmisTree形式のイベントは，この手続きで得られる全ての素性列が，観測/補完事象として現れているような Amis形式のイベントで表すことができます．パラメタ推定の際には，そのようなAmis形式のイベントファイルが与えられた場合と同等の計算が， feature forestのサイズに比例するコストで行われます．

扱えるイベント数，素性数はシステムリソースに依存します．
メモリが足りない時は，EVENT_ON_FILE オプションを使って下さい．
GIS や GISMAP で "Infinite!" というエラーメッセージが表示されたり， BFGS アルゴリズムが収束しない(Line search in BFGS algorithm .. というメッセージが表示される)時は，パラメタ推定の途中でオーバーフローやアンダーフローを起こしている可能性があります．そのときは， PARAMETER_TYPEにlambdaを指定して実行してみてください．
Feature forest model では，観測事象で記述されている素性列が， feature forest に必ず含まれている必要があります．amis はこの条件が満たされているかどうかのチェックは行いませんので注意して下さい．そうなっていない時は，パラメタ推定が収束しない場合があります．"forestcheck" ツールを使うことでこの条件のチェックを行うことができます．