@misc{oai:ir.soken.ac.jp:00000720, author = {中村, 永友 and ナカムラ, ナガトモ and NAKAMURA, Nagatomo}, month = {2016-02-17, 2016-02-17}, note = {本論文は,多変量特性データの分類法であるクラスター化法(とくに組み合わせ的階層分類法)ならびに多変量混合分布モデルに基づく分類手法に注目して,これら両者の分類法としての特性を数理的に考察すると共に,両者の利点を活かした新たな分類方式を提案している.
 論文は第l部から第IV部,併せて10章から構成される.
 第I部(1章)の総論では,この研究に至った経緯,問題の背景について述べている.とくに,階層的分類法および多変量混合分布モデルの従来の研究における問題点と本論文で扱う研究の範囲,その意義等を議論している.
 第II部(2章~5章)では,階層的分類法のクラスター化の生成過程で見られるクラス夕ー結合距離による保存,拡大,縮小といった空間のひずみに注目し,これらのひずみが階層的分類の各種手法に現れるための一般的条件を調べると共に,手法相互の関係を数理的に明らかにしている.この結果に基づき,新たな階層的分類法(一般化可変法)を提案し,これが既存のいくつかの手法の一般化に相当することなどが示されている.
第III部(6章~8章)では,多変量混合分布モデルを分類法として用いる際の主な留意点(EM法の初期値設定とコンポーネント数の推定)について,実用的な分類方式を提案している.ここで提案する分類方式は,第II部で考察した階層的分類法およびk-means法などの,従来利用されてきたクラスター化法を,正規混合分布モデルの初期値設定の分類法として利用する.これは,データに内在する構造の特徴に応じて,各々の手法が固有の分類結果を与える(クラスター化の過程が異なる)という性質を利用して,初期値設定のための様々なクラスター化の状況を作り出すことに相当する.そして,これらの分類結果を多変量混合分布モデルの初期値設定に適用する.提案する分類方式は,事後確率(各コンポーネント分布への所属確率),判別率等の指標を用いることにより,得られた分類結果の客観的な比較を可能とし,結果として分類対象のデータ構造のより具体的な診断の手がかりが得られるという利点がある.従来行われてきた多変量混合分布の分類法は,初期値設定が分類結果におよぼす影響の評価は困難であるとされてきたが,ここに提案する方法は,これらの弱点を補うものである.
 さらに,情報量規準を用いて正規混合分布モデルのコンポーネント数の推定を行う手続きを提案する.これは提案した分類方式と,ブートストラップ法でバイアス推定を行う手続きを併せて行うところに特徴がある.また,ブートストラップ標本から混合分布モデルのパラメータ推定を行う際の初期値の設定方法について考察し,この方法の有効性を数値実験により検証する.そして,線形近似によるブートストラップ・バイアス推定の変動減少法が,コンポーネント数の推定に際してブートストラップ反復回数の減少を可能とし,併せてEM法の収束の遅さを補う方法としても有効であることを数値実験から観察する.
 さらに多変量正規分布より裾の重いデータヘの対処方法として,正規混合分布モデルの自然な拡張としてのt混合分布モデルを提案する.ここで,t混合分布モデルは正規混合分布モデルを包含し,より一般的なモデルとして表現が可能になるという利点を示した.
 第IV部(9章,10章)では,提案した分類方式の有用性を検証するために,いくつかの事例データ解析を行う.
 第一の例は,昆虫学の形質に基づく分類法との対比で,興味ある知見が得られた事例である.扱うデータセットはオーストラリアにおける野外調査で計測された「キバハリアリ」の計量データおよび形質データである.これを解析した研究者らは,主に形質データを利用した分岐分類を行い,所与のデータセットが9つの種群からなると結論づけた.
 ここでは提案した分類方式を計量データに適用し,種群に相当するコンポーネント分布のその数の推定や,各々の個体(アリ)のコンポーネント分布への所属確率などを求める.この結果を上述の9種群と比較し,興味ある知見が得られた.とくに解析に用いる変数(特性)の選択,データの加工(比率変換など)を含めて,ここで提案した分類方式は,形質に基づく伝統的な分岐分類や系統解析等に先立つ事前処理法として利用できる.この意味で分類結果得られた群(クラスター)の客観的な情報は有用であるとの専門家の意見を得ている.
 次に,LANDSATの画像データヘの適用例を取り上げる.ここで提案した分類方式のコンポーネント分布を多変量t分布として分類を行う.これを正規混合分布モデルとの比較検討することにより,t混合分布モデルの有効性を示す.次に,各画素上の多変量特性データの事後確率,確率密度などの情報を用いて,分類結果を効果的に色彩画像化するための配色アルゴリズムを提案する.これら一連の手続きの特徴として,(1)推定したコンポーネント分布の重なりあう様相が色彩画像として視覚化される,(2)コンポーネント分布やそれらの間の構造が画像上で色彩イメージとして視覚化され,分類結果の画像の解釈が容易になる,(3)扱う画像データの画素数が比較的大きく(数十万~数百万程度),教師デー夕(トレーニング・データ)となる地上の詳細な情報が入手困難な場合などに有効である,などが挙げることができる。, application/pdf, 総研大甲第109号}, title = {クラスター化法の統計的評価とその応用}, year = {} }