安 | | | | | | 田 | +--------+ +-------+ - 講 | 正門 堂 | +--------+ +-------+ - ---+ | 法文 | | 工学部| | | | | 列品舘| | +--------+ +-------+ | | ---------+ +-------+ +----+| 工学部 | |工学部 | |工11|| 2号館 | |6号館 =入口 | || | | | | || ---------+ +-------+ | ||http://www.t.u-tokyo.ac.jp/map/に地図があるので,それも参照してくだ さい.
自然言語処理の課題のひとつである多義単語の曖昧性解消手法のひとつに、 文例中で語義が既知の対象単語の周辺に出現する単語を調査、その統計的法則 性から語義を推定する手法がある。
その一種として主として名詞を対象に提案されている決定リスト手法につ いて、概念分類体系を用いた拡張を提案、その評価結果を報告する。
決定リスト法は概念分類体系の利用との親和性が高く、人工的疑似多義語 を対象とした実験の結果、動詞・形容詞においても80〜90%の高い正解率を得、 ことに訓練用の文例が少ない場合にこの拡張の効果が大きいことが確認できた。
複数の語義をもつ単語の語義を文脈から決定する語義曖昧性解消の問題は,自 然言語処理における最も重要な問題の一つである.Yarowskyによって提案され た決定リストによる手法は,英語の多義名詞での実験において,非常に高い精 度を実現している. そこで,まず決定リストによる手法を日本語の単語に適用を試みた.日本語の, 名詞・動詞・形容詞それぞれについて実験を行い,決定リストによる手法が有 効であることが示された.さらに,ツリー構造のシソーラスを用いて,手法の 拡張を行い,特にトレーニングコーパスのサイズが小さい場合でも,高い精度 が得られるようになった. Q. 語義曖昧性解消は自然言語処理の最終的な目的ではない.したがって,その 評価をするためには,何を指標とするべきなのか? 例えば正解率を指標とする のならば,機械翻訳などのアプリケーションでは,どの程度の正解率が求められ るのか? A. 語義曖昧性解消手法の性能評価に関しては,多くの研究では判定の適合率・ 正解率を用いている.しかし,実際のアプリケーションの中に組み込んでの評価 は少ない. Q. 語義判定の特徴・証拠としてどのようなものを用いるべきか? A. 対象とする単語の近傍の単語や品詞などを特徴としている研究が多い.本研 究での実験結果からは,ターゲットが名詞の場合は近傍に出現する単語,動詞・ 形容詞では近傍の単語とターゲットに対する文法的関係(どの助詞で係るかな ど)が有効な特徴といえる. Q. 疑似単語の性質は,本物の多義語の性質と異なるのではないか? なぜなら, 本物の多義語は,その性質次第で淘汰されるものもあるため. A. その可能性はありうる.したがって,疑似多義語としては,実際の英語の多 義語である「銀行・土手」などを用いる方がよかったかもしれない. Q. シソーラスによる拡張の悪影響は? A. 決定リストを用いる本手法では,有効でない証拠は自動的にほとんど使用さ れなくなるため,たとえシソーラスの構造が不適切であっても基本的に悪影響は ない. Q. 仮名漢字変換システムでは,どのようにして曖昧性解消を行っているのか? A. あとで調べてみたところ... MS-IME98では,大規模なコーパスから用例を抽出し,統計的手法で行ってい るようです. ATOKでは,統計的手法に加えて精密なチューニングを施している, ということですが詳しくはわかりません.表面的な説明から判断すると,ツリー 構造のシソーラスと人手で構築した格フレームを用いているようです.