日時:2006年 8月 3日(木) 18:30 から
場所:東京工業大学 大岡山キャンパス 西8号館 W棟 10階 1011号室
話者:
小松 弘幸 (Google Japan)
話題:
日本語予測入力のための環境情報の活用
概要:
日本語予測入力に対しての、環境情報を活用した機能拡張および精度向上手法を、話者の
博士論文の内容を中心に紹介する。話者らが開発している予測入力システムのPRIME を
紹介したのち、その PRIME に実装されているいくつかの実験機能およびその実装手法を
紹介する。実験機能には、コミュニケーションにおける相手が使用した語彙を利用する
機能 (Nanashiki)、ユーザがアクセスしたあらゆる情報を蓄積し辞書として活用する
機能 (Kukura)、和英混在入力を実現する機能 (Suikyo) などがある。
出席者:22名
伊知地宏(ラムダ数教研)、首藤一幸(ウタゴエ)、林芳樹(Google)、 酒井香代子(中央大)、石畑清(明治大)、金子知適、田中哲朗、横山大作、筧一彦(東大)、 櫻田武嗣、織田英人(農工大)、福久琢也、増田萌、脇田建、三廻部大(東工大)、 小林、宮前、卜部昌平、滝田裕、多田好克、寺田実、丸山一貴(電通大)
Q 「わたしの名前は小松です」はどうやって入力したのか。 A デモ用に二回上記の文章を入力しました。 一度目は「わたし」「の」「名前」「は」「小松」「です」と分割して入力 二度目は「わ」と入力した時点で、「わたし」「わたしの」が候補に表示されるので それを順次選択して入力しました。 連文節変換にも対応しているので、予測入力ではなくは分割せずにまとめて 全部入力することも可能です。 Q 漢字の読みはどうして分かるか。 A MeCab等の形態素解析機を使っています。 Q 仮名入力でも対応可能か。 A 可能です。現時点で T-Code にも対応しています。 Q Nanashikiの候補の順番はどう決まっているのか。 A 入力位置に近いものが優先されます。その後別の処理で全体の順番が決定されます。 Q 複合語はOn demandではなく予め作ってしまうのか。 外したものが溜まってしまうのではないか。 A あらかじめ作ります。外したものも溜まります。 優先順位はどんどん下がっていくので、ユーザからは見えなくなります。 Q キー入力に対して長い文字列を得るのが目標のように思えるが、 単語を超えた(より長い)候補・入力したことがない候補を出すという 考えはあるか。 A あります。ただ、S/N比が非常に高くなるので慎重です。 Q 意外な候補がどんどん出てくるシステムというのはどうか。 A 実用性は疑問ですが、面白いと思います。 Q 安房峠の前のchairは無視するのか。 A 無視はしていません。"chair \n 安房峠" vs "chair \n about" の(その時点での) 結果です。 Q 「14語で失敗」の最後の "that" は日本語にならないのでは。 A "that" は "てゃt" とローマ字変換され得ます。 Q 日本語の次は日本語になりやすい、という情報は利用していないのか。 A デフォルトの挙動がそうなっています。 Q 日本語だが英語に見えてしまうもの、の扱いはどうか。 Q 英単語の部分は名詞として扱われているのか。 A 簡単な品詞辞書を持っていますが、不明な単語は名詞扱いにしているはずです。 Q 英単語を候補として出すのはどうか(一括して変換エンジンに任せてしまうのは どうか)。pりめ→prime A その場合、変換動作が1ステップ余分にかかってしまいます。 Q 「てゃt」問題への脇田先生のコメント(聞き逃し…)。 A ご指摘の通り、"tha" などのユーザが使わないローマ字変換情報を削れば、 より精度の高い和英混在入力が可能です。 Q Kukuraで世界のweb pageを取り込むのはもうやったんじゃなかったっけ。 A Kukura はユーザが見たウェブページ限定です。 Q 世界のweb pageを使うと間違った言葉を使ってしまうのでは。 A ご指摘の通り、その可能性はあります。 Q 同じ人の「時間軸的なフェーズ」という概念はあるか。 この文章は同じ人の過去のものだ、と認識するのは難しいのか。 アプリケーションと連携するのか。 テキストだけから「上司宛メール」モードだと認識することはできないのか。 A ある程度は、ヒューリスティックスに可能だと思います。 本当に自動的にやろうとするのは難しいと思います。 Q 他人の文章を読ませて模倣することはできるか。 A 語彙やいいまわし、「行う」と「行なう」の取捨の模倣はできると思います。 Q コンテクストごとに世界(辞書)を持った方がいいと思うが、 1つの辞書はどの程度のデータサイズになるのか。 A そのコンテクストの粒度によります。 Q PRIMEを使っていると文体がいつも同じになりやすい(丁寧な文章を友人に 送ってしまう)が。 A 文体モードを自動で切り替えられるようにしたいです。 Q 題名の「環境情報」とは何か。 A ユーザの周辺にある、あらゆる情報だと解釈してください。 その情報から、ユーザの意図を読み取り、予測入力に役立てます。 Q 結局はキーボードから候補選択をするのが面倒なのだが、これを解決するアイデアは ないか。 A なにかあったら逆に教えてください。 Q 予測を活用しようとしてもあまり得できないことも多い(そのくせ、視点移動の コストが高い)のだが。 A 毎回予測しようとすると疲れるので、「欲しい候補が目に入ったら使う」、ぐらいで 考えてください。私は視線移動をまったくしません。 Q 今はopen sourceなのか。 A はい。 Q 検索キーワードの入力欄で、他人の検索キーワードを出すというのはどうか。 A Google Suggest がそんな感じです。 Q どの程度の軽さ(負荷)を想定しているか。 A 自分のPCで使って重くならない程度です。 Q 何で書いてどのくらいの大きさか。 A コアは C ですが、ほとんど Ruby です。4000行程度。