第 180 回 PTT のお知らせ
日時: 1992年 11月 12日 (木) 18:30 から
場所: 早稲田大学理工学部 59号館 4階 415号室 情報科学研究教育センター会議室
山手線新大久保駅下車.改札を出て右にしばらく歩いていくと,右側にダンキ
ンドーナツがあるので,その向かい側の道に(左折して)入る.しばらく行くと
つき当たるので,右に曲がりすぐまた左に曲がって進む.すると,早大のテニ
スコートがあるので,右手にコートを見ながら行き,塀の切れ目を入る.10分
程度です.
話者: 北川 雅也 (日立京浜工業専門学院,早稲田大学大学院理工学研究科)
題目: 日本語プログラミング環境の構築
概要:
我々の周りには,英語の場合に比べて日本語の文章を処理するツールは少ない.
通常日本語を使う私達にとってこれは不便なことがある.今回の発表では,漢
字仮名混じり文を文節ごとに分解し,読みと品詞情報を付加する仮名漢字逆変
換システムを中心に,日本語文章の統計ツール,常用漢字チェッカやルビの自
動挿入ツールについて述べる.さらに `日本語の曖昧さ'を表す文章の「ゆれ」
の検出や単語一覧,定義情報も併せて出力する日本語処理ツール群について報
告する.
食事: ありません.
差出人(幹事):
113 文京区本郷 7-3-1
東京大学工学部計数工学科 岩崎英哉
03-3812-2111 ext. 7411
iwasaki@wadalab.t.u-tokyo.ac.jp
第 180 回 PTTメモ
日時: 1992年 11月 12日 (木)
場所: 早稲田大学 理工学部 59号館 4階 情報学科会議室
題目: 「日本語ソフトウェア開発環境の構築」
話者: 北川 雅也 (日立京浜工業専門学院,早稲田大学 大学院 理工学研究科)
出席者:
和田 英一,
岩崎 英哉,
田中 哲朗,
尾上 能之,
木下 毅,
寺田 実,
立山 義祐 (東大),
多田 好克,
稲田 太,
益田 典明(電通大),
伊知地 宏,
佐口 泰之 (富士ゼロックス),
北村 美穂子(沖電気工業),
木田 春男,
蜂谷 祐治,
高田 岳志(Apple),
佐々木 崇郎(慶大),
落合 大,
朴 哲済,
崔 卿楽,
青柳 浩昭,
今村 悦子,
辻 可織(早大)
概要:
質疑応答:
我々の周りには,英語の場合に比べて日本語の文章を処理するツールは少
ない.日本語ソフトウェア開発環境を構築するには,日本語文が「わかち書き」
されていないことが,その実現を難しくしている.
日本語処理ツールを作成するには,「文節の区切り」や「品詞」といった
情報が必要であると思われた.先ず,その情報を得るため,我々は Wnn4.1 の
ライブラリを利用して「仮名漢字逆変換システム」を作成し,本発表で紹介し
た.
逆変換システムとは,既存のツールで作成された日本語文書(漢字仮名混在)
を入力し,漢字から仮名に変換する際,文節の区切りや品詞といった情報を取
得し S式の形式でファイルに出力するシステムである.本システムの構成,機
能,問題点,作動モードについて説明し,さらに S式ファイルの加工のための
複合品詞の検出ツールを挙げ,Wnn の辞書を成長させる試みについて述べた.
以上のような逆変換システムの概要とその実現方法を述べた後,このシス
テムが出力する S式ファイルに含まれる「読み」「区切り」「品詞」を利用し
た各種ツールの報告を行なった.
(1) 常用漢字チェッカ (自分の使用した漢字の難度を測る)
(2) jLaTeX ルビ挿入 (漢字の文章に「よみがな」をつける)
(3) jLaTeX 索引生成
(4) 定義情報の抽出
(「が」「は」や「である」などの言い回しの検査)
(5) 「ゆれ」の検出とその除去
(6) 逆変換システムのシェルへの応用
(漢字のファイル,ディレクトリに対するアクセスの簡単化)
発表に不慣れでお聞き苦しい点があったと思いますが、以後の研究を進め
る上で貴重な意見を多くいただき,大変参考になりました.参加者の皆さんに
感謝致します。