第 206 回 PTT のお知らせ


日時: 1995年 3月23日 (木) 18:30 から
場所: 津田塾大学 JR国分寺駅より西武国分寺線、鷹の台駅(10分)下車、 改札を出てすぐ右、地下通路を通って中央公園を 右斜め方向に進み、府中街道に出たら、 街道沿いに左に進めば正門あり。徒歩約10分。 なお、守衛所の前は「PTTに来ました。」といって 通過してください。 教室は本館右奥突き当たりの第一会議室です。
話者: 白倉悟子(津田塾大・理学研究科)
題目: 新聞記事における事件特定のための単語群の抽出
概要:
  ある出来事をあらわすような単語群を自動抽出する
  方法を提案する。新聞のように記事を寄せ集めた
  文書は、数件の出来事を内包している。
  一群の単語で、こういう「出来事」を特定しようと
  試みた。このとき、統計処理によって単語を抽出した。
  約5年分の朝日新聞の一面記事から実際に単語群を
  抽出したので、この例を示して問題点を議論する。

食事:


第 206 回 PTTメモ


日時: 1995年3月23日(木) 18:30〜
場所: 津田塾大学 第一会議室
題目: 新聞記事における事件特定のための単語群の抽出
話者: 白倉悟子(津田塾大・理学研究科)
出席者: 並木美太郎, 早川栄一(農工大), 松永均(富山県立大), 金東虎(新潟国際情報大学), 梶浦正浩(東芝RDC), 佐口泰之, 伊知地宏, 倉部淳, 増市博(富士ゼロックス), 寺田実, 立山義祐, 下國治, 岩崎英哉, 田中哲朗, 小川宏高(東大), 小川貴英, 来住伸子, 鈴木悦子, 中川さより, 斉藤小百合(津田塾大), 梅村恭司(NTT), 多田好克(電通大), 和田英一 以上23名
質疑応答:
  新聞記事のコーパスのように、細かい記事が集合した文書は、その中にいく
つかの「出来事」を含んでいる。そこで、この「出来事」を自動的に選択して、
「出来事」の内容を特定することができる単語群を抽出することを目指した。
  新聞記事では、「活断層」ように、ある出来事に関する記事内で特に顕著に
使用されるような単語の存在がある。このような出来事の特定能力の高い単語
をトピックワードと名付け、このトピックワードを中心に、「出来事」の内容
を特定することができる単語群、トピックワードグループを抽出することにし
た。実際に、朝日新聞第一面記事約5年分を対象としてトピックワードグルー
プを抽出した。
  今回は、その実際の処理を順を追って説明し、最後に実際の抽出例を提示し
た。まず、テキストを形態素解析して単語にばらし、助詞、助動詞、代名詞等
の不要語を除去する。この後、各単語について、各月ごとに出現頻度を求める。
この出現頻度をもとに、単語ごとに情報量の期待値を算出して、これを選択の
基準にし、トピックワードと補足語を求める。そして最後に同一記事内での単
語の共起を調べると、グループが出来上がる。これによって、約73000語程度
の単語から、トピックワード、補足語合わせて約1600語が抽出され、約1400グ
ループが生成された。
  問題点は、前処理としての形態素解析の側と、その後の処理、つまり、トピッ
クワードを抽出してグルーピングを行なう処理の側との双方に存在する。例え
ば、形態素解析側では、形態素解析に失敗して意味不明の単語がグループ中に
存在する、また、複合語がうまく抜き出せないことで事件特定に必要な単語が
欠如してしまう、などの問題点がある。また、グルーピングでは、直観的に関
連性がない単語をグループにしてしまう可能性が残る。一方利点として、一般
にキーワード付与をする際に必要となるシソーラス、不要語辞書等の既成辞書
情報を利用しなくても、また、要約で行なうような意味処理をしなくても、統
計的な処理のみでそれなりに意味のある単語群を抽出できるという点があげら
れる。
  結論は、次の通りである。
実際に新聞記事からトピックワードグループを抽出する作業を行なった。
それを見ると、実際に起こった事件内容を特定できる単語群が抽出されている。
以上。

質  疑:  形態素解析をやめて、字種切りだけでも同様の結果はでるのではないか。
	  トピックワードグループの今後の使い道をどう考えているか。
		… 文書検索の際のキーワードの示唆。
		   文書の大雑把な情報内容の把握。
	  処理時間がどのくらいかかるか。
		… 通して計ったことがないので不明。
		   形態素解析処理時間も含めてSun,ss10で6時間程度か。
	  トピックワードグループに含まれる単語の妥当性。
		… 現状では、目でざっと概観するする程度の評価しか
		   行なっていない。
	  事件の記述に重要であるにも関わらず、トピックワード候補から
	  				落ちてしまった単語はあるか。
		… トピックワードと補足語を選択する基準の設け方で
		   変わってくる。
		   「アジア太平洋経済閣僚会議」のような複合語が
		   ばらばらになっていると、個々の構成単語は「ありふれて」
		   いるので、トピックワードとして選択することは無理。
	  等。



PTT 各位

PTT幹事の農工大の並木です。さて、3月のPTTですが、
日時と開催校が決りましたので、お知らせします。

日時: 3月23日(木)
場所: 津田塾大

津田塾の小川先生のご尽力でDrの学生さんが発表されます。
概要は近日中にお届いたします。まずは、とり急ぎ日時を
ご連絡と思いメールしました。

なお、1995年度の予定(案)を次に示します。少し、(他)を増やして
見ましたが、いかがなものでしょうか。「こんなところでやってほしい」、
「あそこにお願いしようか」等ありますでしょうか。
逆に、幹事校を増やした方がいい等、ご意見を頂けたら幸いです。

207回	1995/ 4		東工大
208	      5 	農工大
209	      6		早稲大
210	      7		(他)
211	      9		東大
212	     10		電通大
213	     11		慶應大
214	     12		(他)
215	1996/ 1		東工大
216	      2		農工大
217	      3		早稲大