第 251 回 PTT のお知らせ
日時: 1999年 7月22日 (木) 18:30 から
場所: 慶應義塾大学 理工学部(矢上キャンパス) 25-601 教室
話者:三平 善郎 (慶大・理工・計算機科学)
題目:引用文献の同定
概要:
話者は, 日本語版 CITATION-INDEX の構築に必要な参考文献情報から, 自
動的に引用文献を特定する手法を提案してきました.
以前の学会発表(1996 年日本ソフトウエア科学会全国大会)では, 評価対象
が, コンピュータサイエンス分野の論文に対してのみの評価であり, また処理
評価数も 50 の引用関係を同定する程度の研究報告でした.
今回は, 改良した手法と, その手法を日本の主な学術分野に広げての評価
について述べます.
食事:
第 251 回 PTTメモ
出席者:
田中哲郎(東大情報基盤センター),
伊知地宏,
佐口泰之(富士ゼロックス),
和田英一(富士通研),
下國治(川崎市),
関洋平,
飯島正,
篠沢佳久(慶應),
石畑清(明大),
前田敦司,
山内斉(電通大),
岩崎英哉,
寺田実,
丸山一貴(東大・工)
- (質) volume,誌名などの情報を捨てるのはあまりにもったいないので
はないか.
- (解)本手法は知識をほとんど仮定しない(名前が最初にあるだ
ろう,次がタイトルであるだろうという程度しか仮定しない.)
でも同定を可能にするということを考えている.これは,その
情報の抽出の困難さや打ち間違いに対応するためである.
- (質)しかし,それでも論文の citation という知識を使えるの
ではないか.工学的に乱暴な気がする.
- (質)たとえば,Page のパターンとして pp. がついていること
や,[0-9]+-[0-9]+ の形で前の数字より後の数字が大きい場合
は Page であるなどが使えないだろうか.
- (質)論文誌名などは組合せがかなり少ないと考えられるのでそ
のような知識は使えないか.
- (解)知識をできるだけ不要にしたいという背景には(研究当初
の)データベースの使用料ということも要因にある.
- (質) 2 グラムのボトムアップクラスタリング法の妥当性はどうか
- (解)2 グラムの 2 については評価をして良いという結果を得
ている.
- (質)クラスタリングや,距離の導入についてはどうだろうか.
- (質)形態素解析などをもちいないのか
- (解)現状では用いていません.(入力ミスを考えると形態素毎の
類似度計算は危険かと思われます)
- (ご助言)ユーザインターフェースが不要になる程度まで, もっと精度
をあげれば使えるものになると思える.
- 発表資料
発表の様子