第 249 回 PTT のお知らせ
日時: 1999年5月27日(木) 18:30 から
場所: 早稲田大学理工学部59号館4階、情報学科会議室
山手線高田馬場駅より早稲田通りを東へ7分、
明治通りを南へ8分、右手に理工キャンパス。
キャンパスの南側の道から正門入る
正門のすぐ左手が59号館
| |
[T]--------------+----
| 早稲田通り |明
| |治
|山 |通
|手 |り
|線 ----------+<-諏訪町交差点---
| [7]|
| |
| +------+|
|| |早稲田||
|v +--[S]-+|
|新 --------+
|宿 |[L]
[T]=高田馬場駅 [7]=セブンイレブン [L]=ローソン
[S]=正門
(キャンパス拡大図)
+----------+
| 51 |<-高いビル
+----------+
+----+ +----+
| 59 | | 52 |
+----+ +----+
-------------正門---------------
話者: 上園 一知 (早稲田大学院博士課程4年)
題目: 国際化テキスト処理のための文字コードの分析
概要:
インターネットの普及により、様々な言語・文字を計算機で使用する機会
が増えつつある。しかしながら、一般に計算機が扱える言語・文字の組合せは
制限されており、全てのユーザの要求を満足しているとは言い難い。
テキストの通信を考慮した場合、情報交換用符号として国際規格や国家規
格で規定されている文字コードレベルで文字を混在させ、処理可能でなければ
ならない。しかし文字コードは、文字の特性によりそのデザインが異なるため
に、言語や文字ごとにテキスト処理機構が実現されることが多い。任意に文字
コードを組み合わせるためには、文字コードやそのエンコーディングのデザイ
ンを一般化することが必要となる。
そこで、文字の持つ特徴を踏まえ、既存の各種文字コードのデザイン・エ
ンコーディングの分析・分類を行った。更に、文字を任意に混在して処理する、
国際化テキスト処理実現のための要件を導出した。
第 249 回 PTTメモ
日時: 1999年5月27日(木) 18:30 から
場所: 早稲田大学理工学部59号館4階,情報学科会議室
題目: 国際化テキスト処理のための文字コードの分析
話者: 上園 一知 (早稲田大学院博士課程4年)
出席者:
筧 捷彦,
佐藤 出,
長 慎也,
加藤 淳也(早稲田),
和田 英一(富士通研),
田渕 邦夫, 前田 敦司,
多田 好克,
山内 斉(電通大),
田中 哲郎,
丸山 一貴(東大),
伊知地 宏(富士ゼロックス),
石畑 清(明大)
- 入力機構はなぜ文字コードを出力すると言えるのか。
- かな漢字変換などでも結局はJIS X 0208に変換しており、調査
ではほとんどが文字コードを出力していると考えられる。
- なぜデバナガリ文字をとりあげたのか。
- 記号の結合によって文字を構成する文字群は東南アジアからイ
ンドにかけて多く、そのうちデバナガリ文字は公用文字で資料
が比較的容易に手に入るため。
- ヒエログリフは音節文字と表意文字に跨っているがいいのか。
- 文字が表意としても表音としてもしようされているため。そも
そも文字を表音・表意文字と明確に分類することはできない。
- 文字数で分類すれば音素・音節・表意文字の分類と一致する。
- ひらがなには濁点と半濁点があるので構造を持っているのではないか。
- ダイアクリティックマークとして捉えれば構造を持っていると
考えられるかもしれない。
- ハングルも同様に構造があると考えれる。
- この議論はこの場では…。
- #歴史から見れば、濁点・半濁点はダイアクリティックマーク
かもしれません。この辺りは再整理したいと思います。
- EUC-JPのSingle Shiftは当初ISO 2022違反だったが、ISO 2022自体が
改訂され許容された。
- ISO 10646-1の群が0x7Fまでなのは、プログラミング時に使用するため
のマージンとして1ビット確保したため(太田さんの功績)。おかげで
UTFへの変換が問題無く可能である。
- RFC1468やシフトJISがJIS X 0208の規定項目になったことは、基本と
なる文字コードがその使用方法を限定しているという意味でおかしい。
- 発表の様子