Text Encoding Initiative

ウィキペディアから無料の百科事典

Text Encoding Initiative(テキスト・エンコーディング・イニシアチブ、略称 TEI(ティー・イー・アイ))とは、人文学資料を適切にデジタル化するための標準策定を目的とした、国際的な共同プロジェクトである。人文学資料における多様なテキストの構造とメタ情報を、デジタル媒体上で機械可読な形で記述し、また特定のハードウェアやソフトウェアに依存せず効率的・効果的に共有することを目指しており、基盤技術として XML を採用している。

プロジェクトの運営は TEI コンソーシアムによって行われ、策定された標準は TEI ガイドラインとして公開されている。

単に TEI と言った場合、TEI ガイドラインを指す場合と、TEI コンソーシアムを指す場合とがある。現在の最新版のガイドラインは P5 と呼ばれており、TEI P5 と言った場合、ガイドラインのことを指す[1]

欧米の人文学向けデジタルテクスト資料の構造化ではデファクト標準になっており[2]デジタル・ヒューマニティーズ分野の基幹技術の一つである。

標準の概要[編集]

XML によってテキストデータをマークアップしていくという方法を採っており、書誌情報的なものからテキスト全体の構造、個別の箇所の解釈や異読、その他様々な付帯情報までも、マークアップによって記述することを目指している[1]

どのような深さで構造化を行い注釈を記述するかは、記述者の任意であり、段落を示す程度の記述から、紙媒体での脚注のレベルかそれ以上の細い記述まで、様々なレベルの記述が可能である[3]。また、言語コーパスのように各単語の属性に着目して記述するものもあれば、古典文献学のように書誌情報や異文に着目して記述するものもあるなど[4]、対応可能な分野も様々である。厳密な学術利用に耐え得ることを目的に高い構築性を実現したものは、デジタル学術編集版 Digital Scholarly Edition と呼ばれることがある[1]

主に人文学者や情報工学者・図書館情報学者・専門司書などが集まって作られている標準であり、コミュニティ駆動型の標準である[5]。すべての資料に完全に適用が可能なものではなく、また、工業標準のように完全に確定したものではない[6]。現在も技術の発展とコミュニティの拡大にあわせて、適用範囲を広げている[5]

TEI ガイドライン[編集]

TEI ガイドラインは、XML のタグ(要素)の種類や属性を定義するとともに、それらがどういう関係において利用できるかということを決めている。決められた内容は、散文で解説されるとともに、スキーマ(DTDRelaxNG 等で記述される)として配布されており[5]、スキーマファイルは日本語化もされている[7]

また、用途にあわせたタグのモジュール化が行われており、言語学、辞書、書誌学、校訂テクストなど、必要に応じてタグをまとめて取捨選択できるようになっている[8]

ガイドライン自体が TEI を使って記述され、この単一のソースファイルから、散文による解説、スキーマの断片、および TEI リファレンスドキュメントが生成されている。この仕組みは ODD ("One Document Does it all") と呼ばれ、TEI ガイドライン内で定義された tagdocs モジュールを使うことによって可能になっている[9]

現在の最新版のガイドラインは、2007年にリリースされた P5 である。リリース後の改訂は GitHub リポジトリを使用して継続的に行われており、改訂の区切りごとにバージョン番号が付されている。

「90%のユーザの90%のニーズに応える」ための簡易なタグセットとして TEI Lite が用意されている他、図書館の大規模デジタルアーカイブを念頭に、マークアップの深さをレベルとして設定し可能なコストに応じてレベルを選択するという考え方を採る Best Practices for TEI in Libraries というサブセットなども用意されている[8]

TEI コンソーシアム[編集]

Text Encoding Initiative は1987年に幾つかの学術団体の助成を受けて開始された。その後プロジェクトの成功を受けて、2000年に国際的なメンバーシップ組織である TEI コンソーシアム(TEI 協会)が設立された[10]。現在プロジェクトの運営は、TEI コンソーシアムが行っている。

TEI コンソーシアムは、TEI ガイドラインの維持・開発・普及活動のために、技術部会の運営、カンファレンスの開催、公式ホームページの運営、ジャーナルの発行、メーリングリストの運営、TEI の利用のためのツールチェーンの開発・提供などを行っている。

日本での取り組み[編集]

日本はその第1回準備会議から参加者を派遣し、ガイドラインの第2版である TEI P2 段階まで関与をつづけてきたが、それ以降は個人的関与にとどまり、TEI について知る人文社会系研究者は少なかった[11]

しかし現在の最新版である TEI P5 では「gaiji」と名付けられた外字を扱うためのモジュールも用意されるなど、東洋の文献への適用も現実的なものになりつつある[1]ことに加え、2016年には TEI コンソーシアムに日本語資料に対応するための環境を整備する分科会である東アジア/日本語分科会 East Asian/Japanese Special Interest Group が作られる[6]など、日本においても TEI の活用に取り組む機運が高まりつつある。2018年9月には、欧米以外では初めての開催となる、東京での TEI カンファレンスが開催された[12]

脚注[編集]

  1. ^ a b c d TEIとoXygenの初歩”. Digital Humanities notes in Japan. 永崎研宣. 2018年5月1日閲覧。
  2. ^ 永崎研宣、2017、「デジタル文化資料の国際化に向けて:IIIFとTEI」 (pdf) 、『情報の科学と技術』67巻2号、情報科学技術協会、doi:10.18919/jkg.67.2_61 pp. 61-66
  3. ^ デジタル・ヒューマニティーズ(デジタル人文学、人文情報学、etc...)がよくわからない人のために”. digitalnagasakiのブログ. 永崎研宣 (2014年11月19日). 2018年10月5日閲覧。
  4. ^ 写本や貴重書等の書誌情報の書き方について(TEI/XMLのご紹介)”. digitalnagasakiのブログ. 永崎研宣 (2017年5月24日). 2018年10月5日閲覧。
  5. ^ a b c 「デジタルアーカイブ」で全文テキストデータをうまく継承していくには”. digitalnagasakiのブログ. 永崎研宣 (2017年7月31日). 2018年5月1日閲覧。
  6. ^ a b 「デジタルアーカイブ」におけるテクスト資料の構造化・マークアップの国際デファクト標準、TEIガイドラインを作っているTEI協会に日本語資料を扱う分科会ができました”. digitalnagasakiのブログ. 永崎研宣 (2016年6月30日). 2018年5月1日閲覧。
  7. ^ デジタルアーカイブにおけるテクスト資料の扱い: oXygenで日本語解説付きTEIガイドラインを利用する”. digitalnagasakiのブログ . 永崎研宣 (2017年8月26日). 2018年5月1日閲覧。
  8. ^ a b TEIへの取り組み方”. digitalnagasakiのブログ . 永崎研宣 (2017年7月31日). 2018年5月1日閲覧。
  9. ^ Writing ODD specifications”. Getting Started with P5 ODDs . TEI Consortium (2013年12月8日). 2018年5月1日閲覧。
  10. ^ TEI: History”. TEI Consortium (2014年11月19日). 2018年5月1日閲覧。
  11. ^ TEIはなぜ日本で知られなかった、知られていないか、知られるようになるか”. 国際セミナー TEI Day in Kyoto 2006: アブストラクト集 . 土屋俊. 2018年5月1日閲覧。
  12. ^ TEI Conference & Members' Meeting 2018 in Tokyo”. TEI2018. 2018年5月1日閲覧。

参考文献[編集]

  • 京都大学人文科学研究所・共同研究班「人文学研究資料にとってのWebの可能性を再探する」編; 永崎研宣著 『日本の文化をデジタル世界に伝える』 樹村房、2019年。ISBN 4883673278
  • ルー・バーナード, キャサリン・オブライエン・オキーフ, ジョン・アンスワース編; 明星聖子, 神崎正英監訳 『人文学と電子編集』 慶應義塾大学出版会、2011年。ISBN 4766417747

関連項目[編集]

外部リンク[編集]