国立情報学研究所 - ディジタル・シルクロード・プロジェクト
『東洋文庫所蔵』貴重書デジタルアーカイブ

> >
  日本語 English

:: プロジェクトの特徴 ::

貴重書は人類の共有文化財産であるが、その貴重さゆえに保存の必要性も高く、これまで一般の人の目に触れる機会が少なかった。また、展覧会などでたとえ見ることができたとしても、それはたいてい見開きページのみであり、表紙から最後まで、1ページごとに閲覧することは不可能であった。

そこで本研究プロジェクトでは、このような貴重書を誰でもどこでも閲覧できるようなシステムを構築し、インターネットで公開することを目標とした。システム設計においては、できるだけ標準技術に頼り、閲覧性を高くすることを主眼においた。そして以下に述べる特徴をもつシステムを完成させ、2004年4月上旬に公開を始めた。

  1. シルクロードに関連する貴重書の全頁公開 シルクロードに関連する貴重書の中から学問的にも重要な文献を選び出し、その全ページをデジタル画像のデータベースとして公開する。このデータベースによって、書庫の奥に眠っていた貴重書が、誰でもどこでも読める共有文化財産となるため、そこから新たな発見が生まれることが期待できる。
  2. 検索性の向上 貴重書のデジタルアーカイブにおいて最も重要な情報は、そこに書かれているテキストである。そこで、光学的文字認識(OCR)を基本に人手による入力を併用しながらテキスト情報を画像から抽出し、「本の中身」を対象とした全文検索を可能とする。それによって、素早く必要な情報を探し出し関連性について調べることができる(国立情報学研究所と日立製作所が共同で開発した GETA を利用)。
  3. 図像史料の活用 デジタル画像データベースでは、テキスト情報のみならず、写真や絵図、線画などの図像史料も閲覧できるようになる。したがって、文字史料に頼りがちだった従来の方法に比べ、図像史料に含まれる豊富な情報を活用した、新しい文化研究の発展が期待できる。

なお、本データベースで公開する文献は、財団法人東洋文庫が保有する膨大な東洋文献コレクションの中のほんの一部に過ぎず、その他にも学問的に貴重な文献史料が大量に所蔵されている。

:: プロジェクトの目的 ::

アジア研究において収集された膨大かつ多様な学術研究史料は、これまで図書、雑誌論文および文献目録の形で公開されてきた。しかしその形式は統一されておらず、しかも古い史料は入手も困難であった。そこで本データベースでは、最新の情報技術を用いて原史料を統一フォーマットでデジタル化し、多言語アノテーションによるメタデータを付加し、インターネットで内外の研究者に広く公開することを目的とする。

このような東洋学の研究拠点としてわが国において最大、世界でも5指に入る東洋文庫は、「モリソン文庫」等、欧米の東洋研究に関する膨大な学術史料を所蔵している。これらは内外を問わず東洋学研究の基礎となる貴重な学術史料である。そこでわれわれは、この貴重な学術史料をデジタル化しインターネットで広く公開することには大きな意義があると考え、平成14年度以来、学術史料のデジタル化およびデータベース化を進め、シルクロード関連(英、独、仏、伊、露、中国語)史料の高精度画像を中心とする学術史料コレクションを構築している。

本研究は、上記のシルクロード関連史料のデジタル画像コレクションから、先進的なデータベースを構築することを目指すものである。すなわち、光学的文字認識(OCR)および自動翻訳を用いた翻字解説作成、多言語自動索引作成、専門家による協調作成に基づく多言語専門語シソーラス作成などの点である。また、単語・専門語シソーラス・歴史地図・歴史年表などに基づく多様な検索インタフェースを提供し、原史料の言語以外にも日本語・英語からのアクセスが可能な多言語ウェブサイトを構築する。さらに、史料の内容に対する専門家の解釈やコメントを付加・組織化するソフトウェアも、データベースに付加し運用していく。

本データベースは、国際的にも期待されるものであり、多くの国・地域の研究者からのアクセスがあると考える。またわが国独自の研究成果を知的情報資源として整備し、インターネットを通した海外への情報発信に貢献できるという点に大きな意義がある。なお本プロジェクトは、ディジタル・シルクロード・プロジェクトの一環として進めているものである。

:: サポート ::

本プロジェクトは、科学研究費補助金・研究成果公開促進費(データベース):平成15年(158048)、平成16年(168048)、平成17年(178044)、平成18年(188037)、平成20年(208025)、平成23年(238019)、平成24年(248013)、平成27年(15HP8014)などの助成を受けています。