PROJECT

THEME

古典籍情報のさらなる有効化

代表者
大町 真一郎(工学研究科)
分担者
  • 佐倉 由泰(文学研究科)

INTRODUCTION

本研究プロジェクトは、大規模な古典籍画像データの高精度な検索技術を確立し、同時に人文学の研究方法を見直すことにより、人文学の新たな創造性を高めることが目的である。

古典籍画像データ中の多様な文字を高精度に認識することは容易ではないため、古典籍画像を認識するのではなく、画像の類似性を利用して検索を実現する手法を検討する。テキストが与えられると、そのテキストを表す文字列画像を生成する。そして、検索対象の文書中の文字列の画像との類似度を計算することで、検索テキストの存在する領域を特定する。一方で、機械学習の技術を駆使することで古典籍テキストを認識する手法についても検討する。機械学習では学習データとして用いることのできるラベル付きデータの量が認識精度を大きく左右する。古典籍では異体字やくずし方で形状が異なるため、古典籍ごとに全字種の十分な数の学習データを準備することは不可能である。これを解決するために、文字の構成要素(部首)を認識することで文字全体を認識する手法を検討する。

新たな人文学の創成をめざす中で、従来の情報の価値観に、新たな情報の価値観が加わるという、少なからぬ規模の、価値観の変動や複数化が起こることが予想される。このように、情報の価値の変化と多元化が進行する状況において、いかなる優先付けを図ることが妥当かという、生きた情報の優先付け研究を実践して行くことができるのも、本研究の特色である。