人文社会系研究

The Times Digital Archiveデータベース、OCR再処理のご案内

2023.07.21

センゲージラーニング社Galeが提供するThe Times Digital Archive (TDA)は、アメリカの『ニューヨーク・タイムズ』に対して『ロンドン・タイムズ』と通称される、世界的に有名なイギリスの高級日刊新聞The Timesを、1785年の創刊号から2019年まで収録するデータベースです。刊行当時の紙面をページイメージで再現、全文検索をはじめ、Web版ならではの多彩な検索・分析機能を提供します。

2003年にリリースされて以来、今年で20年が経過、日本でも多数の大学にご導入いただいている海外新聞データベースの定番ともいうべきTDAの一部の収録記事につき、このたびOCR(光学文字認識)の再処理を実施しました。最新のOCR技術によるアップグレードを求めるお客様のご要望にお応えした試みです。

OCRの再処理は、利用統計とお客様からのフィードバックに基づき、1785年から1825年までの全記事と1900年から1925年までの全記事について再処理を実施しました。

これにより、TDAの検索可能性が一層拡大するとともに、より精度の高いOCRテキストをご利用いただくことができます。

The Times Digital Archive1

The Times Digital Archiveトップ画面

The Times Digital Archive2

The Times Digital Archive出力画面(ページイメージとOCR生成テキスト)

なお、TDAは、Galeの歴史的な一次資料を提供するデータベース収録コンテンツのデータを、オンライン上で直感的にテキストマイニングを行うことができるプラットフォームGale Digital Scholar Labの対象データベースです。

TDAをご購入、さらにGale Digital Scholar Labを年間購読でご利用のお客様は、TDAのOCR生成テキストを対象に、Gale Digital Scholar Lab上で、テキストマイニングを実施することができます。

あわせてご検討ください。

サービスご案内ページ

  • The Times Digital Archiveのご紹介ページはこちら
  • センゲージ ラーニング株式会社サイトはこちら
  • Gale Digital Scholar Labのご紹介ページはこちら
  • センゲージ ラーニング株式会社サイトはこちら

読み物ページ

(紀伊國屋書店 デジタル情報営業部)