手書き文書の全文検索が可能に!
このたびWiley Digital Archives (WDA) に、革新的な新技術が導入されました。
自動テキスト認識 (Automated Text Recognition, ATR) は、AIを利用して、手書き文書の画像からテキストを抽出する技術です。今後4か月をかけて、WileyはWDAに大量に収録されている手書き文書にATRを適用します。それによって利用者は、読みにくい手書き文書に対して、高い精度で全文検索を実行できるようになります。これまで検索でヒットしにくかった手書き文書が全文検索で新たに発見できるようになるのに加えて、WDAの分析ツール Analysis Hubで年代別の頻出度や近接語の分析が可能になります。さらに、手書き文書からの高精度でのテキスト出力や、自動翻訳も実現します。下の画面例をご覧下さい。
画面例1
数百ページに及ぶ手書き文書の中から”Japan”を検索し、出現箇所をハイライト表示します。
画面例2
手書き文書をテキストとして出力します(完全な正確性を保証するものではありません)
WDA中の書簡・メモなどの手書き文書は今後、活字やタイプ打ちの文書に匹敵するくらいに発見しやすくなり、検索結果で上位に示される可能性が高まります。
ATR技術は、これまで検索から漏れがちだった手書き文書の発見を効率化し、それによって史料研究に新たな可能性を切り開きます。研究や教育の場でのWDAの利用価値が大きく高まることが期待されます。
各アーカイブのATR技術搭載状況
- The New York Academy of Sciences(搭載済)
- Royal Anthropological Institute of Great Britain and Ireland(2021年5月搭載予定)
- Royal College of Physicians(搭載済)
- Royal Geographical Society with IBG(搭載済)
- British Association for the Advancement of Science(2021年6月以降搭載予定)
(2021年4月現在)
(資料提供Wiley)
Wiley Digital Archivesシリーズ