人文社会系研究

【連載】国史大系をひもとく:第二回 開発(デジタル化)の裏話

2022.06.01

吉川弘文館では、さまざまな史料集を出版してきました。なかでも、黒板勝美によって編纂された「新訂増補 国史大系」は、35年の歳月をかけた大事業であるとともに、日本史研究の根本史料として高い評価を得てきた、日本国内随一の史料集です。その「新訂増補 国史大系」がいよいよJKBooksシリーズとして刊行されました。刊行を記念して、「新訂増補 国史大系」の魅力を連載形式でご紹介します。

前回は、国史大系が日本の歴史の大きな縦の糸であるという点を中心にご紹介してきました。今回は「新訂増補 国史大系」のデジタル化の道のりについて深掘りしていきます。

活版技術の最高水準

1929年(昭和4年)に刊行を開始し1964年(昭和39年)に完結した「新訂増補 国史大系」ですが、編纂が長期化した理由としては、戦争を挟んだという特殊事情もありますが、「印刷屋泣かせ」の難事業であったことでも有名でした。大会社にはとても請け負ってもらえず、町の熟練の印刷工に発注し、黒板の納得のゆくまで組み直した仕上がりは、活版技術の最高水準を示しています。

異体字という難題

このような印刷屋泣かせであった「国史大系」のこだわりは、原書で用いられた文字の形を忠実に再現することに大きな特徴がありました。その多くは通常使われる字体と異なるもので、異体字と呼ばれています。略字や合字、古字、俗字、誤字などさまざまで、テキスト化できるのかどうか、不安にかられる文字群です。

各書目の冒頭には「凡例」が掲げられ、代表的な異体字の例が示されています。こうした文字を集めて作成した「正字―異体字対応リスト」は300文字近くに上りました。原書の文字を再現し尽くした「国史大系」の特徴が、デジタル化にあたっての大きな障害となって帰ってきたのです。

図:正字―異体字対応リストの一部抜粋
※第1~第4水準の字体はそのまま使用し、「水準外」の文字を手作業で置き換える。この図中では網伏せの字体を採用。

全文テキスト化をめざした吉川弘文館の社内校正

2011年に発売した電子書籍版(現在は販売終了)の国史大系には、OCRで解析したテキストデータが付いていましたが、それは第2水準までに止まり、第3・第4水準とそれ以外の文字はすべて下駄の記号(〓)で処理していました。その数はざっと20万字です。当時の技術としてはやむを得ないことでしたが、その後10年の技術革新をへて、100%に近いテキスト化を目指したのが、今回リリースした「JKBooks 新訂増補 国史大系」です。

最新の技術を使用し、初期の自動認識で60%台のテキストを、「正字―異体字対応リスト」に基づく手動処理によって90%台に乗せることができました。そして、最終段階の吉川弘文館の社内校正によって下駄の記号(〓)を処理し、99.99%のテキスト化を実現しています。


図:下駄の記号(〓)の処理
※校正段階において、下駄の記号で処理された文字を一括表示したもの。これを1文字ずつテキスト化の可否を検証し、手作業で置き換える。

略字・略号や似通った文字

研究者レベルでは常識である略字・略号は、ほとんどがテキスト化することの困難な文字でした。「广(まだれ)」1字が6つの文字(應・摩・磨・康・庫・慶)の略字、「扌(てへん)」1字が4つの文字(權・撿・播・攝)の略字であるように、偏(へん)や旁(つくり)のみで略字とするようなものが多いのです。また、「菩薩」と「菩提」のような独特な省略方法の略号もあります。これらは、前後の分脈を理解してひとつひとつ特定しなければなりませんので、たいへん手間がかかります。このような略字・略号を文字に置き換える作業を、地道に約1年かけて完遂しました。


図:正字―異体字対応リストの一部抜粋「广(まだれ)」

今回は原書の文字を忠実に再現した「新訂増補国史大系」ならではの、デジタル化を実現させるまでの困難を紹介しました。次回は最終回、「新訂増補国史大系」の魅力についてご紹介します。是非ご期待ください。

関連記事 (商品カタログページ)

関連記事

(デジタル情報営業部)