中国古書の文字をAIで解析するアリババDAMOアカデミーの産学連携プロジェクト

(出典:阿里雲開発者社区)
(出典:阿里雲開発者社区)

紙資料をデジタル化する時、パソコンなどで入力すると手間がかかりますが、カメラとAI画像処理技術を組み合わせればスピーディーかつ確実に行うことができます。AIに学習させれば読めるようになるので、今に生きる文字だけでなく、既に使われなくなった文字も読んでくれるようになります。

中国では、古代から書物が作られています。「中国出版年鑑」によれば、中国で現存する書物は漢の時代に1,100冊、三国時代に1,122冊、そこから明(1万4024冊)、清(12万6649冊)まで、合計18万822冊あるそうです。

しかし歴史上、外交や貿易や戦争などによってそれ以上の400万冊もの古書が海外に流出されているとのこと。さらに近現代では、戦争や国内での混乱により状況は悪化しています。

そこで現存する歴史ある古書を守るため、今年の5月に、アリババグループ、四川大学、カリフォルニア大学バークレー校、中国国家図書館、浙江図書館が手を組みました。海外に散らばった中国の古書をデジタル化し、誰もが読めるようにする「漢典重光」プラットフォームを発表したのです。

漢典重光プラットフォーム発表会(出典:阿里雲開発者社区)
漢典重光プラットフォーム発表会(出典:阿里雲開発者社区)

四川大学は古代書物の研究に強いことで知られる名門校。約30万冊の貴重な古代書物を保有し、古代の文章を読むノウハウを蓄積しています。またカリフォルニア大学バークレー校は、米国でも中国学研究に強いことで知られており、多数の古代書物を所有しています。

そこでカリフォルニア大学バークレー校は古代書物のスキャンデータを提供し、四川大学とアリババの研究所「達磨院(Damoアカデミー)」でこれらを読めるためのAIとそれを含むシステムを開発しました。大昔の書物は紙だけでなく竹や布や石碑など様々なモノに、上から下へ右から左へと書かれています。各個人で書き癖や書法も大きく異なるため、OCRによる文字識別の精度は40%程度という結果に。これでは、実用的ではありません。 

ここから、AIに文字を学習させるための取り組みが始まりました。「まずは提供された画像データを全ての文字を1つひとつ画像化しました。古代の常用漢字は数千文字程度ですが、中国の古代書物の文字や記号の種類は数十万に及び、多くが現代の漢字にはなかったものでした。これでは、AIが学習できるサンプルにはなりきれていません。莫大な量のこうした漢字が含まれるデータで、どうやってAIがスピーディーに認識していくかというのは大きな技術的ボトルネックでした」と達磨院の関係者は語っています。

具体的には10万字の文字を10万字として認識するのではなく、「之、乎、者、也」といったよく使われる文字をキーに何文字かをグループ化をし解析するといった手法や、出現が少ない文字には自動的にサンプルを10個生成し学ばせるといった手法、それに1度解析させた後、完成したものをさらに解析させるといった、単語検出や少量サンプル学習やアクティブラーニングなどの機械学習手法を使用し、古代の本を読みこなしながら学習するシステムを作り上げました。

システムは20万字の古書に対し97.5%が正しく読めるレベルにまでなりました。専門家は残りの2.5%だけチェックすればいいわけです。

漢典重光プラットフォーム
漢典重光プラットフォーム

新しく構築したこのサービスは字典も含め100冊に運用され、これまでと比べ30倍の効率アップが実現できたとのこと。これまで100万字の書籍のデジタル化に1,000日かかっていた作業が、35日で済むようになりました。また活用すれば活用するほど、AIは学び、効率と正確さをあげていきます。今後はさらに、作業工数が減っていくことでしょう。

今回のカリフォルニア大学バークレー校の取り組みはスタートに過ぎません。今後は日本、韓国、欧州など様々な地域の中国古代書物を保存しているところと協力して、デジタル化を進めたいとしています。その数だけさらに鍛えられていけば、文字識別の精度はあがっていくことでしょう。またアリババは今後このシステムをより古代書物の解析が進むよう、権威的な機関に寄贈する予定だとしています。

ちなみに、こうした文字を読むAIの開発が必要なのは、中国全体を見回せば中国語だけではありません。世界各国で依頼を受けてアリババほか中国企業が、現地の文字を読むAIを開発しています。AIを使えば、漢字でない文字も同じように読むシステムを開発できます。

300冊を超える古代書物のスキャン画像とそれをデジタル化(テキスト化)した結果は、Alibaba Cloudの漢典重光プラットフォームで公開されています。ぜひ古代書物と現代のAI技術が織りなす成果物に、触れてみてください。

 

関連記事

www.sbcloud.co.jp

www.sbcloud.co.jp

www.sbcloud.co.jp

www.sbcloud.co.jp


 関連ソリューション

www.sbcloud.co.jp

www.sbcloud.co.jp

 

筆者プロフィール

f:id:sbc_kitano:20200219152250p:plain

山谷 剛史(やまや たけし)

1976年東京生まれ。東京池袋近辺、福岡市、中国雲南省昆明育ち。フリーランスライター。
2002年より一貫して中国やアジア各国のITやトレンドについて執筆。中国IT業界記事、中国流行記事、中国製品レビュー記事を主に執筆。

主な著書に『中国のインターネット史 ワールドワイドウェブからの独立 (星海社新書)』『ゼロからはじめる 海外旅行でスマホ活用 スマートガイド』『新しい中国人 ネットで団結する若者たち (ソフトバンク新書)』など

公式プロフィール:https://about.me/yamayat
Twitter:https://twitter.com/Yamaya