富士通、教師データ数を削減できる深層学習技術を開発
- 2017年02月21日 16:40:00
- テクノロジー
- JCN Newswire
本技術により、中国図書館などに大量に保管されている古文書文字の電子化を促進し、中国古文書の公共利用と歴史研究などの学術の発展に貢献することができます。
本技術の詳細は、1月31日(火曜日)に米国サンフランシスコで開催された国際会議「IS&T International Electronic Imaging Symposium 2017」にて発表しました。
開発の背景
中国には5000万冊以上の古文書が所蔵され、次世代への伝承や研究への活用が期待されています。しかし、これらの文化遺産は、時間の経過や閲覧などにより劣化や破損が進んでいます。
古文書を保管している各図書館において、古文書を電子画像として保存する作業が進められていますが、保全目的だけでなく、古文書のデータをICT技術で利活用していくためには、電子画像中の文字をテキストデータ化する必要があります。現在、この作業はごく一部の古文書について専門家が手作業で行っており、すべての古文書を電子化するためには多大な時間とコストが必要となっています。
課題
深層学習技術による文字認識では、あらかじめ、文字画像と正解とする文字を正しく紐づけた教師データを用いて認識エンジンに学習させます。このとき教師データの数が多いほど認識精度が高くなりますが、古文書文字への適用では十分な数の教師データを用意することに課題がありました。
これに対し、アルファベットなど文字の種類が少ない場合に、同じ文字をまとめた教師データを用いて特徴を学習させることで、少ない学習データで認識精度を高める手法が提案されていますが、多様な書体があり同じ文字でも異なる字形が多数存在する中国古文書には、適用することが困難でした。
開発した技術
今回、中国古文書の文字認識において、教師データが少ない場合でも、高精度な認識が可能となる技術を開発しました。開発した技術の特徴は以下の通りです。
1.限られた数の教師データに加え、教師データとして利用されていなかった文字画像データの活用
学習に利用できるデータを増やすため、これまで、正解の文字と対応づけられておらず教師データとして利用されていなかった大量の文字画像データを、学習
に活用します。図1のように認識エンジンXを利用して、文字画像データに仮の文字ラベルを付与し学習に利用できるようにします。この段階では、認識エンジンXは十分に学習できていないので、正解ではない仮の文字ラベルが付与された画像データが含まれます。
2.同じ文字ラベルを持つ文字画像の特徴パターンと、異なる文字ラベルを持つ文字画像の特徴パターンを比較し、その比較情報を元に認識エンジンを学習
仮の文字ラベルが付与された文字画像からランダムに二つの文字のペアを生成し、認識エンジンXの学習結果を反映させた、同じ構造の二つの認識エンジンY、Zに入力します。このとき、二つの文字が同じ文字か異なる文字かについての結果だけを基に認識エンジンXを学習させます。この手順を繰り返すことで、認識エンジンXの学習が進むに従い、正解ではない仮の文字ラベルの数は減少し、認識精度が向上していきます。十分に学習させた認識エンジンXで認識を実行することで、少ない数の教師データでも、高い認識精度を実現することができます。
効果
本技術を中国古文書文字認識用のデータとして公開されている1000枚の中国敦煌古籍文献画像(注2)を用いたベンチマークに適用しました。その結果、本技術適用前の、教師データのみを用いて学習する従来技術で得られる81%と同じ精度を、一文字当たり約70%少ない教師データ数で達成できました。また、本ベンチマークにおいて、一文字当たり50個の同じ数の教師データを用いて学習させた場合に、これまで報告されている82%に対して、本技術では88%の認識率を達成しました。
今後
FRDCは本技術を、中国各地の図書館や、古文書画像と検索などの利用ができる電子化テキストが一体に保って保管されている古文書データベース向けに、中国古文書電子化ソリューションとして展開していきます。本技術は日本語や韓国語など、認識すべき文字の種類が多い用途に対しても認識精度を高めるのに有効です。また、2018年度に当社のAI技術「Human Centric AI Zinrai(ジンライ)」への活用を目指し、限られた教師データで効果的に深層学習エンジンを学習させる仕組みを、例えば、多数の画像データを認識して分類するような、植物の識別など認識すべき対象が多い用途に適用していきます。
(本資料は、富士通研究開発中心有限公司が発行したプレスリリースの抄訳です。)
本リリースの詳細は下記URLをご参照ください。
http://pr.fujitsu.com/jp/news/2017/02/21.html
注釈
注1 富士通研究開発中心有限公司:本社 北京市、董事長 佐々木繁。
注2 中国敦煌古籍文献画像:中国国立図書館が公共・学術利用を目的にインターネット上で公開している古文書の画像と電子化テキストのセット。アクセス制限がなく幅広く利用できることから、古文書文字認識技術の認識精度ベンチマークで良く利用されている。
概要:富士通株式会社
詳細は http://jp.fujitsu.com/ をご覧ください。
Copyright 2017 JCN Newswire. All rights reserved. www.jcnnewswire.com
【巨人】坂本勇人、亡き母に捧げる通算2351安打 苦手内角克服し「打撃の神様」に並ぶ
日米通算199勝目を狙うダルビッシュをパドレス打線が援護 タティスの特大弾から2者連発
【オリックス】不振の頓宮裕真が投手陣「助けたい」 ソフトバンク戦中止で室内練習に希望参加
高橋真梨子「歌い納め」覚悟の全国ツアー復活 一度は終止符、急性腎盂炎患うもラブコール止まず
大谷翔平、母の日のプレゼントは? 「どうなんですかね、花束はないかな…」
超大物歌手と87年に結婚し芸能界引退した元女優 シャンソン歌手「鬼無里まり」としてデビューへ
大谷翔平、腰の張りでスタメン外れる ダルビッシュ有との3度目対戦は次戦に…
WBC“レジェンドジャパン”がエスコンFに集結!王貞治氏名誉監督、原辰徳氏監督で「日韓OB戦」
工藤静香「とても幸せな時間になりました」 初のフルオーケストラ東京公演で2000人を魅了
【オリックス】最多借金4の苦境もめげず 水本勝己ヘッドコーチ「まだまだ。とにかく諦めずに」
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
73歳神田正輝「旅サラダ」生放送で“12歳下俳優”から呼び捨てされ激論
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
曙と熱愛した相原勇(52)の現在が衝撃的すぎると話題に
55歳森口博子「だっちゅーの」鮮やかビキニ姿披露にX歓喜「破壊力ハンパない」「スゴすぎ」
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
「ふてほど」25歳女優“薔薇ブラ”でポロリ寸前?過激衣装に「見えちゃう」「刺激強すぎ」
大物炎上系ユーチューバー”衝撃の預金残高”公開「すげぇ」「エグい」驚きの声
水原一平容疑者 最高刑「懲役33年」トレンド入り 「人生詰んだ」「稀代の詐欺師」の声
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
岡本夏生(56)、1600日ぶりにブログを更新した現在が衝撃
深夜のファミリーマート徘徊、必ず入っている「フエラムネのミニチュアおもちゃ付」を探し求めた結果……
ユーチューバーもこう氏、元彼女・成海瑠奈について赤裸々告白
完全にダマされた! 『ラヴィット!』あのちゃん“事故レベル”大暴走は『水ダウ』遠隔操作のしわざだった ネットも納得
ガーシー、またも綾野剛の暴露写真でネット歓喜「この写真見て笑っちゃう」
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
小澤征悦と再婚した桑子真帆アナ(34)黒い過去が流出、衝撃の過去にネット騒然
ガーシー、佐野ひなこの暴露を示唆でネット騒然「ファンだったのに」
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
【巨人】坂本勇人、亡き母に捧げる通算2351安打 苦手内角克服し「打撃の神様」に並ぶ
日米通算199勝目を狙うダルビッシュをパドレス打線が援護 タティスの特大弾から2者連発
【オリックス】不振の頓宮裕真が投手陣「助けたい」 ソフトバンク戦中止で室内練習に希望参加
高橋真梨子「歌い納め」覚悟の全国ツアー復活 一度は終止符、急性腎盂炎患うもラブコール止まず
大谷翔平、母の日のプレゼントは? 「どうなんですかね、花束はないかな…」
超大物歌手と87年に結婚し芸能界引退した元女優 シャンソン歌手「鬼無里まり」としてデビューへ
大谷翔平、腰の張りでスタメン外れる ダルビッシュ有との3度目対戦は次戦に…
工藤静香「とても幸せな時間になりました」 初のフルオーケストラ東京公演で2000人を魅了
WBC“レジェンドジャパン”がエスコンFに集結!王貞治氏名誉監督、原辰徳氏監督で「日韓OB戦」
【オリックス】最多借金4の苦境もめげず 水本勝己ヘッドコーチ「まだまだ。とにかく諦めずに」