未分類

地域情報誌「しのい」の電子版の作成方法

投稿日:2020年8月16日 更新日:

年に3回程度、篠井地区の地域情報誌「しのい」が紙の印刷物として発行されていますが、このブログにはスマホでも見やすいように電子版を載せています。閲覧してくれた人から「一字、一字文字を打ち込んで作っているのですか?」という質問があったのでご説明しておきます。

以前は広報誌を複合機でスキャンしてそれを載せていたのですが、スマホを使っている人から「スキャンした画像だとスマホではうまく見られない(画像を拡大縮小、移動をしょっちゅうしなければならない)」という意見を頂いたので「やっぱり文字を打ち込まなきゃな~」と思って文字を打って作り始めました。しかし、A4サイズの4ページの広報誌ですが、全部文章を手で打ち込むのは膨大な時間がかかり途中でギブアップしました。

世の中には画像から文字情報を読み取ってテキスト文字に変換するというOCR(光学文字認識)ソフトというのがあり、私はそれを利用して紙から文字データを作っています。(OCRソフトは現在使っているスキャナーにもともと付属でついていたものです)文字を打ち込んでいたら1週間くらいかかりそうでしたが、スキャナー+OCRソフトを使えば20分くらいで文字起こしが可能です。しかし、ここからが大変でOCRの文字の読み込み精度は90%程度で、あとの10%は誤字脱字なので自分で修正しています。

例えば篠井という文字は読み込みソフトではなぜか「篠丼」と変換されることが多く、「丼」(どんぶり)を井戸の井に直しています。ひらがなも結構間違えます。「い」は「しし」になったり、「は」が「しま」になったりします。間違いが多くていらいらしますが、最低文章は3回は繰り返し読んで、おかしいところが無いか確認し、それからアップロードするようにしています。尚、写真は紙のデータをスキャンしてそのまま使っているので解像度は良くないです。

OCRソフトは100%の変換効率を求めることは無理ですから10%程度のミスは許容できるのであればOCRは作業の効率化に役立つと思います。現在は「読取革命」というソフトとGoogleドライブに入っているDocumentという無料ソフトを交互に使いながら変換をしています。(GoogleのOCR変換は精度が高くてびっくりしました)

もしブログで間違いを発見したら、投稿メールから教えて頂ければ幸いです。

-未分類

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

林から漂う甘いにおいの謎

足利フラワーパークに行ってきました

東武鉄道SL「大樹(たいじゅ)」を見てきました

今日はどんど焼きの日でした(2019/1/14)

篠井地区情報紙「しのい」84号が発行されました(2018.10)