PDFや画像から日本語のテキストを抽出してくれる無料サービス「Online OCR」がすごい!!

スポンサーリンク

ここのブログのメインコンテンツは「魔法使いと黒猫のウィズ」攻略ページです。ゲームの攻略なので、画面を貼り付けるとともに、画面に書かれている内容を文字に起こして記事にすることも多いです。

日本語OCRソフトを使えば、画像から文字をテキストとして抜き出せるのですが、ほとんどが有料のソフトです。たまに無料のもありますが変換効率が今ひとつのものが多く、修正するくらいなら打ち直したほうが早いって感じでした。

そんな中「Online OCR」という無料のOCRサービスを見つけたのでレビューしてみます。

Free Online OCR - convert PDF to Word or Image to text
Free Online OCR service allows you to convert PDF document to MS Word file, scanned images to editable text formats and extract text from JPEG/TIFF/BMP files

無料で使える「Online OCR」

「Online OCR」は、全46ヶ国語に対応したWebサービスです。画像ファイルをアップロードすると、そこに書かれているテキストを抽出してくれる無料サービスです。

英語、日本語はもちろん、中国語や韓国語にも対応しているそうです。

こういうサービスはたいていメールアドレスを登録する必要があるのですが、この「Online OCR」は登録なしで使うことが出来ます。

※登録すると拡張機能が使えます。それはのちほどご紹介します。

登録しないで使える機能一覧

「Online OCR」では登録しないで使用することを「Guest mode」と呼んでいます。Guest modeでは一時間に15イメージの変換が可能です。

また、ファイルサイズ5MBまでの以下のファイル形式に対応しています。

  • PDF (単一ページのみ)
  • TIF/TIFF (単一ページのみ)
  • JPEG/JPG
  • BMP
  • PNG
  • GIF

出力されるのは以下のファイル形式です。

  • Microsoft Excel (xlsx)
  • Microsoft Word (docx)
  • プレーンテキスト (txt)

「Online OCR」はどのくらいの変換効率なの?

スポンサーリンク

試しに、Yahooからニュース記事を画像にして変換してみました。

変換する手順はこちら

  1. Select file…でファイルを選択します。
  2. ファイルを読み込んだら言語を選択します。
  3. 出力したいファイル形式を選択します。
  4. 画面に書かれているCaptcha codeを入力します。
  5. CONVERTボタンをクリックします。

この変換結果がこちら

女優の満島ひかり(31) が4年ぶりに主演する映画 『海辺の生と死』(7月29日公開)の追加キャストが 28日、明らかになった。昨年、満島との交際が明ら かになった永山絢斗(28) が、劇中でも恋人役で共 演する。
【場面写真」海辺にイ宇む・・満島ひかり&永山絢斗

ほとんど正しく変換されています。間違いは「佇む」が「イ宇む」になっているくらい。

十分実用に耐えうる内容だと思います。

おまけに変換後の文章はクリップボードにコピーすることが出来るので、ブログなどに貼り付けるだけであればダウンロードも不要です。

「Online OCR」に無料登録すると使える機能がぐーんと増えます!

スポンサーリンク

「Online OCR」に無料登録するとより多くの機能が使えるようになります。

ファイルサイズ200MBまでの以下のファイル形式に対応できるようになります。

  • PDF (マルチページを含む全てのタイプのPDF)
  • TIF/TIFF (マルチページTIFFsもサポート)
  • JPEG/JPG
  • BMP
  • PCX
  • PNG
  • GIF
  • ZIP(上記形式を含んだもの)

出力されるのは以下のファイル形式です。

  • Adobe PDF
  • Microsoft Excel 97-2003 (xls)
  • Microsoft Excel (xlsx)
  • Microsoft Word 97-2003 (doc)
  • Microsoft Word (docx)
  • RTF ドキュメント (rtf)
  • プレーンテキスト (txt)

PDFとかrtfとかWord、Excelの古いバージョンが増えました。

「Online OCR」に登録するには

「Online OCR」に登録するには、ユーザー名、パスワード、メールアドレスを入力するだけです。とっても簡単。

ログインすると「Dashboard」画面になります。

スポンサーリンク

変換は最初に言語や出力形式、複数ページかどうかなどを決めて、ファイルを選択、コンバートという流れになります。

では、ここのメインコンテンツ「魔法使いと黒猫のウィズ」のテキストが抽出出来るかを試してみます。

これを変換してみます。ユーザー登録すると変換結果はテキストボックスではなくダウンロードすることになります。

中身はこんな感じでした。

叡王【虚】陸式
げんきらら
辱三
,570,6681ど
113
276/276

よ2りJ」国

頑雇国縫二裏=つ
葛火属性のみのデアn吻町ア
国3連続もしくは全問正解でクリア
国一体も倒れずにクリア
火属性のみのデッキでクリア
3回以上。全問エクセレントでクリア
全問正解でクリア
鴛 火属性のみのデジキでクリア
平均解答時間が5秒以内でクリア
ー体も倒れずにクリア
-Stoツー
ーー一■■一一卿国国卿一ー
「!匪寂叫
嘘至目巨,JJ
盤皇煙
曳才曳才

いらない文字とかが多いと誤変換する確率が高くなりそうです。

あと、登録すると変換できるページ数が表示されています。最初は25だったんですが、変換するごとに減っていきます。今は19になりました。

「Online OCR」無料登録で変換できるのは25ページまでです。

どうやら25ページまでは無料のようですが、それ以上は変換するページ数を購入するようです。

「BUY PAGE」を開くとこんな感じ。

ボーナスプログラムも用意されていました。

「Online OCR」へリンクをはったり記事を書くことで変換できるページ数をもらえるボーナスプログラムが用意されています。

リンクを貼る(Link to our service)

サイトにリンクを貼ることで50ページのボーナスがもらえます。

記事を書く(Article about our service)

ブログなどに記事を書くことで200ページのボーナスがもらえます。

解説ビデオを作る(Tutorial video)

「Online OCR」の使い方を開設したビデオを作ると500ページのボーナスがもらえます。

紹介する(Invite friend)

紹介した人がページを購入すると10%バックされるようです。

※ボーナスプログラムについてはべっと調べてみます。

まとめ

画像やテキスト抽出ができないPDFから文字起こしするにはとても使いやすいサービスだと思います。僕のメインコンテンツである「魔法使いと黒猫のウィズ」の画像はイマイチでしたが、通常の文章ならかなりの変換率なので実用性も十分だと思いました。

 

コメント