これ、本当に驚いた。

そもそも、グラドル画像ブログのサテライトとして回しているTwitterの作業の関係上、ぼくのPCのフォルダ構成をそのままスプレッドシートに並び順ごとコピーできないかと考えていた。

そこで、「キャプチャ画像として撮影する⇒それをテキスト化する」という流れはできまいかと考え、ダメ元でググってみたら、あらびっくり。あった。


 画像の文字を「テキストデータ化」して
 コピペ可能にする方法


※参照サイト

https://norikazu-miyao.com/?p=11362

リンク先に行くのが面倒くさい人のために、手順を解説すると以下の通り。
  • 画像を「Google Drive」にUP
  • Driveをブラウザで開き、そのの画面内で該当の画像を右クリック。
  • ⇒アプリで開く⇒Googleドキュメント
以上です。
これ、ざっくりな流れとかじゃなく、まじでこれだけだから。

要は「画像をGoogleドライブ経由でGoogleドキュメントに読み込ませることで、GoogleドライブのOCR機能が画像内のテキストを抽出し、データ化してくれる」ということ。てか、そんな機能あったん今の今まで知らなかったわ!

万が一、ドキュメント側でテキストデータが表示されない場合等の対処法については、こちらのサイトが参考になりそう。

※参照サイト

https://www.lancork.net/2015/01/google-drive-ocr/

因みに、OCR変換の精度については、元画像の解像度に依存するみたいです。

なので、解像度が極端に低い画像だとキレイに変換できなかったり、読み取りも「左から右に表記されているもののみ可能」ということらしい。

ただ、さっき縦書きのものを試してみたところ、多少の崩れはあるものの、割と普通に「横書き変換してくれた上で」データ化出来ましたけどね。

※因みに、検証に使用した画像はこちら。
710GlSLlWlL
※クリックで拡大

元の文字情報が装飾かかってるので、Googleドキュメントに落とし込んだときにフォントスタイルが多少崩れていたり、多少の脱字は認められるものの、文字化け等はほとんどなく、割と忠実に再現されます。その様子がこちら。

スクリーンショット 2022-01-11 085516
※クリックで拡大

見出しが本文より小さいテキストサイズってなんだよ、って思うけど「日本語が無茶苦茶」みたいなことにはなってないようですね。

あと、元が縦書ききのものを横書き変換しているので、崩れてるってだけかもしれません。元が横書きで画像の解像度が高かった場合は、もう少しキレイに再現できるかもしれません。

 これなら「本の文字起こし」も超楽勝じゃね?


過去、本を積極的に読んでいた頃、そのレビューを書いたりする際「デスクにブックホルダーを置いて、目の前で本を広げて書き起こしをする」というアナログな方法でやっていたんですよ。だって、それしか方法がなかったから。

ところがある時、BouncyさんのFacebookアカウントか何かで「Scanmarker」というペン型のOCRスキャナーが紹介されてて、それは「紙媒体のテキストを行単位でなぞってスキャンすることで、その場でテキストデータが送られる」というものだった。
これを初めて見た時えらく感動して「超欲しい」って思ったのだけど、当時は2万近くした。(今はAmazonで¥13000くらいにまで下がってる)

けど、その製品はそもそも海外製で、「縦書きの日本語に対応可能かどうか」が正直微妙だったのと、レビューも微妙だったので、結局買うのを見合わせたということがある。

とは言え、「紙媒体から直接データをリアルタイムで送信⇒変換して受信」が可能なため、英文の文書や海外の原書等を書き起こしたい人にとっては、こっちのほうが便利かもしれませんね。いちいち画像化しなくていいので。

なので、「高いOCRスキャナーは買いたくない」とか、「ほんの数ページ抜粋したいだけ」みたいな場合は、Googleドライブを経由する方法の方がいいのかもしれないですね。

 でもGoogleドキュメントをそのままペーストすると、
 フォントスタイルとか崩れるから嫌


「フォントスタイル」について念の為説明すると「文字の色・太さ・フォントの種類等」の総称です。

こういうブログエディタに、コピー元のテキストを「そのまんま」コピペしちゃうと、コピー元で表示されていたフォントスタイルを忠実に再現しようとします。

例えば、ブログエディタやブログの出来上がりのフォントスタイルが「フォント:メイリオ、フォントサイズ:14pt」とかで表示する仕様のところに、コピー元が「明朝体・10pt」だった場合、それを再現しようとするわけです。

「別にそれでええやん。むしろそうして欲しいんだけど」っていう場合もあるでしょう。

けど、「コピーされた側」は、そもそも根本的な作りの異なる畑違いのエディタで作られたものを、いきなり出来上がった状態で乗っけられちゃっているわけです。

なので、その状態の「コピーされた側のエディタのHTMLソース」を見ると、通常ではありえないような分量のHTMLタグで埋め尽くされることになります。

※特に、WORDやGoogleドキュメントからまんまペーストすると、HTMLソースがどえらいことになります。

なので、リッチテキストを「そのままペーストする」という行為そのものについては、正直「あまりお行儀のいい行為ではない」ということになります。

第一、そのままペーストすると、フォントも大きさも異なるので、見た目が不揃いになりますしね。

で、それを回避するためには「リッチテキスト(装飾したテキスト)」ではなく、「プレーンテキスト(未装飾のテキスト)」でペーストしてあげるのが理想的です。

※リッチテキストはいわば「お化粧したテキスト」で、プレーンテキストは「すっぴんのテキスト」ということです。

このため貼り付ける際は、「右クリック⇒プレーンテキストとして貼り付け」を選択する、もしくは「Ctrl+Shift+V」で貼り付けるといいでしょう。

すると、「装飾されていないただの文字のみ」だけが貼り付けられるので、それを貼り付けた先のエディタで整えてあげたほうがいいと思います。

 まとめ


手順をまとめると以下の通りです。
  • 画像を「Google Drive」にUP
  • Driveをブラウザで開き、そのの画面内で該当の画像を右クリック。
  • ⇒アプリで開く⇒Googleドキュメント
  • コピーしたものを「プレーンテキストで貼り付け」
    ⇒Ctrl+Shift+V、もしくは「右クリック⇒プレーンテキストで貼り付け」を選択。
※Macのショートカットは自分で調べてください。

ってな感じで、個人的にはかなり目からウロコなハックでした。