今年最後の失敗: LinuxとスキャナーとOCR
以前、小規模に野菜作りをしていたときは、一年を通じての季節や気候の変わり方に敏感にならざるをえない。そのためにやっていたいろんなことの中に、新聞の地方版を参考にして、毎日の日の出と日没の時刻を記述し、表にする、という作業があった。
東京からC県のいなかに引っ越してから、とくにその中の冬の部分を書き起こしたのが、これである。時間時刻は東京のデータ、下のメモ書きは現場がそのいなかである。これの最初の入力は、今は亡きワープロOASYS上、それをMS-DOSのテキストファイルに変換したかしないかの記憶はない。したとしても、今はどこにも見つからない。とにかくこんな、ワープロのプリントアウトではなくて、可搬性に優れたテキストファイルとして保存しておきたい、という意思が前からあった。
##この単純な、日の出と日没の時刻を列記しただけのデータからも、いろんなことに気づくのである。ここではその例をひとつ: たしかに冬至は12月の20日すぎごろだが、しかしその日は、一年でいちばん昼の時間が短い日とは言っても、その日イコール、日の出がもっともおそく、日没がもっとも早い日ではない。日没がもっとも早い日は12月6日ごろ、そして日の出がもっともおそい日は1月7日ごろである。言い換えると、春はまず、12月6日すぎから始まり、1月7日すぎからより本格的に始まる、と言える。たとえば夕方の犬の散歩は、12月上旬までは暗くなるのが早くてうっとおしいが、12月下旬、大晦日が近づくにつれ、夕方の明るい時間が長くなり、犬の散歩も気分良くなるのである。白菜を作っていたころは、その頃からコーヒーかすで作った堆肥を十分に与えていた。
さて、紙の上のプリントアウトからテキストファイルを起こすには、どうするか。スキャナーである。長年、プリンターというものは保有していなかったが、最近のプリンターにはスキャナー機能もある、ということなので久々にプリンターを買った。これが、失敗の始まり。
買ってから分かったのは、プリンターのスキャナー機能とは、紙の上に印刷(または手書き)されているものをあくまでも『画像ファイル』として取り込むことなのだ。私が欲した、テキストファイルではない。PDFまたはJPEGの、ファイルを作ってくれる。上で見たdocument-3.jpgファイルは、そうやってプリンターが作ったJPEGファイルだ。
作業をやり直すためには、スキャナー専用機を買って、そのLinux用のドライバーをインストールすればよい。そしてLinux上の、saneとかxsaneとかのアプリケーションを使う。
でもプリンターを買うのにだいぶふところを軽くしてしまったので、お金の余裕がない。
しかも、うろ覚えの記憶を探ると、Linux上には文字の画像ファイルからテキストファイルを起こす、いわゆるOCR(optical character reader)のアプリケーションがあったはずだ。そいつに、document-3.jpgファイルを読ませるのが、手っ取り早い。
==== making a long story short ====
で、今は何でもクラウドの時代であるので、クラウド上≒Web上に、無料で使えるOCRサービスがある。Google Drive上のGoogle Documentサービスの設定メニューに、アップロードしたファイルに対する「画像→テキストファイル」変換機能がある。
その最終出力が、これだ。表の形式は完全に壊れているが、頑張れば元の形へ編集できるだろう。ふつうの、テキストエディターを使って。
しかし、今のプリンターにはスキャナー機能もある、という都市伝説は、どこでどう間違って私の脳に入ってしまったのか。というか情報過密の現代は、この種の間違いがあらゆる分野にあるのだろう。勝手な思い込み、という他者不在が、あの劣悪な偽(にせ)ニュース事件も招いたしまったのだ(ヒラリー・クリントンはISに銃器を売った、ローマ法王はトランプをエンドースした、などなど※)。
すべての情報は、他者として、批判的かつ対話的に接しよ!!!
※:
Buzzfeedが選んだ2016年の偽ニューストップ50
読者の70%以上は偽ニュースを本物と信ずる
| 固定リンク | コメント (11) | トラックバック (0)
最近のコメント