ゆっくりと、しかし確実に、キーボードは消えてゆく。スナップチャットはそのことを初めから理解していた。この数ヶ月で、グーグルとフェイスブックもそのことを理解したようだ。

5月中旬に開催された開発者向けカンファレンスで、グーグルを利用する10億人以上のユーザーが今後数年でどのようにテクノロジーを利用するかについて、グーグルはその展望を紹介した。その展望のほとんどに、検索ボックスへのタイピングは含まれていなかった。ステージ上で、グーグルの幹部は同社の音声認識技術が優れていることの宣伝や、Google Lensの紹介に時間を費やしていた。Google Lensは新たなコンピューターヴィジョン・テクノロジーで、スマートフォンに内蔵されたカメラを実質的に検索エンジンに変えてしまうものだ。

テクノロジーは、またも転換点に差し掛かっている。スマートフォンは昔の携帯電話の名残であるキーボードに長い間頼っていたが、マルチタッチ機能が到来した。初めてスマートフォンのスクリーンに触れた感動に促され、人々はスクリーン上でスワイプし、タイプし、そしてピンチするようになったのだ。

そして今度はAIの進化によって、人々とスマホとの関わりが再び変わり始めている。写真を撮るのは、テキストを書くこととほとんど同じ効果を発揮する。いつでも利用できる「Google アシスタント」に気軽に話しかければ、Chromeを開いて検索するのとほぼ同じくらい素早く結果が返ってくる。CEOのサンダー・ピチャイが説明するように、人がコンピューターとやり取りする方法は、いまよりもますます自然で感情的なものになるとグーグルは結論を下している。つまり、キーボードはどんどん使われなくなっていくだろう。

現在利用しているテクノロジーを発明した人々に尋ねてみるといい。カメラが新たなキーボードになると彼らは話すだろう。このキャッチーなフレーズは、業界で広く行き渡っている信念のようなもので、より視覚的なコミュニケーション形態への進展を表している。グーグルは人々がテキストよりも写真を交換したがるという事実に賭けて事業を行っている。

カメラを向けるだけで、すべてが検索可能になる

グーグルのこの考えは説得力があることが証明されており、実際にフェイスブックとインスタグラムは臆面もなくこの特徴をもつ独自の機能を開発した。デザインスタジオFjordでクリエイティヴテクノロジー部門の責任者を務めるローマン・カランタリは、「カメラはすでにコミュニケーションの形態として広く受け入れられています。しかし、この次の段階は何になるのでしょうか？」と話している。

フェイスブックやスナップチャットの場合、それはビックリハウスにあるような鏡のエフェクトやバカバカしい拡張現実だったが、これはテキストではどうしても実現できない。一方、グーグルは明らかにより実用的な手法をGoogle Lensで採用しており、カメラそのものをキーボードと非常によく似た入力デバイスに変えている。カメラを木に向ければ、カメラがその種類を教えてくれる。近所に新しくできたレストランの写真を撮れば、カメラがそのレストランのメニューや営業時間の情報を調べてくれるだけでなく、レストランの予約をする手助けさえもしてくれる。

ひょっとすると最も効果的なデモンストレーションは、意外とつまらないものかもしれない。カメラのレンズをルーターの裏側に貼られたステッカーに向けると、Googleの画像認識技術がIDとパスワードを読み取り、その結果をAndroid端末に伝え、自動的にネットワークにつながるようになる、といったものだ。

このような単純さは重要である。情報を探すのに検索ボックスにタイピングする必要はもはやない。世界はカメラを向けるだけですぐに理解できるようになるだろう。こうした未来の展望を受け入れている企業はグーグルだけではない。アマゾンのFire Phoneは2014年から画像を使った検索が可能になっており、本やシリアルの箱にカメラを向けて、Amazon Prime経由でその商品を即座に配送できるのだ。

そしてPinterestは今年初め、Lensのベータ版を発表した。Lensによって、ユーザーは現実世界の物体を撮影すれば、Pinterestのプラットフォーム上に関連する物体を表示させることができる。Pinterestでクリエイティヴリードを務め、Lensの開発を主導したアルバート・ペレッタは「新たなアイデアを発見するためにカメラを使用する方法は、テキストを入力するのと同じくらい早くて簡単です。われわれはその域まで達しているのです」と話している。

使えば使うほど画像認識は進化する

翻訳についていえば、話すよりも写真を見せる方がうまくいくことが多い。ミッドセンチュリーのモダンなマホガニーのレザーシートを探しているとき、どんな見た目なのかを他人と共有できれば、キーボードで正確なキーワードを入力するよりも目当てのものは見つかりやすいだろう。カーネギーメロン大学で人間とコンピューターのやり取りを研究しているジアード・ラプトは「カメラを使えば、写真やヴィデオを撮影するだけで課題を解決できます。一方、キーボードを使う場合は、説明をタイピングする必要がある。正確な説明を考え、適切にタイプしなければいけないんです」と説明する。

当然、画像認識が機能するには、正確性がなければならない点には注意しておきたい。テキストを検索ボックスに打ち込むときは削除や訂正、再入力など色々な方法がある。しかし、カメラの場合、カメラはユーザーがどこを向いているのかを認識し、どのような情報を求めているのかを想定せねばならない。

いい知らせとしては（ぞっとする知らせかもしれないが）、グーグルは撮影された写真や入力されたすべての検索ワード、音声入力で行われた命令のすべてを活用し、ユーザーをさらに理解しようとする。つまり、時間とともにユーザーへの応答は次第に正確になっていく。こうした知識を膨大に収集し手中に収めることで、グーグルはテクノロジーに残存する未熟な部分を取り除こうとしているように見えるのだ。

キーボードが絶滅するまでにはまだ少し時間がかかるだろう。しかし、カメラで写真を撮影するごとに、その絶滅の瞬間へ一歩ずつ近づいているのである。