音声は新しいパラダイムシフトになる 〜2016年度版メアリー・ミーカー氏レポートまとめ〜

「音声インターフェースは新しいパラダイムシフトになる」

伝説のアナリスト、メアリー・ミーカー氏は、 インターネット・トレンド 2016年度版の中で述べています。
ここでは、レポートの中から、音声に関するものをまとめていきます。

インターフェースの技術革新は10年毎に起きる

ヒューマンインターフェースの歴史を振り返ってみると、ここ半世紀においては10年単位で技術革新が起きていることが分かります。
iPhoneによる、タッチ + カメラインターフェースが登場したのが 2007年。
次の10年では、SiriやAmazon Echoに代表される音声インターフェースが技術革新を起こすだろう、と予測しています。

音声は最も効率の良い入力方法である

なぜ音声か、という問いに対して、メリットと独自性の観点から理由を述べています。
何より、「早い」「簡単」というのが音声インターフェースのメリットでしょう。
また、煩雑なGUIを必要とせず、低コストで場所をとらないことから、IoTとも相性が良い、としています。

音声認識は人間並みに進歩

Googleの研究成果によると、語彙数、認識精度ともに年々向上しています。

特に、認識精度はここ数年で急激に向上

数年前までは良くて80%程度だったものが、最近は90%を優に超えてきているのが分かります。
人工知能研究の権威である、BaiduのAndrew Ng氏は、精度が 99% を超えるとゲームチェンジャーになる (= 世界が変わる) と述べています。
技術進歩の鍵となるのはディープラーニングで、音声認識分野においては、Baiduが一歩リードしている印象です。
Baidu の論文については、下記の記事内でも取り上げていますのでご参照ください。
ICML2016読み会 まとめ

音声アシスタントの利用は技術の進歩が牽引

入力インターフェースがキーボードから音声に置き換わるのはまだ少し早いと前置きをしながら、利用状況についてまとめています。
音声アシスタントの利用者は2015年時点で65%で、使い始めるきっかけとしては、ソフトウェア技術の進歩の理由が一番とのことです。

音声検索の利用は開始時点の35倍に

iPhoneおよびGoogleが音声検索を開始したのが2008年ですが、その時に比べ、利用回数は右肩あがりに伸びています。

タイピングが難しい中国語ではさらに伸長

Baiduの利用状況を見ると、音声入力、音声読み上げともに伸びています。
スマートフォンにおける言語のタイピングのしやすさ、も音声入力への利用へ影響を与えそうです。

1日に6-8回音声検索する

Hound (音声アシスタントアプリ) のデータによると、1日で6-8回音声検索を行うようです。
カテゴリとしては、「一般情報」「エンターテイメント」「地域情報」「アシスタント」の4つにまたがる、とのことです。

2020年には音声検索が50%を超える

音声検索の利用について、過去、現在、未来をまとめています。
Adrew Ng氏は、2020年には検索の半分以上が音声か画像になる、と予測しています。

ハンズフリー & 画面フリー

音声インターフェースを使う理由のトップが、「手 (もしくは画面) がふさがっている時に便利だから」で、
利用シチュエーションとしては、「家」「車」「移動中」が大部分を占めています。

プラットフォームは構築され、サードパーティの動きも速い

前のスライドで述べた「家」「車」「移動中」において、Amazon Alexaは様々なOEMを提供しています。
また、Alexaを拡張できるAlexa Skills Kitの開発も盛んになっています。

ショッピングも迅速に

Amazonは、ショッピングをモバイルアプリから音声入力へ置き換えることを目指しています。

Amazon Echoの所有率は5%

CIRPによると、AmazonEchoの所有者は5%で、認知度は61%とのことです。

2016年は産業の変わり目となる

コンピュータ産業の変わり目は後から振り返ると明確なものであると前置きした上で、iPhoneの売上が2015年にピークを迎えたことを分岐点と捉え、今後はAmazon Echoの売上が急激に伸びるのではないか、と締めくくっています。

おわりに

まとめは以上となります。
未来を見据えたときに、やはり「音声」は外せないキーワードとなってくるのではないでしょうか。

著者紹介
阪神タイガースと天下一品が好きなエンジニア。