【音声入力】GoogleとSiriの認識する力の傾向と対策【ブログ】

最近、音声入力で検索をかけると生産性向上という言葉をよく見かけます。僕も3時間という時間で記事を2本は書けるようになりました。
一方で、僕の喋った言葉をGoogleやSiriが認識しないケースにも遭遇しました。
今回は、実際にテキストを読み上げて、認識率と認識できない時の対処法を考えたので、それをまとめてみました。


【30秒でわかる記事のポイント】

  • GoogleとSiriが読み取れる時間と喋れる文字数を確認する
  • 認識率はGoogleとSiriで有意差はない
  • ひとつ一つの言葉をはっきりと喋ることでGoogleとSiriはきちんと認識する

【関連記事】

GoogleとSiriでの測定方法


今回は一定の言葉を選択しそのテキストの読み上げで音声認識の割合がどのくらい精度が高いかを確認しました。Google並びにSiriの音声認識は約40秒から1分と言われています。今回は、40秒の間に読み上げられる言語はおよそ100文字から200文字の間になると思います。今回150文字で確認することにしました。

読み上げテキストは、桃太郎の1節と早く言葉の2つとしました。

桃太郎の1節

早口言葉

  • 生麦生米生卵

スポンサードリンク

GoogleとSiriの認識率の違い

GoogleとSiriに置いて、認識率の差はあまりありませんでした。
実際に、僕が喋って、GoogleとSiriが読み取り、書き出したテキストをみてみましょう。

GoogleとSiriの認識の違い〜桃太郎編〜

最初の比較は、桃太郎です。

まずは、Googleで桃太郎の一節を音声入力したときです。

ほぼ同じですね。少し自動で漢字に変換してます。ただ、1か所だけ、「川へ」が「可愛」になっていますね。桃太郎は可愛いかもしれませんが、川は可愛くないです。

次に、iPhoneのSiriでテキストに入力したときです。

ひらがなで入力されて、一部は、漢字に自動で変換されました。ただ、文脈に対して適切な漢字を利用していたので、問題ないですね。

GoogleとSiriの認識の違い〜早口言葉編〜

次の比較は、早口言葉です。滑舌が悪い僕には苦痛の時間ですね。

最初に、Googleで早口言葉を入力したときです。

きちんと読み取ってくれました!ちょっと安心しました。

次に、iPhoneのSiriで早口言葉を音声入力したときです。

iPhoneのSiriもきちんと読み取ってくれました。
5回くらい喋らないとという意見もあるかと思いますが、絶対に噛むので、噛まないかつ早口で喋れる回数にしました。
*もしチャレンジャーがいたら、どなたか測定をお願いします。

スポンサードリンク

GoogleとSiriの音声入力で起こりうる音声を認識できない場合


音声認識が聞き取ることができない場合を、考えてみたところ、以下の3つが当てはまります。

・早口
・滑舌が悪い
・こえが小さい

英語圏で日本人がぶつかる壁と似ている気がします。僕も同じ悩みを持っていたので、僕が行なった対応策を書いていきます。

  • 早口
  • POINT:時間内に喋る分量を確認して、話す!

    SiriやGoogle Docsが音声を聞き取り、入力する時間は40秒から1分です。認識できる時間が短いから早く喋ろうではなく、読み上げることができる時間を考えて、その時間の文字数を考えるとかなり修正も少なくなります。
    僕の場合は、150字くらいでまとめれば、GoogleとSiri共に、ほぼ聞き取ってくれました。

  • 滑舌が悪い
  • POINT:一つひとつの言葉をはっきり発音する。

    滑舌が悪いのは仕方ない部分があります。僕自身も滑舌が悪いので、GoogleもSiriも聞き取ってくれませんでした。
    そこで、僕が意識したのは、一つひとつの言葉をはっきり喋るでした。滑舌が悪いと意味不明な言葉の聞き取りとなってしまうのですが、はっきり喋るとGoogleとSiri共に変換ミスや認識ミスは少なく済むようになりました。

  • 声が小さい
  • POINT:複式呼吸を意識する!

    声が小さいことは僕の悩みであり、昨年アメリカ滞在中にほんとうに苦労しました。というのも、僕の発音が胸式呼吸から出る発音なので、声はあまり通らないのです。そこで気をつけたのが、英語話者と同じように複式呼吸を意識したことです。ただの大声を出すのではなく、お腹から音を作る感じです。イメージとしては、八百屋さんや魚屋さんのおじさんが喋っている感覚です。さらに、腹筋も鍛えることができるので、いいことずくしなんです!

    最後に

    最近では、音声入力のアプリケーションが出てきていますが、個人としてはスマホから無駄なアプリを入れたくないので、GoogleとSiriを利用しています。3つの認識できないケースを意識して、音声入力をすると生産性が向上するので、試してみてください。また、今後も課題を見つけてはレビューをまとめていきたいと思います。

    コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です