会議や打ち合わせをメモ代わりにスマホで録音したり、自撮りの動画を撮ったりするなどして自分の声を聴く機会が増えているのではないだろうか。しかしながら、何度聴いても自分の声が奇妙で好きになれないという向きも少なくない。
■録音された自分の声に違和感や嫌悪感を覚えるのはなぜか
歌手や声優など“声のプロ”であることの基本中の基本は、自分が今出している声がほかの人にどう聴こえているかを正確に把握することだといわれている。
一方で声のプロではない我々にしてみれば、多くは自分の声を正確に把握しておらす、したがって録音された自分の声を聴くたびに違和感や嫌悪感さえ覚える。
いったいどうして多くの人が自分の声を奇妙に感じて嫌っているのか? それは実は単純なことで「本当の自分の声を聴いていないから」であると説明しているのは、米・ペンシルベニア大学医学大学院のイエール・コーヘン博士だ。
「録音して再生した方の声が、あなたの本当の声なのです」とコーヘン博士は科学系メディア「Live Science」の取材に答えている。
本当の自分の声と、話している時に聴いている自分の声が大きく違うのは、耳の構造体の中ほどにある3つの耳小骨(ossicles)のせいであるいという。当然のことではあるが耳は外界から届いた音声を知覚するように作られている。
まず最初に外界の空気の振動(音)で鼓膜が振動し、音が振動として耳小骨につたわり、さらこの耳小骨が振動を蝸牛殻(かぎゅうかく、cochlea)に伝え、最終的に振動が電気信号に変換されて脳に伝達される。
しかし自分の声は外界からではなく、身体の内部から発信されるため、外界から届く音声よりも耳小骨の振動が激しくなる。このため、自分の声は本当の音色よりも大きくてより低音で聴こえてくるのだ。したがって、録音した自分の声を聴くと妙に高い声だと感じられ自分の声ではないように思えるのである。
聴く機会が増えつつある自分の本当の声については違和感を感じても慣れるしかないだろう。あるいは“声のプロ”と同じく、自分の声がほかの人にどう聴こえているのかということに意識的になって、発声をコントロールしてみてもよいのだろう。
■視覚情報によって聴覚が変化する「マガーク効果」とは
自分の声から他者の声に話題を移すと、目の前で話している他者の話をよく理解しようとするときは、唇の動きにあまり注意を向けないほうが良いことが指摘されている。いったいどういうことのか。
唇の動きで発言内容を読み取る技術に「読唇術」がある。とはいえ、かなり訓練を積んだ者でも純粋に視覚的な情報から発話内容を特定できる確率は30~40%程度といわれている。読唇術は単純に唇の動きを読み取ることのみならず、会話が行なわれている文脈とシチュエーションをよく把握して内容を推察するための補助を担うものだとも言える。
そして「読唇術」は基本的に相手の声がほとんど聴こえないか、まったく聴こえない状況で行なうものだ。逆に実際にはっきりと相手の話し声を聴きながら唇の動きにも注視して「読唇術」を行なってしまうと、脳が混乱して話の内容の理解に悪影響を及ぼすということだ。視覚情報によって聴こえる音が変化する錯覚現象があり、この現象はマガーク効果(McGurk effect)と呼ばれている。
イギリスの心理学者、ハリー・マガークにちなんで名づけられたマガーク効果は、次のような実験によって確かめられている。
まず、実験参加者の前のスクリーン上に大写しにした人物に「が」と連続して発音してもらう。この過程で録画した映像を今度は「ば」と発音した音声と合成して上映する。つまり「が」と発声している視覚情報に「ば」という音声情報を上書きして、現実では起こり得ない視覚と音声を組み合わせた視聴覚情報を上映したのだ。
するとこの視聴覚情報を受け取った実験参加者は、どちらの音源にもない「だ」という音声を認識したことを報告した。これは要するに、視覚情報によって脳が認識する音声が変化していることを示している。もし目を閉じて聴いていれば「ば」と聴こえるはずのものが、相手の唇の動きを見てしまったばっかりに「だ」という音声として認識されてしまったのだ。
人の話を聴くときは、実はあまり視覚情報を多くインプットしないほうがいいということになりそうだ。話の内容をしっかり頭に入れたい場合は思い出してみてもよい人間の認知のメカニズムだろう。
■視覚認識と音声認識に“タイムラグ”がある
ではどうして視覚情報が本来の音声の認識を歪めてしまうのか? 最近の研究で、それは視覚認識と音声認識に“タイムラグ”があるせいであることが指摘されている。つまりスピーチをしている人物を前にして、その唇の動きから読み取る理解のスピードと、声を聴いて意味を理解するスピードにごくわずかなズレがあるのだ。そのため先に理解した視覚情報が、ほんのわずか後になって認識する聴覚情報の理解に影響を及ぼすのである。
英・ロンドン大学やサセックス大学の研究者をはじめとする合同研究チームが2017年4月に学術誌「Scientific Reports」で発表した研究では、視覚認識と音声認識の“タイムラグ”を切り詰めて揃えることで、例えば講演会などでの内容の理解度が、参加者の50%で100単語ごとに20単語増加することが示唆されている。
完全な生のスピーチではこの“タイムラグ”が生じてしまうのだが、例えばいったん録画したものを直後に上映するような技術を駆使して“タイムラグ”を切り詰める画像編集を施すことで、スピーチがきわめてわかりやすいものになるという。
研究では36人の実験参加者に映画の登場人物が話しているワンシーンを顔の下半分の部分だけ表示した映像で、映画にはない若干の雑音を加えて見てもらい、音声認識の速度を計測した。その結果、平均して音素を認識する音韻認識において91ミリ秒、言葉の意味を理解するのに113ミリ秒の遅れがあることがわかった。しかしこれはあくまでも平均で個人差があり、状況によってもかなりの差があることも指摘されている。この差は、視覚認識と音声認識が脳のまったく別の領域で行なわれているために生じていると研究チームは説明している。
「我々の今回の研究は、難読症(ディスレクシア)、自閉スペクトラム症、聴覚障がいの人々の症状の理解と治療法の開発に有益なものになるでしょう」と研究チームの一員でロンドン大学のエリオット・フリーマン博士は語る。
ひょっとするとこれは外国語学習にも関係がありそうな話でもあるだろう。外国語のリスニング学習においては、オーディオビジュアル教材よりも、音声のみの教材のほうが脳が混乱せず学習を妨げないのかもしれない。ともあれ人間の認知のメカニズムが着実に解明されていることをあらためて実感させられる話題だ。
参考:「Live Science」、「Live Science」、「Scientific Reports」ほか
文=仲田しんじ
コメント