読むと欲しくなるこだわりの仕事道具〈ワークツール〉読むと欲しくなるこだわりの仕事道具〈ワークツール〉

- 第1回 -「普通」が一番難しい!? Web会議システムの間違った常識を壊すヤマハの逸品!- 第1回 -「普通」が一番難しい!? Web会議システムの間違った常識を壊すヤマハの逸品!

PREV
1 2
3
4
NEXT

「高級マイクで録った音を忠実にスピーカーで再生」
スピーカーフォン開発でこれ↑は大間違い!

「高級マイクで録った音を
忠実にスピーカーで再生」
スピーカーフォン開発でこれ↑は大間違い!

大泉好史氏

ヤマハ株式会社 音響事業本部 事業統括部 UC推進部 UC商品企画グループ 主事。エンジニア出身。音声処理のノウハウを活かして導入後のトラブル解決なども行っている。

大泉好史氏

ヤマハ株式会社 音響事業本部 事業統括部 UC推進部 UC商品企画グループ 主事。エンジニア出身。音声処理のノウハウを活かして導入後のトラブル解決なども行っている。

「テレワークのためのスピーカーフォンは、音の加工や作り込みが重要になります。これが弊社の強い武器です。ただし、Web会議における“良い音”の定義は、いわゆる『Hi-Fi(高忠実度)』ではありません。『相手の言っていることを自然に聞き取れるか?』こそが重要なのです」(大泉好史氏)

 筆者はオーディオ畑の人間なので、優れた性能を持つマイクと原音に忠実なスピーカーさえあれば優秀なスピーカーフォンができるものだと思い込んでいた。オーディオ機器メーカーでもあり、そのあたりのノウハウを十二分に持っているヤマハ製なのだから、Hi-Fiこそが武器だろうと……。しかし、どうやらそんな単純な話ではないらしい。

 人間の耳はよく出来ていて、目の前にいる人の声を“普通に聞き取る”ことができる。しかし、マイクやスピーカーが間に挟まると、途端にそれが難しくなるのだという。

「意味がわからないかもしれませんが、“普通に聞こえる”ことが我々の目指す良い音です」(大泉氏)

 ICレコーダーで録音した会議を後から聴き直すと、『あれ、会議中よりも声が聞き取りにくいぞ?』と感じる人は多いだろう。マイクは機械なので、会議の場にいる人々の声だけでなく、そこで発生していたすべての音――エアコンの暗騒音、室内の響き、ノートパソコンのタイピング音など――をまんべんなく収音する。会議中はそれらのノイズも耳に入っていたはずだが、我々は会話だけを自然に拾い上げて聞き取っている。

 しかしその能力も、マイクとスピーカーを通すと途端に効かなくなる。結果、人の声が聞き取りにくくなってしまうわけだ。

佐藤航一郎氏

ヤマハ株式会社 音響事業本部 事業統括部 UC推進部 UC商品企画グループ 主事。元エンジニアであり、その知識を活かして商品開発に関わっている。

佐藤航一郎氏

ヤマハ株式会社 音響事業本部 事業統括部 UC推進部 UC商品企画グループ 主事。元エンジニアであり、その知識を活かして商品開発に関わっている。

 そう考えると、「会議は対面が一番」という意見は、たしかに1つの真実と言えよう。とはいえ、それではいつまで経っても会議のために多くの時間を費やすことになり、働き方の効率化からも遠ざかってしまう。

 そこでヤマハ開発陣が選択したのは、原音の忠実な再現ではなく、人の声を浮かび上がらせることだった。

「弊社のYVC-1000MSには、AVアンプなどでも使っている高性能DSP(Digital Signal Processor、主に音声や映像を処理するために使われるプロセッサー)を複数使い、マイクが拾った音の信号処理を行います。伝えるべき声はクリアに収音し、それ以外の音、たとえばエアコンなどのノイズはDSP(Digital Signal Processor、主に音声や映像を処理するために使われるプロセッサー)を使った信号処理で低減しているわけです」(佐藤航一郎氏)

 ちなみにAVアンプのDSPはかなり高性能で、YVC-1000MSはかなり贅沢なシステムを持っているそうだ。他社のWeb会議用のスピーカーフォンでもあまり例がないという。

 部屋の暗騒音を低減する術として我々はノイズキャンセル技術を頭に浮かべるが、スピーカーフォンの場合、それだけでは済まない。部屋の響き(残響)によって声に残響が加わって不明瞭になる場合、残響成分だけを除去する必要がある。また、こちらの声が相手側のスピーカーから発せられ、そのスピーカーからの声を相手側のマイクが拾うことでこちら側のスピーカーに戻してしまうエコーバックという現象もある。こうしたやまびこのような声も低減する必要がある。

 つまりスピーカーフォン開発時に求められるのは、「マイクが正確に音を拾い、スピーカーが忠実に音を再現する」というHi-Fi的な考え方ではなく、「マイクで拾った音を “あたかも参加者全員が同じ会議室で喋っているかのような雰囲気”に近づけるべく、いかに加工するか?」というアプローチなのだ。そのためには高度な音の分析と信号処理が必須。AVアンプに使われる大規模なDSPを用いる理由もそこにある。

「人の声とそれ以外を判別するのは比較的容易ですが、会議では複数人が同時に声を出すこともあります。これをきちんと判別できることも重要です。“普通”に話せることが最高で、これは当たり前のことなのですが、だからこそとても難しいのです」(大泉氏)

120度の指向性を持たせたマイクを3個内蔵。それぞれの方向から聞こえた音を本体がリアルタイム処理&6つの音声制御を施した上で相手に伝える。ずいぶん複雑かつ大げさな仕掛けにも思えるが、“マイクとスピーカーを挟んだ会話”を“対面での自然な会話”に近づけるには、本来ここまで手を掛ける必要があるのだ。通常のスピーカーフォンとYVC-1000MSの違いはここにある。

120度の指向性を持たせたマイクを3個内蔵。それぞれの方向から聞こえた音を本体がリアルタイム処理&6つの音声制御を施した上で相手に伝える。ずいぶん複雑かつ大げさな仕掛けにも思えるが、“マイクとスピーカーを挟んだ会話”を“対面での自然な会話”に近づけるには、本来ここまで手を掛ける必要があるのだ。通常のスピーカーフォンとYVC-1000MSの違いはここにある。

 ヤマハのYVC-1000MSは、不要な騒音を除去する「ノイズリダクション」、エコーバックをなくす「適応型エコーキャンセラー」、マイクに近い人と遠い人の声の音量差をなくす「オートゲインコントロール」、部屋の音響特性に応じて聞き取りやすい再生音に調整する「オートルームEQ(イコライザー)」、発話者を自動で追尾する「マイク自動追尾」、部屋の響きをなくして聞き取りやすい音にする「残響抑圧」という、6つの音声処理技術を搭載している。

 このために、1台にマイクを3個内蔵している。無指向性(360度どの方向の音も拾う特性)ではなく、それぞれ120度の指向性を持たせて3つで計360度の指向性を実現しているのだ。このため、発言している人がいる方向に位置するマイクが主となり、残る2個のマイクが従となって働く。これを常に発言者がいる方向に合わせてリアルタイム処理している。また、最大5台のマイクが接続された場合は、3個×5台=15個のマイクが常時連携して発言者の声を追尾するという。もちろん、すでに述べた6つの音声処理もすべてリアルタイム制御で動作しているそうだ。

 これだけの制御をこなすことで、ようやく会話がきちんと聞き取れるかたちで相手に届く。これぞ12年以上におよぶ製品開発で生まれたノウハウと開発者のこだわりだ。

「これらの制御も精度を高めることが重要です。精度が十分でないと、たとえば会話の終わり間際の言葉をカットしてしまうことがあります。会話の最後のニュアンスが途切れてしまうと、疑問なのか肯定なのか、発言全体の意味が勘違いされやすくなります。こうした間違った処理をしないことも重要です」(大泉氏)

マイクを複数台接続して連携できる機能はYVC-1000/YVC-1000MSだけの特徴であり、大規模な会議では大きな威力を発揮するだろう。

マイクを複数台接続して連携できる機能はYVC-1000/YVC-1000MSだけの特徴であり、大規模な会議では大きな威力を発揮するだろう。

PREV
1 2
3
4
NEXT