サウンドの基礎と音楽配信

このページでは、デジタルサウンドの基礎と音楽配信を利用する際に必要となる知識を提供しています。 サウンドを組み込んだりHPの制作や携帯プレイヤーの購入を検討されている方は是非ご一読ください。 (このページの内容は、予告なしに変更されます。) 問い合わせはこちらまで

デジタルサウンドの基礎

参照:プロフェッショナルオーディオの基礎知識

○サウンドのデジタイズ(デジタル化)


音楽配信サイトが増えている。インターネットではさまざまなサウンド形式のサウンドが提供されつつあり、パソコンや携帯プレイヤーとの連携により、制作・配信からリスニングまで、広い意味で音楽のカルチャーそのものも変わりつつあるように見える。レコードとアナログプレイヤーで曲を聴いていた世代には、その音質や再生技術の変化は理解しがたいものがあるでしょう。
そもそもサウンドは、鼓膜を振動させて音として感じさせる、連続的に変化する圧力であり、これをコンピュータが認識できる非連続的なデータとして取り出しビットに置き換えることをデジタイズという。標準的なPCMサウンド(音楽CDなどに使われている)の場合、定期的に音圧レベルをサンプリングし、その測定値を何段階かのデジタル値(符号)に置き換えていく。(グラフにすると、アナログの音はあくまで切れ目のない曲線的なカーブを描くが、デジタル化した音は連続した棒グラフを描いていくようなイメージとなる。) 
この測定の周期を標本化周波数(サンプリングレート)、デジタル値に変換する際のビット(bit)数を量子化ビット数といい、音楽CDの場合は、44.1kHz(毎秒44100回測定)のサンプリングレートを適用し、それぞれの測定値を16ビット(2の16乗=65536段階)のレベルに置き換えていく。こうしてできあがったデジタルサウンドは、元の音とは構造上異なるにもかかわらず、人間の聴覚を満足させるレベルであれば自然な音として聴くことができる。
つまり、サンプリングレートと量子ビット数を調整することにより、音の品質を変え、「CDの音質」やら「ラジオの音質」やら「人間の声の音質」を作ることができる。(パソコンにWAVEファイル作成用のソフトがインストールされているなら、録音時の設定を調べてみてください。) したがって、私たちがAV装置やプレイヤーで聴いている音は、現実の音に類似した(デジタル化技術により特定の範囲に押し込められた)音であるといえる。

○アナログサウンドをWAVファイルとして記録する

最近のパソコンのほとんどは、ステレオサウンド機能(マイク入力、ライン入力、ライン出力)があらかじめ搭載されている。デジタル入出力も可能なボードを使用している機種も多い。市販のパソコンは安価なサウンドカードを使用しているものが多く、サウンドの録音や編集を行なうなら、デジタル入出力が可能なまともなサウンドカードに交換する必要があるかもしれない。とりあえず、レコードなどのアナログ音源をパソコンへWAVファイルとして録音すれば、品質はともかくデジタルソースとして使用できる。そして、HDDの残容量には十分注意して下さい。CD音質のWAVファイルを保存するには1分10MB程度必要である。

1.カセットプレイヤー、レコードプレイヤーなどのアナログ機器またはそれらが接続されたアンプのライン出力とパソコンのライン入力をケーブルで接続する。(端子形状に注意。適合するオーディオケーブルを前もって準備しておく。)
2.常駐プログラム(ウイルスチェッカーなど)やスクリーンセーバなどを無効にする。
3.録音ソフトを起動し音質(周波数レンジとダイナミックレンジ)、録音コントロール(入力音量など)の調整を行なう。
4.実際にテスト録音してみる。
5.再生して音量や音質をチェックする。(大き過ぎると音割れが発生、小さすぎるとノイズが目立つ。)
6.録音コントロール(入力音量)を調整し本録音する。(WAVとして保存する。)

音楽CDなどのデジタルソースの場合は、「Windows Media Player」や専用ソフトで、直接WAVファイルに変換し保存できる。その他、機器のインタフェースによっていくつかの取り込み方法があるので機器の解説書を参照してください。WAVファイルが作成できれば、変換ソフトでMP3などの他のフォーマットへ変換したり、CD-Rレコーダで音楽CDに焼き直すことができる。

○周波数レンジとダイナミックレンジ

一般に、人間の聴覚は、周波数レンジが20〜20,000Hz、ダイナミックレンジが120dB(デシベル)程度といわれています。聴覚で感じる音の高低は、音圧変化の周期の違いであり、この周期の再現に必要なサンプルを正確に収集するためには、適切なサンプリング周波数を使用しなければならない。理論的には、サンプリングレートの1/2の周波数まで再現できる。(シャノンの定理という。) つまり、20000Hzを再現しようとすると40000Hz以上でサンプリングしなければならない。したがって、音楽CDと同等の品質のデジタルサウンドを作成するためには、サンプリングレートの設定を通常は44.1kHz(44100Hz)にしておけばよい。

量子化ステップ(量子化における各段階の間隔)が等間隔のものを「直線量子化」、音量に応じて量子化ステップが変化するものを「非直線量子化」という。後者は、大きな音量の方が歪みがわかりにくいという特性を利用し、小さな音量での間隔をより細かく変化させることにより、限られた量子化ビット数でも音質の劣化を防ぐことができる。
量子化ビット数により、そのPCMで扱える最大音と最小音の比率(ダイナミックレンジ)も決まる。一般的なリニアPCMの場合は次の計算式で算出できる。単位は、dB(デシベル)である。

dB=20xlog(最大音/最小音)

また、リニアPCMの場合は、ビット数に「2倍の音圧比」に相当する6dB(正確には6.020...)をかければダイナミックレンジを算出できる。16ビットなら96dB(16 x 6)となる。これは、アナログのレコードの48dBをはるかに凌ぐが、人間の聴覚は120dB程度のダイナミックレンジまで感知できるという説もあり、これを実現するには量子化ビット数を20ビットまで上げねばならない。(DVDオーディオは最大24ビットに対応。)
 
この条件(サンプリングレート=44.1kHz、ダイナミックレンジ=96dB)でデジタイズすると、ステレオで1.4Mbps(=44.1kHz x 16bit x 2ch)、容量にすると約10MB/分のデータが生成される。650MB(最大74分)までの容量保存が可能なCD-Rには、このサウンドを1時間以上記録することができる。したがって、音楽CD(CD-DA)やアナログサウンドを記録する際に、このサンプリングレート(=44.1kHz)、量子ビット数(=16bit)、ダイナミックレンジ(=96dB)を使用すれば、ほぼ音楽CDと同等の品質のデジタル・サウンドファイルを作成することができることになる。

可聴限界(ダインミックレンジ:96dBの場合)


○最近の動向

最近の定説では、人間が聴き取れる周波数レンジが、実は20〜20,000Hzを超えるといわれている。例として、48kHzのサンプリングレートで記録するDAT、DVDの世界のサウンドは、比較すると明らかに音楽CDより優れた音質だと感じる人が多いらしい。ある音響のプロの意見ですが、臨場感、楽器の余韻、雰囲気など生演奏の音を忠実に再現するには音楽CDのレベルよりさらに高いダイナミックレンジが必要である、とのことです。音楽CDやMDのサウンドはまだ大いに改善の余地がある(発展途上の)サウンド品質であり、必然的にさらに高品質なサウンドに移行していくことになる、ということを認識しておきましょう。
そして1999年より、半導体記録メディア(メモリー)の大容量化と音声波形圧縮技術が、インターネットを中心としたネットワーク技術と融合することにより、音楽配信が可能になった。しかしながら、後述のとおり、技術的にもビジネス上もまだ未熟な分野であるがため、複数の企業がそれぞれ異なった音声圧縮形式を採用したサービスを開始してしまい、一般ユーザーには理解しがたい混沌とした状況になっている。以下の情報を参考にして、最近の音楽配信の現状を十分に理解した上で最先端のサウンドを楽しんでください。

●圧縮技術の基本

パソコンの世界での圧縮というと「ZIP、LZH」などを思い起こします。これらの圧縮ファイルは解凍用のソフトで、1ビットも損失することなく、圧縮前の完全な状態に復元できる。デジタルサウンドの世界での圧縮技術はどれも1/10以上の高圧縮を実現するものであり、圧縮の際に捨て去る情報が多いため、完全な復元はできない。これは、サウンドは聴く者の感覚しだいであり、あちこち抜け落ちていても気づかない、という大雑把さ・曖昧さを利用した間引きの技術であるためである。ただ、情報量が減るにつれて当然音質は劣化していくため、いかにしてわからないように削減するか、が圧縮技術向上の焦点になってくる。以下、MP3の例を中心に圧縮技術とはどんなものか解説します。(詳細については、専門誌を参照してください。)

○聴覚特性

人間の可聴範囲(20〜20,000Hz)における聴覚の感度は、均一ではなく、3〜4kHzをピークに低域と高域の感度が急激に落ち込む。(参照:可聴限界グラフ) つまり、低域、高域の小さな音はよく聞こえない、削除しても影響は少ない、ということになる。また、マスキング効果という、大きな音と同時に(周辺で)聴こえる小さな音は聞こえ難いという現象も存在する。こうした聴覚特性をデジタイズ用のプログラムに反映させていくことが圧縮の基本である。MP3フォーマットでは、一度デジタル化された時間対レベルのPCMデータは、特殊な数学的メソッド(MDCT:変形離散コサイン変換という)により、ブロック化され周波数対レベルというスペクトル信号へ変換される。この結果、不要な信号が選別できるようになるという。(難解で筆者もよく理解できていない。)

○最適化技術

次に、選別された信号に合わせたスケーリングと量子化ビット数の割り当てを行う。振幅をそのまま量子化するPCMの場合は、ビット数を落とすとダイナミックレンジが狭くなり音質が低下する。しかし、MP3の場合は、振幅の大小に合わせて割り当てるビット数を変える。つまり、分割された帯域ごとに柔軟なスケールで、量子化ビットが割り当てられる。こうすると、無音なら量子化ビット数=0でよく、データ量の大幅な削減につながる。実レベルに戻すための倍率(スケールファクタという)と使用するビット数を決め、それらを使用してブロックの信号を再量子化する。
この際、出現頻度の高いコードを短いビットで表現する技術(ハフマン符号という)も加味して符号レベルでの圧縮も行う。したがって、帯域内の変化が緩やで少ないならば、少ないビット数でも十分高音質で再現できる。もともと、しきい値(境界線)以下の部分(聴こえない部分)は量子化する必要はないので、総合すると大幅にデータ量を削減できるという。

○ステレオ技術

ステレオサウンドの場合、単純に考えると、データ量はモノラルの2倍になってしまう。MP3では、ジョイントステレオという2種類のモードを有するデータ削減の技術が採用されている。
インテンシティステレオモードは、聴覚の時間差による位置検出能力は高域ほど低い、という特性を利用したもので、高域のブロックに関しては、左右独立したデータは持たずモノラル化してしまう。ただし、スケールファクタは個別に持ち、レベル差のステレオ感は残す。もうひとつのMS(Middle Side)ステレオモードは、左右という分離ではなく和信号(L+R)と差信号(L-R)という形でデータを扱う。聴覚に影響を与えるのは、差信号よりも和信号の方であり、こうすることによって重みを付けた符号化が行えるようになる。もちろん、高域のみ差信号を捨てて、インテンシティステレオにすることもできる。つまり、高域はステレオではなく、ステレオもどきのモノラル音声にできるということである。(ヘッドフォンなどでじっくり聴いて比較してみてください。)

○エンコード技術

MP3のファイルはヘーダー情報の付いたフレーム(1152個のサンプルで構成される)が連なる構造になっている。エンコーダは、このフレーム単位で、データが設定したビットレート内に収まるようにコントロールする。例えば、サンプリング周波数44.1kHzのデータを128kbpsに収めるなら、1フレームは約417バイト(1152 x 128000 ÷  8 ÷ 44100)である。MP3では、VBR(可変ビットレート:必要に応じてビットレートを変更できる技術)も採用し、圧縮し難いフレームでは、高いビットレートを選択し音質を維持し、圧縮しやすいフレームでは、低いビットレートを選択してデータ量の削減を図る、という柔軟な対応ができるようになっている。
参考までに、現在は、ファイルの最後に128バイトを追加し曲の属性データを記録する規格が主流であり、最近のMP3エンコーダ・ソフトは曲名、アーティスト名、トラック番号などをサポートしているものが多い。

MP3では、これらの技術を駆使して、音楽CDでは1.4Mbps(44.1kHz x 16bit x 2ch)を必要とするデータを、32〜320kbpsのビットレートに圧縮する。ビットレートを下げていくと、音質は当然劣化していくが、聴覚特性を考慮した騙しのテクニックにより、一般人には128kbps程度で十分な音質に聴こえてしまう。(違いを聞き分けることができるという、犬のような聴覚を持った人もいるらしい。)

●音楽配信と圧縮技術

インターネット上で音楽配信に使用される圧縮技術は多種多様です。口火を切ったMP3より高圧縮可能な技術がこの1年で次々にネットに登場し、かつての「LDvsVHD、VHSvsβ」などとは比較にならないほど混沌としてきました。現在販売されている携帯プレイヤーの多くはMP3対応の専用プレイヤーまたは2、3種類のフォーマットを再生できる仕様のものです。それ以外のプレイヤーは独自フォーマットに対応しており、MP3ファイルは再生できない。MP3用の携帯プレイヤーを購入したが、お気に入りのアーティストの曲は別フォーマットで提供されている、という事態が頻繁に発生することになるでしょう。また、携帯プレイヤーの一部のメーカーは、2000年から複数のフォーマットに対応した製品を発売し始めている。「もう少し待っていれば..」と嘆くユーザーも多くなるでしょう。パソコンで必死に圧縮方式の変換を試みるユーザーも増えるでしょう。とにかく、これまでのAV技術の変遷から推測すると、販売競争で自然淘汰されるまでは、ユーザー側が基本的知識を習得した上で、判断を間違わないように注意するしかありません。
以下に、代表的な圧縮技術を紹介します。ポータブルプレイヤーを購入する際には、あらかじめ上位3種類については、そのオンライン動向などを調べてみてはいかがでしょうか。

○圧縮フォーマット

フォーマット

概 要

MP3
(MPEG1 Audio Layer-3)
MPEG1という動画圧縮技術に含まれる音声圧縮技術の一つ。ビットレートあたりの品質は128〜112kbps、圧縮率は約1/12〜1/13。前述のとおり、人間の耳で聴こえない可聴範囲外の周波数情報およびその瞬間に聞こえにくい周波数情報をカットしてしまうという工夫をしながら、ブロックごとの周波数対レベル信号に変換し、これを圧縮する。ステレオ/16bit/44.1kHzのCDクオリティの音声ならば128kbpsのビットレートでもほとんど音質を変えることなく圧縮できる。
MP3は現在の音楽配信のパイオニア的存在であるため、曲数・コンテンツの充実度も高く、携帯プレイヤー製品も最も多い。
ATRAC3
(Adaptive Transform Acoustic Coding)
ソニーが開発した音声圧縮技術で、バージョン2はMDの標準フォーマットとして採用されている。音楽配信用に採用されたバージョン3が、ATRAC3呼ばれる。圧縮手法はMP3などと同種の周波数ベースのものを採用している。現時点ではソニー独自の規格だが、同社の人気パソコンやメモリースティックウオークマンなどの製品に採用されている。約1/20の圧縮が可能。
TwinVQ
(Transform-domain weighted interleave Vector Quantization)
NTTサイバースペース研究所が開発したMPEG4の音声圧縮技術で、圧縮率は約1/18。圧縮手法が他の形式とは異なっており、対象とする音声を分析し、予めデータベース内に用意していた標準パターンと比較し、これに近いものを圧縮符号に置き換えていく。対象となる音声によっては音質にばらつきがでてくる可能性があるが、極めて高い圧縮率は魅力である。パターンデータベースの更新で、より高い音質が実現できる可能性もある。
WMA
(Windows Media Audio)
マイクロソフト社が提唱する音声圧縮技術。MP3のような高品位高圧縮率に対応しながら、さらにRealAudioのようにネットワーク配信(ストリーミング配信)の両方に対応できる、というが実力の程は定かでない。曲によっては64kbpsのビットレートであってもCDクオリティを実現できるという。メデイアプレイヤーで再生でき約1/20の圧縮が可能。Windowsの標準形式となることが決まっており、Windows2000以降からはシステムに標準搭載される。
SolidAudio TwinVQの圧縮技術に著作権保護機構を加えた応用技術で、NTTと神戸製鋼所が共同で開発した。
SoundVQ TwinVQ方式をリアルタイム音楽配信向けに改良した、ヤマハが開発した応用技術。
AAC
(Advanced Audio Coding)
MPEG2、MPEG4の音声符号化技術として採用された圧縮技術で、圧縮メソッドはMP3と同種に分類されるが多様な帯域幅やチャンネル数に対応している。5.1チャンネル(DVDの音声形式)のサラウンド方式の音声圧縮にも対応している。
RA
(RealAudio)
RealNetworksが開発し提唱する音声配信技術で、もともと低速モデム接続環境でのストリーミング配信を目的としているため、低ビットレートの帯域での再生に優れている。配信されているデータはラジオの音質(ビットレート:16〜32kbps)が多く、音質は上記の形式に劣る。しかし、高速ネットワーク環境ではFM並みの音質が期待できる。

○サウンドデータの変換

WAVEファイルをMP3に速く圧縮・変換するには、搭載メモリーを増やすよりも、CPUの処理速度を上げた方が効率的である。使用する変換ソフトやその他の環境にもよるが、ベンチマークを見ると、400MHz程度のCPUであれば、1分で約70MB(7分)程度のWAVEファイルをMP3に変換できるようである。いくつかの変換ソフトは5000円程度で市販されているが、「RealJuke○ox」(最大ビットレート:96kbps)などのフリーソフトも利用できる。

○音楽配信サイト

数多くのWebサイトや当サイトからアクセス可能である。

○著作権の保護

最近、違法なネット販売を行っていた業者が次々に告発されている。全ての曲には著作権が付帯しており、ネット販売業者とユーザーは、利用に際してその許諾条件を遵守しなければならない。今後どのように音楽配信の世界に組み込んでいくかが最も大きな課題である。
2001年4月から、非営利の配信でも、音楽著作権使用料の支払いが発生するので要注意。

●携帯プレイヤーの知識

携帯プレイヤーは、あくまで、MP3など特定の圧縮フォーマットのファイルを再生する道具です。ダウンロードしたり、CDの曲をパソコン上で特定の圧縮フォーマットに変換し、プレイヤーに転送することによって初めてプレイヤーで音を楽しむことができる。したがって、プレイヤーとパソコンの相性やドライバの品質は非常に重要である。

○メモリーと記録メディア

スマートメディア、マルチメディアカード、メモリースティックなど機種により使用できる規格や容量が異なる。通常は、カタログには「本体32MB + マルチメディアカード(2スロット装備)」のような表現が多い。標準メモリ(32MB)だけではMP3なら、30分程度の曲データしか保存できない。必ず、オプションのメディアもいっしょに検討して購入しておこう。

○バッテリ駆動時間

カセットプレイヤーなどに比べ格段に優れている。ただし、単三単四乾電池を使うもの、充電式のものなどさまざまである。十分な駆動時間を確保できるタイプのものを選択しよう。

○インタフェース

パラレルまたはUSB接続がほとんどなので、転送速度は決して速くない。USBポートのついていないパソコンを使っている方やUSB、パラレルに他の機器を接続してる方は、いちいち差し変えるかHUB、分岐装置を使うか考えてください。(プレイヤーへの転送速度は、シリアル<パラレル<USB。)

○サイズとオプション機能

小さいのがトリエだが、曲名などの表示窓があるモデルはやや大きめになる。また、ラジオやボイスメモなどの機能が付いているタイプもある。

○付属ソフト
 
変換ソフトの品質は非常に重要だが、体験版しか付属していない製品が多い。アップグレードクーポン(バージョンアップ)の金額もチェックしておこう。圧縮にはパソコンのパワーと時間がかかる。ソフトの稼働環境など問題ないかもチェックしましょう。

○価格

1万円を切るものから3万円を超えるものまでさまざまです。試聴してみることと、付属品やソフトのアップグレードも考えてトータルコストで選択しよう。