wav文件头(Microsoft格式)

最近用java调用sapi.SpVoice文本转语音。为了直接输出内存流而不是音频文件，使用了Sapi.SpMemoryStream。可能有人会说从音频文件里面读取字节流不就行了，但是这样的话就多了文件管理（创建文件避免重名、事后删除文件），还得处理多线程问题，而且多了IO操作，效率更低。
和Sapi.SpFileStream输出的音频文件相比，Sapi.SpMemoryStream获取的字节流并没有包含wav头信息，所以专门上网研究了下。
用了网上很多wav文件头的生成代码，生成总是有问题，所以最直观的方法就是比对和Sapi.SpFileStream生成文件的文件头。

文件头长度为44，当pcm音频数据长度大于0xffff，则为46。

1.audioDataLen为Sapi.SpMemoryStream对象GetData的字节数组长度。
2.channels 为声道数，这里传1
3.sampleRate 采样率，这里传22050
4.bitsPerSample 采样精度，这里传16
5.最后将文件头字节数组和GetData的字节数组拼接起来就是一个wav音频文件了。

//ckid：4字节 RIFF 标志，大写  

    wavHeader[0]  = 'R';  

    wavHeader[1]  = 'I';  

    wavHeader[2]  = 'F';  

    wavHeader[3]  = 'F';  

  

    //cksize：4字节文件长度，这个长度不包括"RIFF"标志(4字节)和文件长度本身所占字节(4字节),即该长度=整个文件长度 - 8 =  audioDataLen +(44 or 46) -8
//这里文件长度并不是什么重要的问题，错了也不影响播放。

    wavHeader[4]  = (byte)(totalDataLen & 0xff);  

    wavHeader[5]  = (byte)((totalDataLen >> 8) & 0xff);  

    wavHeader[6]  = (byte)((totalDataLen >> 16) & 0xff);  

    wavHeader[7]  = (byte)((totalDataLen >> 24) & 0xff);  

  

    //fcc type：4字节 "WAVE" 类型块标识, 大写  

    wavHeader[8]  = 'W';  

    wavHeader[9]  = 'A';  

    wavHeader[10] = 'V';  

    wavHeader[11] = 'E';  

  

    //ckid：4字节 表示"fmt" chunk的开始,此块中包括文件内部格式信息，小写, 最后一个字符是空格  

    wavHeader[12] = 'f';  

    wavHeader[13] = 'm';  

    wavHeader[14] = 't';  

    wavHeader[15] = ' ';  

  

  //cksize：4字节，文件内部格式信息数据的大小，过滤字节（Microsoft为00000012H）  

   wavHeader[16] = 0x12;  

    wavHeader[17] = 0;  

    wavHeader[18] = 0;  

    wavHeader[19] = 0;  

  

    //FormatTag：2字节，音频数据的编码方式，1：表示是PCM 编码  

    wavHeader[20] = 1;  

    wavHeader[21] = 0;  

  

    //Channels：2字节，声道数，单声道为1，双声道为2  

    wavHeader[22] = (byte) channels;  

    wavHeader[23] = 0;  

  

    //SamplesPerSec：4字节，采样率，如44100  

    wavHeader[24] = (byte)(sampleRate & 0xff);  

    wavHeader[25] = (byte)((sampleRate >> 8) & 0xff);  

    wavHeader[26] = (byte)((sampleRate >> 16) & 0xff);  

    wavHeader[27] = (byte)((sampleRate >> 24) & 0xff);  

  

    //BytesPerSec：4字节，音频数据传送速率, 单位是字节。其值为采样率×每次采样大小。播放软件利用此值可以估计缓冲区的大小；  

    //bytePerSecond = sampleRate * (bitsPerSample / 8) * channels  

    wavHeader[28] = (byte)(bytePerSecond & 0xff);  

    wavHeader[29] = (byte)((bytePerSecond >> 8) & 0xff);  

    wavHeader[30] = (byte)((bytePerSecond >> 16) & 0xff);  

    wavHeader[31] = (byte)((bytePerSecond >> 24) & 0xff);  

  

    //BlockAlign：2字节，每次采样的大小 = 采样精度*声道数/8(单位是字节); 这也是字节对齐的最小单位, 譬如 16bit 立体声在这里的值是 4 字节。  

    //播放软件需要一次处理多个该值大小的字节数据，以便将其值用于缓冲区的调整  

    wavHeader[32] = (byte)(bitsPerSample * channels / 8);  

    wavHeader[33] = 0;  

  

    //BitsPerSample：2字节，每个声道的采样精度; 譬如 16bit 在这里的值就是16。如果有多个声道，则每个声道的采样精度大小都一样的；  

   wavHeader[34] = (byte) bitsPerSample;  

    wavHeader[35] = 0;  

  //这里和网上的不一样，网上的36开始就是data了，这里需要插入两个字节，后面顺延
   wavHeader[36] = 0;
   wavHeader[37] = 0;

    //ckid：4字节，数据标志符（data），表示 "data" chunk的开始。此块中包含音频数据，小写；  

    wavHeader[38] = 'd';  

    wavHeader[39] = 'a';  

    wavHeader[40] = 't';  

    wavHeader[41] = 'a';  

  

    //cksize：音频数据的长度，4字节，audioDataLen 

    wavHeader[42] = (byte)(audioDataLen & 0xff);  

    wavHeader[43] = (byte)((audioDataLen >> 8) & 0xff);  

	if (audioDataLen > 0xffff) {

      wavHeader[44] = (byte)((audioDataLen >> 16) & 0xff);  

      wavHeader[45] = (byte)((audioDataLen >> 24) & 0xff); 
	}