Audio Queue 多种格式支持采集音频实战

需求

iOS中使用Audio Queue实现音频数据采集,直接采集PCM无损数据或AAC及其他压缩格式数据.

实现原理

使用Audio Queue采集硬件输入端,如麦克风,其他外置具备麦克风功能设备(带麦的耳机,话筒等,前提是其本身要和苹果兼容).

阅读前提

Core Audio基本原理:简书,掘金,博客
Audio Queue概念篇:简书,掘金,博客
Audio Session基础:简书,掘金,博客
音视频基础知识
C,C++基本知识

本文直接为实战篇,如需了解理论基础参考上述链接中的内容,本文侧重于实战中注意点.

本项目实现低耦合,高内聚,所以直接将相关模块拖入你的项目设置参数就可直接使用.

GitHub地址(附代码) : Audio Queue Capture

具体实现

1.代码结构

如上所示,我们总体分为两大类,一个是负责采集的类,一个是负责做音频录制的类,你可以根据需求在适当时机启动,关闭Audio Queue, 并且在Audio Queue已经启动的情况下可以进行音频文件录制,前面需求仅仅需要如下四个API即可完成.

// Start / Stop Audio Queue
[[XDXAudioQueueCaptureManager getInstance] startAudioCapture];
[[XDXAudioQueueCaptureManager getInstance] stopAudioCapture];

// Start / Stop Audio Record
[[XDXAudioQueueCaptureManager getInstance] startRecordFile];
[[XDXAudioQueueCaptureManager getInstance] stopRecordFile];

2.定义类中常量变量

以下两个参数描述在采集PCM数据时对于iOS平台而言必须填入的信息
1
2
#define kXDXAudioPCMFramesPerPacket 1
#define kXDXAudioPCMBitsPerChannel 16

定义一个结构体存储音频相关属性,包括音频流格式,Audio Queue引用及Audio Queue队列中所使用的所有buffer组成的数据.

struct XDXRecorderInfo {
    AudioStreamBasicDescription  mDataFormat;
    AudioQueueRef                mQueue;
    AudioQueueBufferRef          mBuffers[kNumberBuffers];
};
typedef struct XDXRecorderInfo *XDXRecorderInfoType;

定义一个全局变量判断当前Audio Queue是否正在工作.另一个变量为当前是否正在录制
1
2
@property (nonatomic, assign, readonly) BOOL isRunning;
@property (nonatomic, assign) BOOL isRecordVoice;
注意

因为Audio Queue中本身就是用纯C语言实现的,所以它会直接调用一些函数,我们必须要理解函数跟OC方法的区别,以及指针的概念,因为函数中会出现一些类似&运算符,这里可以简单给大家介绍下以便小白阅读. &就是获取某个对象的内存地址,使用它主要为了满足让Audio Queue的API可以将其查询到的值直接赋给这段内存地址,比如下面会讲到的AudioSessionGetProperty查询方法中就是这样将查询出来的值赋值给我们定义的全局静态变量的.

2.初始化并启动Audio Queue

本例通过XDXSingleton实现单例模式,即头文件中使用SingletonH,实现文件中使用SingletonM即可,关于单例的实现自行百度.

为什么使用单例,因为iPhone中输入端只能接收一个音频输入设备,所以如果使用Audio Queue采集,该采集对象在应用程序声明周期内应该是单一存在的,所以使用单例实现.

首先为记录音频信息的指向结构体的指针分配内存空间

1
2
3

+ (void)initialize {
    m_audioInfo = malloc(sizeof(struct XDXRecorderInfo));
}

下面定义了公共启动接口,你可以直接在其中设置你需要的音频参数,如音频数据格式为PCM还是AAC,采样率大小,声道数,采样时间等.

- (void)startAudioCapture {
    [self startAudioCaptureWithAudioInfo:m_audioInfo
                                 formatID:kAudioFormatMPEG4AAC // kAudioFormatLinearPCM
                               sampleRate:44100
                             channelCount:1
                              durationSec:0.05
                                isRunning:&_isRunning];
}

3. 设置音频流数据格式

注意点

需要注意的是,音频数据格式与硬件直接相关,如果想获取最高性能,最好直接使用硬件本身的采样率,声道数等音频属性,所以,如采样率,当我们手动进行更改后,Audio Queue会在内部自行转换一次,虽然代码上没有感知,但一定程序上还是降低了性能.

iOS中不支持直接设置双声道,如果想模拟双声道,可以自行填充音频数据,具体会在以后的文章中讲到,喜欢请持续关注.

获取音频属性值

理解AudioSessionGetProperty函数,该函数表明查询当前硬件指定属性的值,如下,kAudioSessionProperty_CurrentHardwareSampleRate为查询当前硬件采样率,kAudioSessionProperty_CurrentHardwareInputNumberChannels为查询当前采集的声道数.因为本例中使用手动赋值方式更加灵活,所以没有使用查询到的值.

设置不同格式定制的属性

首先,你必须了解未压缩格式(PCM…)与压缩格式(AAC…). 使用iOS直接采集未压缩数据是可以直接拿到硬件采集到的数据,而如果直接设置如AAC这样的压缩数据格式,其原理是Audio Queue在内部帮我们做了一次转换,具体原理在本文开篇中的阅读前提中去查阅.

使用PCM数据格式必须设置采样值的flag:mFormatFlags,每个声道中采样的值换算成二进制的位宽mBitsPerChannel,iOS中每个声道使用16位的位宽,每个包中有多少帧mFramesPerPacket,对于PCM数据而言,因为其未压缩,所以每个包中仅有1帧数据.每个包中有多少字节数(即每一帧中有多少字节数),可以根据如下简单计算得出

注意,如果是其他压缩数据格式,大多数不需要单独设置以上参数,默认为0.这是因为对于压缩数据而言,每个音频采样包中压缩的帧数以及每个音频采样包压缩出来的字节数可能是不同的,所以我们无法预知进行设置,就像mFramesPerPacket参数,因为压缩出来每个包具体有多少帧只有压缩完成后才能得知.

audioInfo->mDataFormat = [self getAudioFormatWithFormatID:formatID
                                                   sampleRate:sampleRate
                                                 channelCount:channelCount];
                                                 
                                                 
-(AudioStreamBasicDescription)getAudioFormatWithFormatID:(UInt32)formatID sampleRate:(Float64)sampleRate channelCount:(UInt32)channelCount {
    AudioStreamBasicDescription dataFormat = {0};
    
    UInt32 size = sizeof(dataFormat.mSampleRate);
    // Get hardware origin sample rate. (Recommended it)
    Float64 hardwareSampleRate = 0;
    AudioSessionGetProperty(kAudioSessionProperty_CurrentHardwareSampleRate,
                            &size,
                            &hardwareSampleRate);
    // Manual set sample rate
    dataFormat.mSampleRate = sampleRate;
    
    size = sizeof(dataFormat.mChannelsPerFrame);
    // Get hardware origin channels number. (Must refer to it)
    UInt32 hardwareNumberChannels = 0;
    AudioSessionGetProperty(kAudioSessionProperty_CurrentHardwareInputNumberChannels,
                            &size,
                            &hardwareNumberChannels);
    dataFormat.mChannelsPerFrame = channelCount;
    
    // Set audio format
    dataFormat.mFormatID = formatID;
    
    // Set detail audio format params
    if (formatID == kAudioFormatLinearPCM) {
        dataFormat.mFormatFlags     = kLinearPCMFormatFlagIsSignedInteger | kLinearPCMFormatFlagIsPacked;
        dataFormat.mBitsPerChannel  = kXDXAudioPCMBitsPerChannel;
        dataFormat.mBytesPerPacket  = dataFormat.mBytesPerFrame = (dataFormat.mBitsPerChannel / 8) * dataFormat.mChannelsPerFrame;
        dataFormat.mFramesPerPacket = kXDXAudioPCMFramesPerPacket;
    }else if (formatID == kAudioFormatMPEG4AAC) {
        dataFormat.mFormatFlags = kMPEG4Object_AAC_Main;
    }

    NSLog(@"Audio Recorder: starup PCM audio encoder:%f,%d",sampleRate,channelCount);
    return dataFormat;
}

4. 初始化并为Audio Queue分配内存

上面步骤中我们已经拿到音频流数据格式,使用AudioQueueNewInput函数可以将创建出来的Audio Queue对象赋值给我们定义的全局变量,另外还指定了CaptureAudioDataCallback采集音频数据回调函数的名称.回调函数的定义必须遵从如下格式.因为系统会将采集到值赋值给此函数中的参数,函数名称可以自己指定.

typedef void (*AudioQueueInputCallback)(
                                    void * __nullable               inUserData,
                                    AudioQueueRef                   inAQ,
                                    AudioQueueBufferRef             inBuffer,
                                    const AudioTimeStamp *          inStartTime,
                                    UInt32                          inNumberPacketDescriptions,
                                    const AudioStreamPacketDescription * __nullable inPacketDescs);

// New queue
    OSStatus status = AudioQueueNewInput(&audioInfo->mDataFormat,
                                         CaptureAudioDataCallback,
                                         (__bridge void *)(self),
                                         NULL,
                                         kCFRunLoopCommonModes,
                                         0,
                                         &audioInfo->mQueue);
    
    if (status != noErr) {
        NSLog(@"Audio Recorder: AudioQueueNewInput Failed status:%d \n",(int)status);
        return NO;
    }

以下是AudioQueueNewInput函数的定义

inFormat: 音频流格式
inCallbackProc: 设置回调函数
inUserData: 开发者自己定义的任何数据,一般将本类的实例传入,因为回调函数中无法直接调用OC的属性与方法,此参数可以作为OC与回调函数沟通的桥梁.即传入本类对象.
inCallbackRunLoop: 回调函数在哪个循环中被调用.设置为NULL为默认值,即回调函数所在的线程由audio queue内部控制.
inCallbackRunLoopMode: 回调函数运行循环模式通常使用kCFRunLoopCommonModes.
inFlags: 系统保留值,只能为0.

outAQ:将创建好的audio queue赋值给填入对象.

extern OSStatus             
AudioQueueNewInput(                 const AudioStreamBasicDescription *inFormat,
                                    AudioQueueInputCallback         inCallbackProc,
                                    void * __nullable               inUserData,
                                    CFRunLoopRef __nullable         inCallbackRunLoop,
                                    CFStringRef __nullable          inCallbackRunLoopMode,
                                    UInt32                          inFlags,
                                    AudioQueueRef __nullable * __nonnull outAQ)          API_AVAILABLE(macos(10.5), ios(2.0), watchos(2.0), tvos(9.0));

5. 获取设置的音频流格式

用以下方法验证获取到音频格式是否与我们设置的相符.

// Set audio format for audio queue
    UInt32 size = sizeof(audioInfo->mDataFormat);
    status = AudioQueueGetProperty(audioInfo->mQueue,
                                   kAudioQueueProperty_StreamDescription,
                                   &audioInfo->mDataFormat,
                                   &size);
    if (status != noErr) {
        NSLog(@"Audio Recorder: get ASBD status:%d",(int)status);
        return NO;
    }

6. 计算Audio Queue中每个buffer的大小

该计算要区分压缩与未压缩数据.

压缩数据

只能进行估算,即用采样率与采样时间相乘,但是需要注意因为直接设置采集压缩数据(如AAC),相当于是Audio Queue在内部自己进行一次转换,而像AAC这样的压缩数据,每次至少需要1024个采样点(即采样时间最小为23.219708 ms)才能完成一个压缩,所以我们不能将buffer size设置过小,不信可以自己尝试,如果设置过小直接crash.

而我们计算出来的这个大小只是原始数据的大小,经过压缩后往往低于我们计算出来的这个值.可以在回调中打印查看.

未压缩数据

对于未压缩数据,我们时可以通过计算精确得出采样的大小. 即如下公式

// Set capture data size
UInt32 bufferByteSize;
if (audioInfo->mDataFormat.mFormatID == kAudioFormatLinearPCM) {
    int frames = (int)ceil(durationSec * audioInfo->mDataFormat.mSampleRate);
    bufferByteSize = frames*audioInfo->mDataFormat.mBytesPerFrame*audioInfo->mDataFormat.mChannelsPerFrame;
}else {
    // AAC durationSec MIN: 23.219708 ms
    bufferByteSize = durationSec * audioInfo->mDataFormat.mSampleRate;
    
    if (bufferByteSize < 1024) {
        bufferByteSize = 1024;
    }
}

7. 内存分配,入队

关于audio queue,可以理解为一个队列的数据结构,buffer就是队列中的每个结点.具体设计请参考文中阅读前提中的概念篇.

官方建议我们将audio queue中的buffer设置为3个,因为,一个用于准备去装数据,一个正在使用的数据以及如果出现I/0缓存时还留有一个备用数据,设置过少,采集效率可能变低,设置过多浪费内存,3个刚刚好.

如下操作就是先为队列中每个buffer分配内存,然后将分配好内存的buffer做入队操作,准备接收音频数据

// Allocate and Enqueue
    for (int i = 0; i != kNumberBuffers; i++) {
        status = AudioQueueAllocateBuffer(audioInfo->mQueue,
                                              bufferByteSize,
                                          &audioInfo->mBuffers[i]);
        if (status != noErr) {
            NSLog(@"Audio Recorder: Allocate buffer status:%d",(int)status);
        }
        
        status = AudioQueueEnqueueBuffer(audioInfo->mQueue,
                                         audioInfo->mBuffers[i],
                                         0,
                                         NULL);
        if (status != noErr) {
            NSLog(@"Audio Recorder: Enqueue buffer status:%d",(int)status);
        }
    }

8. 启动Audio Queue

第二个参数设置为NULL表示立即开始采集数据.

status = AudioQueueStart(audioInfo->mQueue, NULL);
if (status != noErr) {
    NSLog(@"Audio Recorder: Audio Queue Start failed status:%d \n",(int)status);
    return NO;
}else {
    NSLog(@"Audio Recorder: Audio Queue Start successful");
    *isRunning = YES;
    return YES;
}

9. 回调函数中接收音频数据.

如果上面的操作全部执行成功,最终系统会将采集到的音频数据以回调函数形式返回给开发者,如下.

inUserData: 注册回调函数时传入的开发者自定义的对象
inAQ: 当前使用的Audio Queue
inBuffer: Audio Queue产生的音频数据
inStartTime其中包含音频数据产生的时间戳
inNumberPacketDescriptions: 数据包描述参数.如果你正在录制VBR格式,音频队列会提供此参数的值.如果录制文件需要将其传递给AudioFileWritePackets函数.CBR格式不使用此参数(值为0).
inPacketDescs: 音频数据中一组packet描述.如果是VBR格式数据,如果录制文件需要将此值传递给AudioFileWritePackets函数

通过回调函数,就可以拿到当前采集到的音频数据,你可以对数据做你需要的任何自定义操作.以下以写入文件为例,我们在拿到音频数据后,将其写入音频文件.

static void CaptureAudioDataCallback(void *                                 inUserData,
                                     AudioQueueRef                          inAQ,
                                     AudioQueueBufferRef                    inBuffer,
                                     const AudioTimeStamp *                 inStartTime,
                                     UInt32                                 inNumPackets,
                                     const AudioStreamPacketDescription*    inPacketDesc) {
    
    XDXAudioQueueCaptureManager *instance = (__bridge XDXAudioQueueCaptureManager *)inUserData;
    
    /*  Test audio fps
    static Float64 lastTime = 0;
    Float64 currentTime = CMTimeGetSeconds(CMClockMakeHostTimeFromSystemUnits(inStartTime->mHostTime))*1000;
    NSLog(@"Test duration - %f",currentTime - lastTime);
    lastTime = currentTime;
    */
    
    // NSLog(@"Test data: %d,%d,%d,%d",inBuffer->mAudioDataByteSize,inNumPackets,inPacketDesc->mDataByteSize,inPacketDesc->mVariableFramesInPacket);
    
    if (instance.isRecordVoice) {
        UInt32 bytesPerPacket = m_audioInfo->mDataFormat.mBytesPerPacket;
        if (inNumPackets == 0 && bytesPerPacket != 0) {
            inNumPackets = inBuffer->mAudioDataByteSize / bytesPerPacket;
        }
        
        [[XDXAudioFileHandler getInstance] writeFileWithInNumBytes:inBuffer->mAudioDataByteSize
                                                      ioNumPackets:inNumPackets
                                                          inBuffer:inBuffer->mAudioData
                                                      inPacketDesc:inPacketDesc];
    }
    
    if (instance.isRunning) {
        AudioQueueEnqueueBuffer(inAQ, inBuffer, 0, NULL);
    }
}

10. 停止Audio Queue并回收内存

AudioQueueStop: 停止当前audio queue
AudioQueueFreeBuffer: 释放audio queue中每个buffer
AudioQueueDispose: 释放audio queue

以下函数调用具有先后顺序,我们必须先停掉audio queue,才能释放其中buffer的内存,最后再将整个audio queue彻底释放.

-(BOOL)stopAudioQueueRecorderWithAudioInfo:(XDXRecorderInfoType)audioInfo isRunning:(BOOL *)isRunning {
    if (*isRunning == NO) {
        NSLog(@"Audio Recorder: Stop recorder repeat \n");
        return NO;
    }
    
    if (audioInfo->mQueue) {
        OSStatus stopRes = AudioQueueStop(audioInfo->mQueue, true);
        
        if (stopRes == noErr){
            for (int i = 0; i < kNumberBuffers; i++)
                AudioQueueFreeBuffer(audioInfo->mQueue, audioInfo->mBuffers[i]);
        }else{
            NSLog(@"Audio Recorder: stop AudioQueue failed.");
            return NO;
        }
        
        OSStatus status = AudioQueueDispose(audioInfo->mQueue, true);
        if (status != noErr) {
            NSLog(@"Audio Recorder: Dispose failed: %d",status);
            return NO;
        }else {
            audioInfo->mQueue = NULL;
            *isRunning = NO;
            //        AudioFileClose(mRecordFile);
            NSLog(@"Audio Recorder: stop AudioQueue successful.");
            return YES;
        }
    }
    
    return NO;
}

11. 音频文件录制

此部分可参考另一篇文章: 音频文件录制

简书地址 : Audio File Record
掘金地址 : Audio File Record
博客地址 : Audio File Record

补充

当音频数据为压缩数据时,本来可以通过一个函数求出每个音频数据包中最大的音频数据大小,以进一步求出buffer size,但不知为何调用一直失败,所以在上述第6步中我才换了种方式估算.如果有人知道可以评论补充下,感谢.

UInt32 propertySize = sizeof(maxPacketSize);
OSStatus status     = AudioQueueGetProperty(audioQueue,
                                            kAudioQueueProperty_MaximumOutputPacketSize,
                                            &maxPacketSize,
                                            &propertySize);
if (status != noErr) {
    NSLog(@"%s: get max output packet size failed:%d",__func__,status);
}