마이크·스피커 오디오 지연(Latency) 측정
요약 (TL;DR)
오래 쓰던 USB 마이크 인터페이스로 어쿠스틱 기타를 녹음할 때 모니터링 헤드폰에서 약 35 ms의 왕복 지연이 들리던 환경을, MOTU M2와 ASIO 드라이버 조합으로 바꾸자 5 ms대까지 떨어졌고, 같은 연주가 “연주 불능”에서 “자연스러움”으로 즉시 바뀌었습니다. “마이크에 소리를 냈는데 이어폰에서 살짝 늦게 들리는” 현상은 버그가 아니라 **왕복 지연(round-trip latency)**이 실재한다는 물리적 증거입니다. 지연은 크게 다섯 단계의 합으로 구성됩니다. 마이크가 샘플링된 신호를 입력 버퍼에 쌓는 시간, DAW나 통신 소프트웨어가 이를 처리하는 시간, 결과를 출력 버퍼에 다시 쌓는 시간, DAC가 이를 아날로그로 변환하는 시간, 그리고 스피커에서 귀까지의 물리 전파 시간(34 cm당 약 1 ms). 이 다섯 항목 중 대부분의 튜닝 여지는 버퍼 크기와 드라이버 모델에 있습니다. ASIO·WASAPI Exclusive·Core Audio·JACK는 각각 전형적인 최저 지연이 다르고, 플랫폼 제약도 다릅니다. 본 글은 지연의 구성 요소, 샘플레이트·버퍼 크기의 트레이드오프, 드라이버별 특성, 그리고 루프백 케이블 + 테스트 톤 + 오디오 소프트웨어로 실제 왕복 지연을 측정하는 절차를 정리합니다.
배경/개념
마이크 소리가 스피커로 되돌아오기까지 컴퓨터 내부에서 거치는 구간은 생각보다 깁니다. 우선 ADC(아날로그-디지털 변환기)가 마이크 신호를 일정 샘플레이트(예: 48 kHz)로 샘플링하고, 샘플을 모아 입력 버퍼에 담습니다. 버퍼가 한 덩어리(예: 128 샘플)만큼 찬 시점에 드라이버가 소프트웨어에 신호를 전달합니다. 여기까지가 입력 지연입니다. 128 샘플 / 48 kHz는 약 2.67 ms이므로, 그 자체만으로도 의미 있는 시간이 흐릅니다.
소프트웨어(예: DAW, 통신 앱)는 받은 버퍼에 처리(이펙트, 믹스, 네트워크 전송 준비 등)를 적용하고 결과를 출력 버퍼에 씁니다. 출력 버퍼가 찬 덩어리는 DAC를 통해 아날로그로 변환되어 스피커로 나갑니다. 출력 버퍼 시간도 비슷한 방식으로 계산됩니다.
마지막으로 공기 중 전파. 음속은 상온에서 약 343 m/s이므로 34 cm당 약 1 ms의 지연이 추가됩니다. 헤드폰은 이 구간이 거의 없는 반면, 방 저편의 모니터 스피커는 수 ms를 더합니다. 1.7 m 떨어진 모니터 스피커 한 쌍 앞에 앉아 녹음한다면 그것만으로 약 5 ms의 추가 지연이 생긴다는 의미입니다.
왕복 지연(round-trip latency, RTT) = 입력 버퍼 + 처리 + 출력 버퍼 + DAC/전파. 샘플레이트가 같다면 버퍼 크기를 줄일수록 지연이 줄지만 CPU가 더 자주 깨어나야 해서 부하가 올라갑니다. 샘플 단위로 버퍼를 정의하는 경우 샘플레이트가 올라가면 같은 “샘플 수” 버퍼가 시간으로는 더 짧아지는 효과가 있지만, 높은 샘플레이트는 처리량이 늘어 CPU·드라이버 동작에 다른 식으로 영향을 줍니다.
비교/데이터
| 기준 | ASIO | WASAPI Exclusive | Core Audio | JACK |
|---|---|---|---|---|
| 플랫폼 | 주로 Windows | Windows 전용 | macOS 전용 | Linux 중심, 크로스플랫폼 지원 |
| 전형적 최저 지연 | 매우 낮음, 보통 수 ms 대 | 낮음, 전용 제어 시 수 ms 대 | 낮음, 안정적 수 ms 대 | 매우 낮음 구성 가능, 복잡도 있음 |
| 공유 모드 | 드라이버에 따라 다름(보통 독점적) | 공유/독점 선택 가능, 독점이 더 낮음 | 공유 모드가 기본이지만 잘 튜닝됨 | 라우팅 매트릭스 중심, 다중 클라이언트 |
정확한 ms 수치는 하드웨어·드라이버·OS 버전에 따라 편차가 크므로, 마케팅 문구의 “1 ms 지연”을 실제 값으로 받아들이기보다는 내 환경에서 RTT를 한 번 측정해서 기준점을 세우는 편이 실용적입니다. Focusrite Scarlett 2i2 3rd Gen이나 MOTU M2 같은 보급형 인터페이스도 ASIO 또는 Core Audio와 결합하면 한 자릿수 ms 영역까지 충분히 내려옵니다. 반면 Windows 기본 WASAPI 공유 경로나 ASIO4ALL 같은 우회 드라이버는 하드웨어가 같아도 결과가 크게 달라지므로, “내 RTT”는 하드웨어·드라이버·버퍼 세 변수의 조합 결과로 받아들여야 합니다.
실전 시나리오
시나리오 1 — 라이브 퍼포먼스·인이어 모니터링. 보컬이 자기 목소리를 인이어로 들으며 노래할 때, RTT가 커지면 목소리가 몇 밀리초 늦게 돌아와 템포 감각을 해칩니다. 이 영역은 10 ms 이하의 RTT가 목표가 되고, 이를 위해 버퍼 크기를 최대한 낮추고, ASIO/Core Audio 같은 저지연 드라이버를 쓰며, 가능하면 인터페이스의 하드웨어 다이렉트 모니터링 기능으로 소프트웨어 경로를 우회합니다. MOTU M2의 전면 패널 모니터 노브가 이 역할을 즉시 해결합니다.
시나리오 2 — 팟캐스트 녹음. 동시에 여러 명이 같은 방에서 녹음하는 경우가 아니라 각자 자기 마이크로만 녹음한다면, 50–100 ms 정도의 지연도 허용 범위입니다. 녹음 단계에서는 낮은 지연이 필수가 아니고, 포스트프로덕션에서 타임라인을 맞추면 됩니다. 오히려 버퍼를 크게 잡아 CPU 안정성을 확보하는 편이 녹음 품질에 유리한 경우가 많습니다.
시나리오 3 — 영상 회의. 브라우저 WebRTC 기반 회의는 평균 100–200 ms 내외의 지연을 보이는 경우가 일반적입니다. 네트워크 전파·인코딩·디코딩 지연이 더해지기 때문입니다. 이 수준은 대화의 자연스러움을 유지할 수 있는 경계 근처이며, 무선 이어폰·Bluetooth 지연까지 더해지면 대화가 겹치기 시작하는 원인이 됩니다.
자주 하는 오해
“블루투스는 무조건 지연이 크다.” 클래식 A2DP 기반 전송은 확실히 지연이 큽니다. 하지만 **LE Audio(LC3 코덱)**나 aptX Low Latency 같은 저지연 코덱은 상당히 낮은 영역까지 내려올 수 있어, 실제 체감이 충분히 바뀝니다. 같은 “블루투스 이어폰”이어도 지원 코덱에 따라 값이 크게 달라집니다. 다만 모니터링·녹음용으로는 여전히 유선이 안전한 선택입니다.
“USB 오디오는 항상 아날로그보다 낫다.” USB 인터페이스가 잘 만든 DAC·저잡음 프리앰프·드라이버를 갖추고 있으면 아날로그보다 깨끗하지만, 저가 USB DAC는 지터·노이즈·드라이버 문제로 오히려 더 나쁠 수 있습니다. “USB니까 좋다”가 아니라 컴포넌트 품질이 먼저입니다.
“샘플레이트 192 kHz면 지연이 낮다.” 직관과 다르게, 같은 시간 단위(ms)의 버퍼를 유지한다면 샘플레이트를 올린다고 해서 물리 시간이 짧아지지 않습니다. 샘플 개수 기준으로 버퍼를 고정할 경우에만 샘플레이트가 올라가면서 버퍼 시간(ms)이 짧아지고, 그 대신 CPU 부하와 드라이버 스트레스가 더 커집니다. 저지연 설정의 핵심은 샘플레이트가 아니라 버퍼 크기와 드라이버 모델입니다.
체크리스트 또는 의사결정 플로우
- 목표 RTT를 정의한다. 라이브 연주 <10 ms, 녹음 50–100 ms, 회의 100–200 ms 등 용도별 기준을 정한다.
- 드라이버 모델을 선택한다. Windows는 ASIO 또는 WASAPI Exclusive, macOS는 Core Audio, Linux는 JACK/PipeWire. 플랫폼 기본 공유 경로(예: MME, 기본 WASAPI 공유 모드)는 대개 지연이 크다.
- 버퍼 크기를 점차 줄여 RTT를 낮춘다. 크래클(dropout)이 생기기 직전까지가 그 시스템의 실전 하한이다.
- 루프백 측정을 한다. 인터페이스 출력과 입력을 케이블로 연결하고, 테스트 톤을 재생해 받은 파형과의 시간 차이를 오디오 편집기에서 읽는다.
- 샘플레이트는 프로젝트 요구에 맞춘다. 영상용 48 kHz, 음악 44.1/48 kHz가 무난하고, 96 kHz 이상은 명확한 이유가 있을 때만.
- 모니터링 경로를 점검한다. DAW 소프트웨어 모니터링 대신 인터페이스 다이렉트 모니터링을 쓰면 RTT를 거의 0으로 만들 수 있다.
관련 도구
Patrache Studio의 오디오 지연 측정 도구는 브라우저에서 입력·출력 경로의 왕복 지연을 대략적으로 추정할 수 있도록 설계되어 있어, 하드웨어 구입 없이도 현재 시스템의 상태를 파악하기 좋습니다. 입력 장치 전체 지연을 함께 살펴보려면 키보드 N-Key Rollover(NKRO)와 게이밍 입력 지연을 참고하고, 영상 통화에서 A/V 싱크 문제까지 점검하려면 웹캠 진단: 프레임레이트·해상도·조명의 상관관계에서 다룬 카메라 측 지연 요소도 함께 맞춰 보는 것을 권장합니다.
참고 자료
- Steinberg ASIO 공식 문서 — https://www.steinberg.net/en/company/technologies/asio.html
- Microsoft Learn, Windows 저지연 오디오(WASAPI) — https://learn.microsoft.com/en-us/windows-hardware/drivers/audio/low-latency-audio
- Bluetooth SIG, LE Audio 스펙 — https://www.bluetooth.com/specifications/specs/le-audio