Không có tiêu chuẩn cố định nào cho độ trễ âm thanh chấp nhận được. Nó phụ thuộc vào cả giới hạn thính giác của con người và nhu cầu chức năng của từng ứng dụng.

Dựa trên sự đồng thuận của ngành, tai người có ngưỡng nhận biết rõ ràng:
<20 ms: Hầu như không thể nhận thấy
20–50 ms: Hơi nhận thấy được
>100 ms: Nhận thấy rõ ràng
>150 ms: Làm gián đoạn dòng chảy tự nhiên của cuộc trò chuyện
Độ trễ âm thanh trong các hệ thống khác nhau
Yêu cầu độ trễ âm thanh theo ứng dụng
Hệ thống hội nghị
Cuộc trò chuyện tự nhiên rất quan trọng. Độ trễ được khuyến nghị là dưới 50 ms, với mục tiêu lý tưởng là dưới 30 ms. Độ trễ cao hơn gây ra hiện tượng chồng chéo lời nói, tạm dừng khó xử và hiệu ứng tiếng vọng.
Hệ thống liên lạc nội bộ
Được thiết kế cho giao tiếp tương tác theo thời gian thực. Độ trễ nên càng thấp càng tốt—thường dưới 100 ms, lý tưởng là dưới 50 ms. Độ trễ cao làm cho cuộc trò chuyện cảm thấy chậm và không đáng tin cậy.
Hệ thống âm thanh công cộng (PA)
Các hệ thống này thường chịu được độ trễ cao hơn. Độ trễ trên 100 ms thường được chấp nhận. Tuy nhiên, yêu cầu quan trọng là độ trễ nhất quán giữa các khu vực, để các thông báo luôn được đồng bộ.
Hệ thống báo động âm thanh-hình ảnh
Yêu cầu chính là đồng bộ âm thanh-hình ảnh. Nếu độ trễ vượt quá 100 ms, người dùng sẽ dễ dàng nhận thấy sự lệch pha giữa âm thanh và hình ảnh. Độ trễ có “chấp nhận được” hay không phụ thuộc vào yêu cầu của dự án và kịch bản ứng dụng. Nói chung, độ trễ càng thấp càng tốt—đặc biệt đối với các hệ thống liên lạc và an toàn thời gian thực.
