Como é que você tá fazendo o carregamento dos assets de áudio? O browser deveria fazer cache bem efetivo deles.
Além disso, será que uma alternativa de storage como o serviço AWS S3 pode te ajudar com isso?
Parabéns pelo projeto! Uma ideia simples e que pode ajudar muita gente a se concentrar melhor. Tenho diversas sugestões de melhorias pra fazer, caso queira ouvir :D