Muito obrigado!!!
Sabia que tinha um overhead mas não que tinha um impacto ai com poucas iterações, sei que paralelismo não é bom para poucas iterações, por exemplo, o tempo de instanciar novas threads as vezes é maior do que o tempo execução. Fiquei até curioso agora, se o overhead da biblioteca Threads é menor do que o do OpenMP.
E outra coisa tambem aos poucos estou tentando lançar mais conteudo aqui no Tabnews sobre desenvolvimento com C++ e HPC.