Bancos de Voz e Fala

Fomos à procura de bancos que reunissem amostras de voz e fala normais e alteradas. Cada um tem a sua metodologia e seus objectivos. Apesar de existirem algumas comercializadas, só apresentamos as de acesso livre. Aqui fica uma lista que vai sendo atualizada.

Saarbruecken Voice Database – Esta é uma das mais completas. Consiste numa coleccção de gravações da voz de mais de 2000 pessoas. Cada sessão contém gravações de vogais sustentadas em diferentes condições e de uma frase. É ainda fornecido o sinal do electroglotograma.

Advanced Voice Function Assessment Databases (em manutenção) – é portuguesa, de accesso livre e baseada em amostras de 709 sujeitos (346 com alteração laríngea e 363 sem alteração). A caracterização das vozes é bastante exaustiva e permitirá o trabalho cooperativo em prol dos métodos não invasivos de diagnóstico de patologia vocal.

National Repository for Laryngeal Data – é um arquivo com dados laríngeos para disseminar imagens, modelos e descrições à comunidade científical.

TalkBank – tem o objectivo de alimentar a investigação fundamental na área da comunicação humana através da construção de bases de dados em cada sub-área.

SpokenBNC – apresenta uma selecção de ficheiros áudio de amostras de fala que fazem parte da British National Corpus. São ainda fornecidas as transcrições e anotações.

Projectos de Amostras de Fala

Common Voice – é um conjunto aberto e público de vozes que qualquer pessoa pode usar para treinar aplicações relacionadas com fala. É um projecto de larga escala conduzido pela Mozilla.

LibriSpeech – contém um corpus de 1000 horas de leitura em inglês. Deriva de um projecto maior – o LibriVox.

TED-LIUM corpus – é uma compilação de 118 horas faladas das TED talks, com transcrições.

VoxForge – foi preparado para recolher fala transcrita para ser usada em ferramentas gratuitas e de código aberto para reconhecimento de fala.

Tatoeba – é uma grande base de dados de frases, traduções e áudio falado para usar em aprendizagem da linguagem.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.