66ª Reunião Anual da SBPC

Resumo aceito para apresentação na 66ª Reunião Anual da SBPC pela(o):
SBA - Sociedade Brasileira de Automática

B. Engenharias - 1. Engenharias - 5. Engenharia Elétrica

CLASSIFICAÇÃO AUTOMÁTICA DE FONEMAS VOCÁLICOS UTILIZANDO REDES NEURAIS ARTIFICIAIS

Thaisse Dias Paes - Programa de Educação Tutorial de Engenharia Elétrica - UFPA
Giovane Malcher da Silva - Programa de Educação Tutorial de Engenharia Elétrica - UFPA
João Vitor de Carvalho Mesquita - Programa de Educação Tutorial de Engenharia Elétrica - UFPA
Rafael Deriggi Santos - Programa de Educação Tutorial de Engenharia Elétrica - UFPA
Talisman Cláudio de Queiróz Teixeira Júnior - Orientador Msc. / Departamento de Telecomunicações - IFPA

INTRODUÇÃO:

Peterson e Barney produziram um famoso e bem sucedido estudo, publicado em 1952 sob o título ‘Control Methods Used in a Study of Vowels’. Esta pesquisa se tratou de um experimento psicoacústico, cujo objetivo era apresentar, para um variado grupo de 76 pessoas (incluindo homens, mulheres e crianças), uma lista com dez palavras monossilábicas, onde cada palavra possuía diferentes fonemas vocálicos. A lista foi lida por cada um dos voluntários e um dispositivo de gravação foi usado para gerar os arquivos de áudio correspondentes a cada palavra. Os arquivos foram usados para realizar medidas acústicas e estabelecer padrões de reconhecimento para 10 diferentes fonemas vocálicos, utilizando para isso os aparelhos de medição disponíveis no Bell Telephones Laboratories. (Peterson e Barney, 1952). Uma Rede Neural Aritificial (RNA) tem como uma das suas principais aplicabilidades à solução de problemas que envolvem reconhecimento de padrão, por isso acredita-se que o uso de uma RNA seja uma alternativa moderna e prática para automatizar o problema de classificação dos padrões de fonemas vocálicos.

OBJETIVO DO TRABALHO:

Em 1952 os cientistas Peterson e Barney mostraram a correlação entre fonemas e suas frequências formantes, distribuindo os fonemas em grupos, conforme o cruzamento da primeira e segunda formante do espectro de voz. O presente trabalho propõe um método de automatização do projeto realizado pelos dois pesquisadores, através de uma Rede Neural Artificial para reconhecer os padrões estudados.

MÉTODOS:

O banco de dados utilizado para fornecer os padrões de entrada e saída à RNA é o mesmo obtido no experimento de Peterson e Barney, que contém 1520 linhas, descrevendo a frequência fundamental e as formantes 1, 2 e 3 para cada um dos 10 fonemas vocálicos estudados. A arquitetura da RNA implementada possui dois neurônios na camada de entrada, correspondentes às formantes 1 e 2 (F1 e F2); 10 neurônios na camada oculta e 10 na camada de saída. Para facilitar o processo de aprendizagem da rede, criou-se um padrão binário com 10 bits para cada fonema, significando que apenas um neurônio (de 1 – 10) será ativado com o bit 1 na camada de saída. Dentre as 1520 amostras disponíveis no banco de dados separaram-se 1064 para o treinamento da rede e 456 para teste e validação. A técnica utilizada foi o algoritmo Backpropagation. O critério de parada utilizado foi o número de épocas (máximo de 100 épocas), erro menor que 0,01 e verificação de validação (até 6).

RESULTADOS E DISCUSSÃO:

Efetuados o treinamento e teste na rede, seu desempenho pode ser observado na evolução do erro médio quadrático, para um total de 74 épocas, quando a parada aconteceu devido à verificação de validação. Além disso, para melhor atendimento, verificou-se a matriz de confusão. Que mostra na horizontal os valores desejados na saída em relação aos valores obtidos pelo classificador (na vertical) para cada fonema. Nela é possível verificar que a RNA obteve o total de 78% de acertos. Os acertos parciais variaram entre 64,8% e 94,2%. Sendo que dentre os dez fonemas, apenas um resultou em taxa de acerto menor que 70%. A maior taxa de acertos foi do fonema ‘iy’, dentre o total de cento e cinquenta e quatro amostras, cento e quarenta e cinco foram classificadas corretamente, as outras nove amostras foram classificadas como o fonema ‘ih’. O maior erro foi atribuído ao fonema ‘er’, com apenas noventa e quatro acertos dentre as cento e trinta e cinco amostras no total e vinte e seis foram classificadas erroneamente como ‘uu’, seis como ‘eh’, três como ‘ah’, duas como ‘aa’, duas como ‘ae’ e duas como ‘ih’. Os outros fonemas apresentaram erros aceitáveis, com muitas amostras classificadas corretamente.

CONCLUSÕES:

É possível perceber que alguns fonemas (em especial o ‘er’) apresentaram mais dificuldades para serem aprendidos. As áreas em comum de cada fonema, observadas quando é traçado o gráfico que relaciona as duas primeiras formantes, justificam o erro obtido, pois alguns fonemas possuem intersecção com outros. Isto quer dizer que, sonoramente, estes fonemas são parecidos, e dependendo do interlocutor, até mesmo o ouvido humano pode se confundir ao interpretá-lo. Uma sugestão para trabalhos futuros, a fim de corrigir o erro, é a inclusão de mais um neurônio na camada de entrada, que corresponderia à terceira formante. Embora a correlação entre os fonemas e a terceira frequência formante de seu espectro não tenha sido demostrada por Peterson e Barney, esta pode ser uma característica que diferencie fonemas muito semelhantes.

Palavras-chave: Rede Neural Artificial, Reconhecimento de Padrões, Fonemas e Formantes.