Algumas tendências em máquinas de tradução híbrida e suas aplicações(Part2/2)

Continuação – http://rishivadher.blogspot.pt/2015/06/algumas-tendencias-em-maquinas-de.html
3.2. A hibridação guiada baseada no corpo MT
Um sistema híbrido guiado por corpos-base MT pode incorporar regras ou simplesmente combinar várias abordagens MT baseados nos corpos. Existem basicamente duas principais formas de integrar regras em abordagens MT baseados no corpo: sendo utilizadas regras no pré/pós-processamento e integrando dicionários/regras para o modelo de central.
IMAGEM03
IMAGEM03
Regras no pré/pós-processamento. Regras pré-processamento têm sido utilizadas para reordenar a frase fonte numa forma que melhor corresponda a língua-alvo. O esquema para este tipo de estratégia é mostrado na IMAGEM03.
O pós-processamento de regras para a geração morfológicas foram introduzidas por meio duma combinação de aprendizagem da máquina e da introdução de dicionários.
Finalmente um conjunto de regras tanto de pré-processamento e pós-processamento têm sido compilado para essa finalidade de Português-Português a fim de resolver os problemas de normalização tipicamente encontrados num corpo com ruídos. Incorporando dicionários/regras para o modelo central, as regras podem ser integradas no modelo central com abordagens MT baseados no corpo. Os primeiros trabalhos como integra morfologia e sintaxe conhecimento do sistema RBMT dinamicamente num sistema EBMT. Em outros casos os sistemas de RBMT foram integrados nos módulos de SMT baseada em frases, como exemplo a utilização das informações RBMT para melhorar o alinhamento palavra estatística e em seguida aumentar a frase padrão da tabela com entradas obtidas depois de traduzir os dados com diversos sistemas RBMT. A frase na tabela resultante combina assim pares de frases recolhidas estatisticamente com pares de frases geradas por regras linguísticas. Da mesma forma se enriquece a tabela de frases com pares de frases bilingues correspondentes regras de transferência e entradas do dicionário de um sistema de transferência de RBMT vazias e realizando uma comparação com um artigo anterior. O trabalho de alguns investigadores integra um sistema RBMT comercial com um sistema hierárquico SMT, extraindo regras de traduções RBMT. O sistema híbrido herda os léxicos de ambos os subsistemas assim como construções sintáxicas locais definidas no RBMT.
A partir duma perspetiva diferente que foca na integração ordenações e relocais e de locais assim como o módulo de geração a partir de um sistema RBMT para o modelo de tradução do núcleo dum sistema estatístico padrão. Além disso introduzir regras a partir de um formalismo gramático numa tabela uma frase assim introduzindo dicionários para a tabela de frase para reduzir o número de palavras desconhecidas.
A hibridização dentro abordagens baseadas nos corpos ao combinar as abordagens baseadas nos corpos e alinhamentos misturados em sub-frases de SMT e EBMT sistemas baseadas na frase propondo a construção dum sistema SMT baseado no exemplo híbrido que incorporando pedaços marcadores e SMT alinhamentos sub-frases. Havendo um extenso corpo de trabalho sobre a integração de memórias de tradução (TM) em sistemas SMT baseada em frases. TM são simplesmente grandes bancos de dados de palavras traduzidas e sequências de palavras que são geralmente criados por tradutores humanos, um dos estudos mais recentes propõe modelos integrados de fazer máxima utilização das informações TM durante a decodificação. O objetivo é manter todas as suas possíveis frases alvo correspondentes para cada frase fonte TM. Os modelos integrados em seguida consideram todas as frases correspondentes alvo TM e preferências SMT durante a descodificação. Portanto os modelos integrados propostos combinam SMT e TM num nível profundo. Uma forma tradicional de não pode ser negligenciada é a utilizada em modelos dos quais eles próprios podem ser consideradas regras do tipo de tradução de estocasticamente-extraídos. Existem também abordagens que combinam n-unidade e a frase SMT em série. Uma pré-requisição da forma das frases originais e as ofertas de um gráfico de reordenamento que traduz a utilização da descodificação monótona.
Guiado por
Informação
Corpo baseado RBMT
Construção do Corpo
Ponderação do peso do Corpo de saída pós-editada
Regras de pré/pós-processamento
Dicionários/regras no modelo central
Apenas o Corpo
TABELA01
Finalmente existem abordagens que são isentas da obrigação de corpos paralelos ou recursos em geral, existe um método que não precisa de texto MT paralelo e se baseia num modelo de tradução construído a partir de um dicionário bilingue e um descodificador para o contexto de longo alcance. No mesmo sentido outros sistemas utilizam recursos de uma metodologia baixa destinada a facilitar a criação rápida do sistema de MT para pares de idiomas sem restrições como se observa na TABELA01.
4. Os pedidos de tradução automática com componentes híbridos
Aplicações MT hibridas
Tradução do discurso
Recuperação linguística da informação cruzada
Tradução assistida por computador
TABELA02
Entre a variedade de aplicações MT podemos citar os populares como a tradução do discurso e a recuperação da informação multilingue e a tradução assistida por computador. A hibridação dentro destas aplicações tem sido utilizada de várias formas e que oferecem alguns comentários e alguns deles sem pretender ser exaustivo. Como se vê na IMAGEM02 por um curto resumo das referências.
A tradução do discurso frequentemente é a tradução do discurso que é endereçado como uma concatenação de um reconhecimento de voz, uma máquina tradutora é um sintetizador de voz. A hibridação no presente pedido pode ser colocado em qualquer um dos três sistemas. Em reconhecimento de voz da hibridação foi feito através da incorporação de rede neural que se aproxima em sistemas de reconhecimento do estado da arte do discurso continuo com base nos modelos ocultos de Markov HMMs. Existe também uma combinação de modelos ocultos de Markov HMM e a aprendizagem da quantificação vectorial LVQ ou a utilização do suporte de vectores de máquinas (SVMs) para a classificação, integrando desse método num reconhecimento de voz baseado num sistema HMM. Em síntese o texto e a hibridização tem sido feito através da combinação de síntese concatenativa e estatística da recuperação de informação.
A Recuperação linguística da informação cruzada normalmente essa aplicação é produzida pela concatenação de MT e da recuperação da informação por exemplo alguns investigadores apresentam um sistema de informação híbrida combinada: (1) uma ontologia para a recuperação no contexto do utilizador (2) um perfil de utilizador que é actualizado temporariamente de acordo com o comportamento de navegação do utilizador e (3) filtragem colaborativa para considerar recomendações dos utilizadores similares em outras circunstâncias alguns investigadores utilizam uma combinação de técnicas simbólicas e de ligações de inteligência artificial.
Finalmente a tradução assistida por computador é por definição uma combinação de ambos os papéis de homem e máquina. Um trabalho recente de alguns investigadores utilizam um sistema de tradução assistida por máquina que é um sistema híbrido que aplica-se não apenas a tecnologia de TM, mas também metodologias MT que incluem os esquemas de anotação de tradução que correspondente da árvore (TCT) na representação dos exemplos bilingues e o formalismo da linguagem de base através da sincronização com o dicionário de gramática (CSG) que analisa a estrutura sintáctica entre as línguas outros investigadores também propõem um método iterativo MT híbrido que combina regra e MT baseada no exemplo e da abordagens com uma interface homem-máquina iterativa. Alguns trabalhos mais avançados neste campo incluem abordagens da formação incremental ou aprendizagem ativa que são representativas de hibridação homem-máquina em tempo real aonde o sistema MT aprende e melhora baseando-se com iteração humana.
5. Conclusões
Esta investigação revelou que uma visão geral de várias obras relevantes em MT híbrido que combinam diferentes arquitecturas de MT para proporcionam uma melhor qualidade de tradução. Combinações de pesquisa extraem as melhores características de cada paradigma e resolvem os problemas das arquitecturas puras. E por isso MT híbrida ajuda a avançar de uma forma promissora na investigação. Este post fornece uma classificação estruturada que pode cobre a maioria das investigações sobre MT híbrida. A classificação baseia-se no fato de que diferentes abordagens da MT que são normalmente guiadas por um sistema central, que pode ser tanto uma regra baseada num corpo. A maior parte desta investigação combina fontes de informação, regras e dados, mas também existem os projectos que combinem várias abordagens baseadas no corpo. É difícil avaliar qual é o tipo híbrido mais relevante ou promissor da arquitectura, mas afigura-se razoável na utilização de um sistema de melhor desempenho como um guia e os outros para a obtenção de informações adicionais.
Os bons resultados produzidos por hibridação conduzem a uma propagação correspondente das aplicações MT como a tradução do discurso e da recuperação de informação entre as linguagens assim como os sistemas de MT auxiliados por computador e pós-editados. Trabalhar as estratégias híbridas tanto em MT e suas aplicações trazem uma melhoria significativa porque permitem a exploração simultânea duma variedade de sistemas.
Enviar um comentário