Algumas tendências em máquinas de tradução híbrida e suas aplicações (part1)

Esta investigação sobre tradução automática híbrida (MT) é motivada pelo fato de que as técnicas de hibridização se tornaram populares e como tentam combinar as melhores características de regras altamente avançadas ou abordagens MT baseadas no corpo. A investigação existente normalmente cobre tanto a arquitectura simples ou as mais complexas que são abrangidas por corpos ou regras. O objectivo é combinar as melhores propriedades de cada tipo, e esta investigação fornece um panorama detalhado da modificação da arquitectura baseada na regra padrão para incluir conhecimentos estatísticos e a introdução de regras em abordagens baseadas no corpo e da hibridação de abordagens dentro desta última categoria única. O principal objectivo aqui é para cobrir a investigação conducente e progresso neste campo de MT e em várias aplicações relacionadas.
1. Introdução
As máquinas de tradução automática (machine translation – MT) é a área de processamento de linguagem natural que incide sobre a obtenção de um texto de um língua alvo a partir de um texto no idioma original por meio de técnicas automáticas. A MT é um campo multidisciplinar e o desafio foi abordado a partir de vários pontos de vista incluindo a linguística e estatística. A existência de diferentes perspetivas tornou possível a proliferação de metodologias híbridas. Métodos híbridos concentrar em combinar as melhores propriedades de duas ou mais abordagens MT. Hoje em dia tornou-se muito popular a inclusão de regras de estatística em MT (SMT) que se aproximam. No entanto também existem trabalhos relevantes sobre o reforço da MT baseado em regras padronizadas (RBMT) adicionando conhecimento estatístico. Iniciativas recentes no campo da tradução hídrica da língua, engenheiros e cientistas da computação interagem ativamente em prol da construção de arquiteturas híbridas de sucesso e a formulação de propostas e a condução de experiencias.
Este post revê alguns comentários recentes e métodos que combinam na hibridização de abordagens MT de arquitecturas únicas assim como duas linhas de investigação estreitamente relacionadas mas fora do assunto principal. Em primeiro lugar as metodologias de combinação múltiplos motores que têm sido amplamente estudados em MT assim como em outras áreas afins como por exemplo no reconhecimento de fala. Estas abordagens montam saídas MT, não arquitecturas MT. E em segundo lugar a integração de conhecimentos linguísticos em SMT quando os estudos não são considerados em diferentes paradigmas MT. Para uma investigação sobre este tópico específico. O resto do post está organizado da seguinte forma. Secção 2 explica duas classificações de abordagens MT. Secção 3 relata os principais métodos de dentro da hibridização e através de paradigmas. A secção 4 descreve várias aplicações MT com componentes híbridos. Finalmente a seção 5 resume as principais conclusões deste post.
2. Classificação da tradução automática
Basicamente as abordagens MT podem ser classificados em diferentes paradigmas utilizando dois critérios através do nível de representação ou as fontes de informação.
2.1. Nível de representação
Ao classificar MT por nível de representação pode-se pensar da pirâmide Vauquois que contém basicamente transferência e abordagens interlíngua.
Abordagens directas na parte inferior da pirâmide Vauquois exigem uma transformação única da etapa entre a origem e o destino, sem análise do idioma de origem e sem geração de língua alvo. Dentro desta categoria poderíamos encontrar traduções simples baseadas em dicionários.
Abordagens por transferências no meio da pirâmide Vauquois é composta de três etapas: análise, transferência e geração. Esta categoria inclui RBMT, EBMT e SMT abordagens. As abordagens da interlíngua no topo da pirâmide Vauquois consistem em duas etapas: análise e geração. A análise transforma o idioma de origem para a representação interlíngua e a geração transforma essa representação interlíngua para a língua-alvo. Interlíngua é uma representação universal de todas as línguas, não necessitando de fase de transferência.
Alguns investigadores oferecem observações quanto ao facto dum sistema que pode ser considerado de forma direta ou transferência dependendo da grande ou pequena quantidade a análise da específica monolingues do idioma é realizada e também o quão perto das representações intermediárias estão na origem dos próprios textos. Essencialmente a maior parte das abordagens exceto Interlíngua é mencionada neste artigo e pode ser classificados como base em motores de transferência com diferentes graus de complexidade na sua transferência e na análise e geração de estágios.
2.2. Fontes de fontes de informação
As fontes de informação de MT podem ser regras ou dados, o primeiro é motivado linguística, e este último é estatisticamente mais motivados.
As regras MT são abordagens baseadas em regras ou seja RBMT usam informações linguísticas, tais como dicionários monolingues e bilíngues combinados com conhecimento linguístico humano. Regras são desenvolvidas manualmente para transferir texto de um texto no idioma de origem para um texto no idioma-alvo. A maioria das abordagens populares RBMT aplicam três diferentes fases: análise, transferência e geração.
Os dados MT são abordagens orientadas a dados que utilizam as informações dos dados e algoritmos complexos que juntos são capazes da modelação da tradução.
Dados conduzidos MT incluem por exemplo EBMT e estatística baseada SMT. Por definição se a aproxima EBMT executar uma conversão direta por analogia e pode ser vista como um problema de correspondência de padrões. Ao contrário destes os sistemas SMT tentam encontrar a tradução mais provável dada numa fase de origem, tomando como referência os modelos construídos utilizando dados como o modelo de tradução e linguagem. SMT pode ser classificada em frases, sintaxe e hierárquica. A principal diferença entre esses modelos é a estrutura das unidades bilíngues que podem ser construídas a partir de: (1) texto simples no caso dos modelos de frases; (2) os dados mais complexos, incluindo gramáticas e árvores de dependência em modelos de sintaxe; e (3) texto simples, mas permitindo unidades hierárquicos em sistemas hierárquicos. Dado que a hibridação é o foco deste post, vamos considerar este último critério fontes de informação e a fim de distinguir paradigmas MT. Dentro desta categoria os detalhes duma ampla variedade de abordagens de hibridação.
3. Hibridização da arquitetura das máquinas de tradução automática
IMAGEM01
IMAGEM01
Várias metodologias diferentes foram utilizadas para hibridar MT dentro e através de paradigmas. Como mostrado na IMAGEM01 a hibridação de RBMT e MT-base corpo podem ser classificados em aqueles guiada por RBMT ou guiada por MT baseada no corpo. A integração anterior de dados integra numa arquitectura baseada em regras é o último que integra regras linguísticas baseadas numa arquitectura baseada em corpos.
3.1. Hibridização guiada baseada no corpo MT
Existem vários tipos de estratégia dentro desta categoria em que a introdução de um corpo para construir o sistema RBMT e a introdução de instrumentos baseados no corpo para ponderar a saída RBMT e da realização de uma estatística pós-edição de uma saída RBMT.
A utilização de um corpo para construir o sistema RBMT e a principal razão para a utilização de dados na construção de um sistema RBMT é reduzir seu custo e do tempo e o esforço necessários. Uma abordagem bastante simples é aumentar dicionários com frases ou exemplos extraídos do corpo, e extrair novas entradas de Babel e Net Wiktionary. As regras mais complexas aproximam de regras extraídas da transferência, construir assim módulos na selecção lexical utilizando corpos paralelos com transdutores de estado finito ou modelos Markov de máxima entropia e a combinação de várias destas técnicas.
IMAGEM02
IMAGEM02
Ferramentas baseadas no corpo para ponderar a saída RBMT é um trabalho que foca se na concentração em melhorar a saída RBMT integrando ferramentas como modelos de linguagem ou analisadores estocásticos. Alguns artigos da área mostram um sistema de tradução híbrida guiado pelo mecanismo RBMT e antes da transferência dum conjunto de candidatos e traduções parciais fornecidas por subsistemas SMT que é utilizam para enriquecer a representação em forma de árvore. A tradução final híbrida é criada e seleciona numa combinação mais provável entre os fragmentos disponíveis com um descodificador estatístico de forma monotónica como se observa na IMAGEM02. Além disso existem sistemas RBMT que introduzem técnicas de aprendizagem de máquina tais como classificadores a fim de identificar o conjunto de candidatos de tradução adequadas.
Experiências recentes pela Systran na construção de um módulo de interferência estatística para a substituição do módulo de transferência RBMT e das experiências por Lingenio mostram que os sistemas RBMT podem aprender da classificação morfológica, sintática e semântica de informações a partir de corpos de dados corpus.
Pós-edição estática das saídas RBMT, existem estudos que realizam pós-edição estatística em sistemas RBMT e que é mesmo um sistema real comercial. Duma forma abordando as consideradas saídas RBMT como frases e fonte assim como os resultados do pós-editado como frases-alvo. Em outros casos são utilizados em vez são pós-editados manualmente aumentando a estimativa de confiança. O módulo de estatística tende a ser implementada com Moses. Neste caso, RBMT e paradigmas SMT serão concatenados mas não integrados a nível da arquitetura.
3.2. A hibridação guiada baseada no corpo MT
Continuação – http://rishivadher.blogspot.pt/2015/07/algumas-tendencias-em-maquinas-de.html
Enviar um comentário