Traducción automática en PNL: ejemplos, flujo y modelos

Publicado: 2021-01-21

Tabla de contenido

Introducción

Hay más de 6.500 idiomas reconocidos en el mundo. Se siente una necesidad de la época de comprender el recurso escrito a través de las culturas. En ese intento, muchos libros antiguos se traducen a los idiomas locales y se conservan como referencia.

Se dice que el sánscrito, por ejemplo, el idioma antiguo de la herencia hindú, tiene información ingeniosa de la antigüedad. Esto se debe a que muy pocos conocen el idioma sánscrito. Es probable que dependa de algún mecanismo para buscar información en las escrituras y manuscritos.

Muchas veces queremos que las computadoras entiendan el lenguaje natural. Lo bueno de las computadoras es que pueden calcular más rápido que los humanos. Sin embargo, el desafío de aprender un lenguaje natural es muy difícil de replicar en un modelo computacional.

Máquina traductora

El término 'traducción automática' (MT) se refiere a los sistemas computarizados responsables de producir traducciones con o sin asistencia humana. Excluye las herramientas de traducción basadas en computadora que ayudan a los traductores al proporcionar acceso a diccionarios en línea, bancos de datos terminológicos remotos, transmisión y recepción de textos, etc.

Antes de la era de la tecnología de IA, se desarrollaron programas informáticos para la traducción automática de texto de un idioma a otro. En los últimos años, a la IA se le ha encomendado la tarea de hacer que la traducción automática o automática de la fluidez y la versatilidad de los guiones, dialectos y variaciones de los lenguajes humanos. La traducción automática es un desafío dada la ambigüedad y la flexibilidad inherentes del lenguaje humano.

¿Qué es la PNL?

El Procesamiento del Lenguaje Natural (NLP) es una de las ramas en la difusión de la tecnología de Inteligencia Artificial (IA). Esta disciplina se ocupa de la creación de modelos computacionales que procesan y comprenden el lenguaje natural. Los modelos NKP esencialmente hacen que la computadora entienda la agrupación semántica de objetos (p. ej., las palabras "gato y perro" son semánticamente bastante similares a las palabras "gato y murciélago"), texto a voz, traducción de idiomas, etc.

El Procesamiento del lenguaje natural (NLP) hace que el sistema informático use, interprete y comprenda los lenguajes humanos y el habla verbal, como el inglés, el alemán u otro "lenguaje natural". Hoy en día se ve en la práctica una variedad de aplicaciones de la PNL.

Por lo general, se agrupan en casos de uso respectivos, como el reconocimiento de voz, los sistemas de diálogo, la recuperación de información, la respuesta a preguntas y la traducción automática han comenzado a remodelar la forma en que las personas identifican, recuperan y utilizan el recurso de la información.

Ejemplos de PNL

Los sistemas de reconocimiento de voz/habla, o sistemas de consulta como Siri, trabajan en la pregunta y devuelven una respuesta. Aquí alimentas la voz a una computadora, y entiende tu mensaje.
Programas informáticos que leen informes financieros en lenguaje sencillo y producen números (p. ej., tasa de inflación).
Portal de empleo que recupera los detalles de los candidatos y construye automáticamente el currículum y la solicitud para el trabajo que coincide con las habilidades.
Google Translate procesa el texto en la cadena de entrada y lo asigna con el idioma para traducirlo sobre la marcha.
Los motores de búsqueda similares a Google devuelven sus documentos después de escribir una palabra del tema en el cuadro de búsqueda. Por ejemplo, cuando busca Tajmahal, Google le proporciona documentos que contienen Tajmahal como un artefacto e incluso una marca "Tajmahal". Aquí, se toman en consideración los sinónimos ingleses y los patrones plurales ingleses.

Flujo de PNL

El procesamiento del lenguaje natural es una especie de inteligencia artificial. Si desea crear un programa de PNL, puede comenzar a escribir reglas como "ignorar una s al final de una palabra". Esta es la forma de hacer las cosas de la vieja escuela, y se llama el enfoque "basado en reglas".

Sin embargo, las técnicas más avanzadas utilizan el aprendizaje estadístico, donde programa su computadora para aprender patrones en inglés. Si hace esto, incluso podría escribir su programa solo una vez y entrenarlo para que funcione en muchos lenguajes humanos.

El objetivo de la PNL es hacer inteligibles los lenguajes humanos para que un mecanismo programado pueda interpretar y comprender los manuscritos. Aquí, el mecanismo programado lo llamamos máquina, y el manuscrito es el lenguaje escrito que se alimenta al programa. El programa informático extrae así los datos lingüísticos en forma de conocimiento digital.

La máquina, en lugar de los modelos de aprendizaje estadístico, transforma los atributos del idioma en un enfoque estadístico basado en reglas destinado a abordar problemas específicos y realizar la tarea de procesar el idioma.

En muchos sistemas más antiguos, particularmente los del tipo de 'traducción directa', los componentes de análisis, transferencia y síntesis no siempre estaban claramente separados. Algunos de ellos también mezclaban datos (diccionario y gramática) y reglas y rutinas de procesamiento.

Los nuevos sistemas han exhibido varios grados de modularidad, por lo que los componentes, datos y programas del sistema se pueden adaptar y cambiar sin dañar la eficiencia general del sistema. Una etapa más en algunos sistemas recientes es la reversibilidad de los componentes de análisis y síntesis, es decir, los datos y las transformaciones utilizadas en el análisis de un idioma en particular se aplican a la inversa cuando se generan textos en ese idioma. Obtenga más información sobre las aplicaciones del procesamiento del lenguaje natural.

Evolución de la traducción automática

Hasta finales de la década de 1980, se llevó a cabo una considerable investigación en traducción automática durante esta fase, cuando se desarrollaron los primeros sistemas de traducción automática estadística (SMT).

Clásicamente, para esta tarea se utilizaban los sistemas basados en reglas, que luego fueron reemplazados en la década de 1990 por métodos estadísticos. Muy recientemente llegaron los modelos de redes neuronales profundas para lograr resultados de última generación en un campo que con razón se denomina traducción automática neuronal.

La traducción automática estadística reemplazó los sistemas clásicos basados en reglas con modelos que aprenden a traducir a partir de ejemplos.

Los modelos de traducción automática neuronal se ajustan a un solo modelo en lugar de a una tubería refinada y actualmente logran resultados de vanguardia. Desde principios de la década de 2010, este campo ha abandonado en gran medida los métodos estadísticos y luego se ha desplazado a las redes neuronales para el aprendizaje automático.

Varios éxitos tempranos notables en métodos estadísticos en NLP llegaron a la traducción automática, con la intención de trabajar en IBM Research. Estos sistemas fueron capaces de aprovechar los cuerpos textuales multilingües existentes producidos por el Parlamento de Canadá y la UE como resultado de las leyes que requieren la traducción de todos los procedimientos gubernamentales a varios idiomas oficiales de los sistemas gubernamentales correspondientes.

Sin embargo, muchos otros sistemas dependían de corpus que se desarrollaron específicamente para las tareas implementadas por estos sistemas, lo que fue y continúa siendo una restricción importante para el desarrollo de sistemas. Por lo tanto, surgió la necesidad de una gran cantidad de investigación sobre métodos de aprendizaje efectivo a partir de datos limitados.

Por ejemplo, el término traducción automática neuronal (NMT, por sus siglas en inglés) enfatiza que los enfoques basados en el aprendizaje profundo para la traducción automática aprenden directamente las transformaciones de secuencia a secuencia, obviando la necesidad de pasos intermedios como la alineación de palabras y el modelado del lenguaje que se utilizó en la traducción automática estadística. (SMT). Google comenzó a usar un modelo de este tipo en producción para Google Translate a fines de 2016.

Modelo de secuencia a secuencia

Normalmente, el modelo de secuencia a secuencia consta de dos partes; primero, un codificador , y segundo, un decodificador. Son dos modelos de redes neuronales diferentes que funcionan de la mano como una gran red.

La parte del decodificador del modelo genera una secuencia mapeada en la salida. El decodificador cifra la cadena y agrega significado a la secuencia en representación. Un enfoque de codificador-decodificador, para la traducción automática neuronal, codifica la cadena de entrada completa de una oración en un vector de longitud finita desde donde se decodifica la traducción.

En términos generales, la función de una red codificadora es leer y analizar la secuencia de entrada para dar significado y luego generar una representación dimensional pequeña de la cadena de entrada. Luego, el modelo envía esta representación a la red del decodificador.

El Codificador – Decodificador LSTM es una red neuronal recurrente diseñada para abordar problemas de secuencia a secuencia, a veces llamada seq2seq. La memoria a corto plazo (LSTM) es una arquitectura de red neuronal recurrente artificial (RNN) utilizada en el aprendizaje profundo.

Por ejemplo, cuando la cadena en la secuencia de entrada es "¿Qué es este lugar?", Después de analizar esta secuencia de entrada a través de la red codificador-decodificador, se sintetiza la cadena utilizando los bloques LSTM (un tipo de arquitectura RNN). El decodificador luego genera palabras en la secuencia en cada paso de la iteración del decodificador.

Después del ciclo total de iteración, se construye la secuencia de salida, diga algo como "Este lugar es Pune". La red LSTM se hace adecuada para clasificar según las reglas, analizar para procesar la entrada y hacer predicciones utilizando los ejemplos de datos entrenados.

Modelo de Atención

Modelo de “atención”, que mejoró considerablemente la calidad de los sistemas de traducción automática. La atención permite que el modelo se centre en las partes relevantes de la secuencia de entrada según sea necesario.

Un modelo de atención difiere de un modelo clásico de secuencia a secuencia en dos formas principales:

El codificador pasa muchos más datos al decodificador. En lugar de pasar el último estado oculto de la etapa de codificación, el codificador pasa todos los estados ocultos al decodificador.
Un decodificador de atención realiza un paso adicional antes de producir su salida.

Modelo de transformador

Un cómputo secuencial no se puede paralelizar ya que tenemos que esperar a que termine el paso anterior antes de pasar al siguiente. Esto alarga tanto el tiempo de entrenamiento como el tiempo que lleva ejecutar la inferencia. Una forma de evitar el dilema secuencial es usar redes neuronales convolucionales (CNN) en lugar de RNN. El transformador es un modelo que utiliza la atención para aumentar la velocidad. Más específicamente, utiliza la autoatención. Aquí, cada codificador consta de dos capas:

autoatención
Una red neuronal de avance

Los transformadores utilizan redes neuronales convolucionales junto con modelos de atención para la traducción automática. Los transformadores son un tipo de arquitectura de red neuronal que ha ido ganando popularidad. Los transformadores fueron utilizados recientemente por OpenAI en sus modelos de lenguaje y DeepMind los utilizó recientemente para AlphaStar, su programa para derrotar a un jugador profesional de Starcraft. Los Transformers superan al modelo de traducción automática neuronal de Google en tareas específicas.

Conclusión

En pocas palabras, el mecanismo de autoatención en el sistema permite que la variación de las entradas interactúe entre sí ("yo") y les permite decidir a quién deben prestar más atención ("atención"). Los resultados procesados son, por lo tanto, agregados de estas interacciones y se ponderan con puntajes de atención.

La comprensión fundamental de MT en NLP ayuda a los analistas de datos y científicos de datos a prepararse para emprender proyectos prestigiosos que involucran proyectos en la disciplina NLP de IA. Los cursos de formación en la materia, por parte de los proveedores como upGrad , ayudan a emprender el camino por delante. La marca upGrad es una plataforma de educación superior en línea que ofrece una amplia gama de programas relevantes para la industria listos para liderar su éxito profesional.

Si está interesado en obtener más información sobre el aprendizaje automático y la IA, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, Estado de ex alumnos de IIIT-B, más de 5 proyectos prácticos finales y asistencia laboral con las mejores empresas.

Aprenda el curso ML de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.

Q1. ¿Cuáles son los tipos de traducción automática en PNL?

La traducción automática, también conocida como interpretación robotizada, es el proceso en el que las computadoras o máquinas traducen de forma independiente y rápida grandes volúmenes de texto de un idioma de origen particular a un idioma de destino sin ningún esfuerzo por parte de los seres humanos. En otras palabras, la traducción automática funciona empleando una aplicación que ayuda a traducir texto de un idioma de entrada a otro. Hay cuatro tipos diferentes de traducción automática en NLP: traducción automática estadística, traducción automática basada en reglas, traducción automática híbrida y traducción automática neuronal. La principal ventaja de la traducción automática es que proporciona una combinación eficaz de velocidad y rentabilidad.

Q2. ¿Es lo mismo PNL que IA?

Como dicen algunos expertos, la IA es básicamente la replicación computarizada de la inteligencia humana, que se puede configurar para tomar decisiones, ejecutar operaciones particulares y aprender de los resultados. Y cuando enfocas la IA en la lingüística humana, produce PNL. Entonces, la PNL es un subcampo de la IA, que permite a los seres humanos hablar con las máquinas. Nuevamente, NLP es ese subconjunto de AI que permite a las computadoras comprender, interpretar y procesar el lenguaje humano y realizar tareas específicas. Con la ayuda de NLP, las computadoras pueden detectar frases y palabras clave, detectar la intención del lenguaje y traducirlo con precisión para generar una respuesta adecuada.

Q3. ¿Es la PNL un buen campo profesional?

La PNL ha evolucionado como una tecnología revolucionaria en el ámbito de la ciencia de datos y la IA en los últimos tiempos. El aumento en el uso de dispositivos inteligentes, la adopción de soluciones en la nube y el desarrollo de aplicaciones de PNL para mejorar la experiencia de servicio al cliente son los principales contribuyentes a la repentina expansión del mercado de PNL. Los estudios sugieren que la PNL es una de las siete habilidades técnicas más demandadas en 2021, y se espera que su tamaño de mercado supere los $ 34 mil millones a una CAGR de casi el 22 por ciento. El salario promedio de los profesionales de PNL es de aproximadamente $80,000 a $110,000 al año en los EE. UU.