NLP의 기계 번역: 예제, 흐름 및 모델

게시 됨: 2021-01-21

소개

전 세계적으로 인정되는 언어는 6,500개가 넘습니다. 문화 전반에 걸쳐 서면 자원을 이해하는 데 시간이 필요하다고 느낍니다. 그러한 시도에서 많은 고서들이 현지 언어로 번역되어 참조용으로 보존됩니다.

예를 들어, 힌두교 유산의 고대 언어인 산스크리트어는 고대 시대에 대한 풍부한 정보를 담고 있다고 합니다. 산스크리트어를 아는 사람이 거의 없기 때문입니다. 경전과 필사본에서 정보를 찾는 것은 어떤 메커니즘에 의존할 가능성이 높습니다.

많은 경우 우리는 컴퓨터가 자연어를 이해하기를 원합니다. 컴퓨터의 좋은 점은 우리 인간보다 더 빨리 계산할 수 있다는 것입니다. 그러나 자연어를 배우는 문제는 계산 모델에서 복제하기가 매우 어렵습니다.

기계 번역

'기계 번역'(MT)이라는 용어는 사람의 도움이 있든 없든 번역을 생성하는 컴퓨터 시스템을 의미합니다. 온라인 사전, 원격 용어 데이터뱅크, 텍스트 송수신 등에 대한 액세스를 제공하여 번역가를 지원하는 컴퓨터 기반 번역 도구는 제외됩니다.

AI 기술 시대 이전에는 한 언어에서 다른 언어로 텍스트를 자동 번역하는 컴퓨터 프로그램이 개발되었습니다. 최근 몇 년 동안 AI는 인간 언어의 유동성과 스크립트, 방언 및 변형의 다양성을 자동 또는 기계 번역하는 작업을 수행했습니다. 기계 번역은 인간 언어의 고유한 모호성과 유연성을 감안할 때 어려운 작업입니다.

NLP 란 무엇입니까?

자연어 처리(NLP)는 인공 지능(AI) 기술 확산의 한 분야입니다. 이 분야는 자연어를 처리하고 이해하는 계산 모델의 생성과 관련이 있습니다. NKP 모델은 본질적으로 컴퓨터가 객체의 의미론적 그룹화(예: "고양이와 개"라는 단어는 의미적으로 "고양이와 박쥐"라는 단어와 매우 유사함), 텍스트를 음성으로 변환, 언어 번역 등을 이해하도록 합니다.

자연어 처리(NLP)는 컴퓨터 시스템이 인간의 언어와 영어, 독일어 또는 기타 "자연어"와 같은 언어를 사용, 해석 및 이해하도록 합니다. 오늘날 다양한 NLP 응용 프로그램이 실제로 사용되고 있습니다.

일반적으로 음성 인식, 대화 시스템, 정보 검색, 질문 답변 및 기계 번역과 같은 각 사용 사례로 그룹화되어 사람들이 정보 리소스를 식별, 검색 및 사용하는 방식을 재편하기 시작했습니다.

NLP 예제

음성/음성 인식 시스템 또는 Siri와 같은 쿼리 시스템은 질문에 대해 작업하고 답변을 반환합니다. 여기에서 컴퓨터에 음성을 입력하면 컴퓨터가 메시지를 이해합니다.
일반 영어로 재무 보고서를 읽고 숫자(예: 인플레이션율)를 생성하는 컴퓨터 프로그램.
채용 포털은 후보자 세부 정보를 검색하고 기술과 일치하는 작업에 이력서 및 지원을 자동 구성합니다.
Google 번역은 입력 문자열의 텍스트를 처리하고 언어와 매핑하여 즉시 번역합니다.
Google과 유사한 검색 엔진은 검색 상자에 주제의 단어를 입력하면 문서를 반환합니다. 예를 들어, Tajmahal을 검색하면 Google은 Tajmahal을 인공물로 포함하는 문서와 "Tajmahal" 브랜드까지 제공합니다. 여기에서는 영어 동의어와 영어 복수 패턴을 고려합니다.

NLP 흐름

자연어 처리는 일종의 인공 지능입니다. NLP 프로그램을 만들고 싶다면 "단어 끝에 있는 s 무시"와 같은 규칙 작성을 시작할 수 있습니다. 이것은 일을 하는 구식 방식이며 "규칙 기반" 접근 방식이라고 합니다.

그러나 고급 기술은 영어로 패턴을 학습하도록 컴퓨터를 프로그래밍하는 통계 학습을 사용합니다. 이렇게 하면 프로그램을 한 번만 작성하고 많은 인간 언어로 작동하도록 훈련할 수도 있습니다.

NLP의 목적은 프로그래밍된 메커니즘이 원고를 해석하고 이해할 수 있도록 인간의 언어를 이해할 수 있도록 하는 것입니다. 여기에서 우리가 기계라고 부르는 프로그래밍된 메커니즘과 원고는 프로그램에 제공되는 언어 스크립트입니다. 따라서 컴퓨터 프로그램은 디지털 지식의 형태로 언어 데이터를 추출합니다.

통계적 학습 모델이 아닌 기계는 특정 문제를 해결하고 언어 처리 작업을 수행하기 위한 규칙 기반의 통계적 접근 방식으로 언어 속성을 변환합니다.

많은 구형 시스템, 특히 '직접 번역' 유형의 시스템에서는 분석, 전송 및 합성의 구성 요소가 항상 명확하게 분리되지 않았습니다. 그들 중 일부는 또한 데이터(사전 및 문법)와 처리 규칙 및 루틴을 혼합했습니다.

새로운 시스템은 다양한 모듈화 정도를 나타내므로 시스템 구성 요소, 데이터 및 프로그램은 전체 시스템 효율성을 손상시키지 않고 조정 및 변경할 수 있습니다. 일부 최근 시스템의 추가 단계는 분석 및 합성 구성 요소의 가역성입니다. 즉, 특정 언어의 분석에 사용된 데이터 및 변환은 해당 언어로 텍스트를 생성할 때 반대로 적용됩니다. 자연어 처리 응용 프로그램에 대해 자세히 알아보십시오.

기계 번역의 진화

1980년대 후반까지 기계 번역에 대한 상당한 연구가 이 단계에서 수행되었는데, 이때 최초의 통계적 기계 번역(SMT) 시스템이 개발되었습니다.

전통적으로 규칙 기반 시스템이 이 작업에 사용되었으며 나중에 1990년대에 통계적 방법으로 대체되었습니다. 아주 최근에는 신경 기계 번역이라고 하는 분야에서 최첨단 결과를 얻기 위해 심층 신경망 모델이 등장했습니다.

통계적 기계 번역은 기존 규칙 기반 시스템을 예제에서 번역하는 방법을 학습하는 모델로 대체했습니다.

신경 기계 번역 모델은 정제된 파이프라인 대신 단일 모델에 적합하며 현재 최첨단 결과를 달성합니다. 2010년대 초반부터 이 분야는 통계적 방법을 크게 포기하고 기계 학습을 위한 신경망으로 이동했습니다.

NLP의 통계적 방법에 대한 몇 가지 주목할만한 초기 성공은 IBM Research에서 작동하도록 의도된 기계 번역에 도달했습니다. 이러한 시스템은 모든 정부 절차를 해당 정부 시스템의 다양한 공식 언어로 번역해야 하는 법률의 결과로 캐나다 의회와 EU에서 생성한 기존의 다국어 텍스트 기관을 활용할 수 있었습니다.

그러나 다른 많은 시스템은 이러한 시스템에 의해 구현된 작업을 위해 특별히 개발된 말뭉치에 의존했으며, 이는 시스템 개발에 대한 주요 제한이었고 계속되고 있습니다. 따라서 제한된 데이터로부터 효과적으로 학습할 수 있는 방법에 대한 많은 연구가 필요하게 되었다.

예를 들어, 신경 기계 번역(NMT)이라는 용어는 기계 번역에 대한 딥 러닝 기반 접근 방식이 시퀀스 대 시퀀스 변환을 직접 학습하여 통계적 기계 번역에 사용된 단어 정렬 및 언어 모델링과 같은 중간 단계의 필요성을 제거함을 강조합니다. (SMT). Google은 2016년 말에 Google 번역 의 프로덕션에서 이러한 모델을 사용하기 시작했습니다.

시퀀스 대 시퀀스 모델

일반적으로 시퀀스 대 시퀀스 모델은 두 부분으로 구성됩니다. 첫 번째는 인코더 이고 두 번째는 디코더입니다. 그들은 하나의 큰 네트워크로 함께 작동하는 두 개의 다른 신경망 모델입니다.

그런 다음 모델의 디코더 부분은 출력에 매핑된 시퀀스를 생성합니다. 디코더는 문자열을 암호화하고 표현의 시퀀스에 의미를 추가합니다. 신경 기계 번역을 위한 인코더-디코더 접근 방식은 문장의 전체 입력 문자열을 번역이 디코딩되는 유한 길이 벡터로 인코딩합니다.

일반적으로 인코더 네트워크의 기능은 입력 시퀀스를 읽고 분석하여 의미를 만든 다음 입력 문자열의 작은 차원 표현을 생성하는 것입니다. 그런 다음 모델은 이 표현을 디코더 네트워크로 전달합니다.

인코더 – 디코더 LSTM은 seq2seq라고도 하는 시퀀스 간 문제를 해결하도록 설계된 순환 신경망 입니다. LSTM(장단기 기억)은 딥 러닝에 사용되는 인공 순환 신경망(RNN) 아키텍처입니다.

예를 들어, 입력 시퀀스의 문자열이 "What is this place"인 경우 이 입력 시퀀스를 인코더-디코더 네트워크를 통해 구문 분석한 후 LSTM 블록(RNN 아키텍처 유형)을 사용하여 문자열을 합성합니다. 디코더는 다음 디코더 반복의 모든 단계에서 시퀀스의 단어를 생성합니다.

전체 반복 루프 후에 출력 시퀀스가 구성됩니다. "여기가 푸네입니다."와 같이 말합니다. LSTM 네트워크는 규칙에 따라 분류하고, 입력을 처리하기 위해 분석하고, 훈련된 데이터 예제를 사용하여 예측하는 데 적합합니다.

주의 모델

기계 번역 시스템의 품질을 크게 향상시킨 "주의" 모델. 주의는 모델이 필요에 따라 입력 시퀀스의 관련 부분에 집중할 수 있도록 합니다.

주의 모델은 두 가지 주요 면에서 고전적인 시퀀스 대 시퀀스 모델과 다릅니다.

인코더는 더 많은 데이터를 디코더에 전달합니다. 인코딩 단계의 마지막 숨겨진 상태를 전달하는 대신 인코더는 모든 숨겨진 상태를 디코더에 전달합니다.
주의 디코더는 출력을 생성하기 전에 추가 단계를 수행합니다.

변압기 모델

다음 단계로 넘어가기 전에 이전 단계가 완료될 때까지 기다려야 하므로 순차 계산을 병렬화할 수 없습니다. 이렇게 하면 훈련 시간과 추론을 실행하는 데 걸리는 시간이 늘어납니다. 순차 딜레마를 해결하는 한 가지 방법은 RNN 대신 CNN(Convolutional Neural Networks)을 사용하는 것입니다. 트랜스포머는 속도를 높이기 위해 주의를 기울이는 모델입니다. 보다 구체적으로 자기 주의를 사용합니다. 여기에서 각 인코더는 두 개의 레이어로 구성됩니다.

자기 주의
피드포워드 신경망

트랜스포머는 기계 번역을 위해 주의 모델과 함께 컨볼루션 신경망을 사용합니다. 트랜스포머는 인기를 얻고 있는 일종의 신경망 아키텍처입니다. 트랜스포머는 최근 OpenAI에서 언어 모델로 사용했으며 최근 DeepMind에서는 최고의 전문 Starcraft 플레이어를 물리치기 위한 프로그램인 AlphaStar를 위해 사용했습니다. Transformers는 특정 작업에서 Google Neural Machine Translation 모델을 능가합니다.

결론

간단히 말해서, 시스템의 자기 주의 메커니즘은 입력의 분산이 서로 상호 작용할 수 있게 하고(“자기”) 누구에게 더 주의를 기울여야 하는지(“주의”) 결정할 수 있게 합니다. 따라서 처리된 출력은 이러한 상호 작용의 집계이며 주의 점수로 가중치가 부여됩니다.

NLP에서 MT에 대한 기본적인 이해는 데이터 분석가와 데이터 과학자가 NLP AI 분야의 프로젝트와 관련된 권위 있는 프로젝트를 수행할 준비를 하는 데 도움이 됩니다. upGrad 와 같은 제공업체가 제공하는 해당 주제의 교육 과정은 앞으로의 여정을 돕는 데 도움이 됩니다. 브랜드 upGrad는 전문적인 성공을 이끌 준비가 된 광범위한 산업 관련 프로그램을 제공하는 온라인 고등 교육 플랫폼입니다.

기계 학습 및 AI에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제를 제공합니다. IIIT-B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

세계 최고의 대학에서 ML 과정 을 배우십시오 . 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.

Q1. NLP에서 기계 번역의 유형은 무엇입니까?

로봇화된 통역이라고도 하는 기계 번역은 컴퓨터나 기계가 인간의 노력 없이도 방대한 양의 텍스트를 특정 소스 언어에서 대상 언어로 독립적이고 신속하게 번역하는 프로세스입니다. 즉, 기계 번역은 한 입력 언어에서 다른 입력 언어로 텍스트를 번역하는 데 도움이 되는 응용 프로그램을 사용하여 작동합니다. NLP의 기계 번역에는 통계적 기계 번역, 규칙 기반 기계 번역, 하이브리드 기계 번역 및 신경 기계 번역의 네 가지 유형이 있습니다. 기계 번역의 주요 장점은 속도와 비용 효율성의 효과적인 조합을 제공한다는 것입니다.

Q2. NLP는 AI와 동일합니까?

일부 전문가가 말했듯이 AI는 기본적으로 인간 지능을 컴퓨터로 복제한 것으로, 결정을 내리고 특정 작업을 실행하고 결과에서 배우도록 설정할 수 있습니다. 그리고 AI를 인간 언어학에 집중하면 NLP가 나옵니다. 따라서 NLP는 인간이 기계와 대화할 수 있도록 하는 AI의 하위 분야입니다. 다시 말하지만, NLP는 컴퓨터가 인간의 언어를 이해, 해석 및 처리하고 특정 작업을 수행할 수 있도록 하는 AI의 하위 집합입니다. NLP의 도움으로 컴퓨터는 구문과 키워드를 감지하고 언어 의도를 감지하고 이를 정확하게 번역하여 적절한 응답을 생성할 수 있습니다.

Q3. NLP는 좋은 직업 분야입니까?

NLP는 최근 데이터 과학 및 AI 영역에서 혁신적인 기술로 발전했습니다. 지능형 장치의 사용 증가, 클라우드 솔루션의 채택, 향상된 고객 서비스 경험을 위한 NLP 애플리케이션 개발은 NLP 시장의 급격한 확장에 대한 주요 기여자입니다. 연구에 따르면 NLP는 2021년에 수요가 가장 높은 7가지 기술 중 하나이며 시장 규모는 거의 22%의 CAGR로 340억 달러를 넘어설 것으로 예상됩니다. NLP 전문가의 평균 급여는 미국에서 연간 약 $80,000~110,000입니다.