NLP 中的機器翻譯:示例、流程和模型
已發表: 2021-01-21目錄
介紹
世界上有超過 6,500 種公認的語言。 人們認為需要時間來了解跨文化的書面資源。 在這種嘗試中,許多舊書被翻譯成當地語言並保存下來以供參考。
例如,梵語是印度教遺產的古老語言,據說有豐富的古代信息。 這是因為很少有人知道梵文。 它可能依賴於某種機制從經文和手稿中尋找信息。
很多時候,我們希望計算機能夠理解自然語言。 計算機的好處是它們的計算速度比我們人類快。 然而,學習自然語言的挑戰很難在計算模型上複製。
機器翻譯
術語“機器翻譯”(MT)是指負責在有或沒有人工協助的情況下進行翻譯的計算機化系統。 它不包括通過提供對在線詞典、遠程術語數據庫、文本傳輸和接收等的訪問來支持翻譯人員的基於計算機的翻譯工具。
在人工智能技術時代之前,開發了用於將文本從一種語言自動翻譯成另一種語言的計算機程序。 近年來,人工智能的任務是對人類語言的腳本、方言和變體的流動性和多功能性進行自動或機器翻譯。 鑑於人類語言固有的模糊性和靈活性,機器翻譯具有挑戰性。
什麼是自然語言處理?
自然語言處理(NLP)是人工智能(AI)技術傳播的分支之一。 該學科涉及創建處理和理解自然語言的計算模型。 NKP 模型本質上使計算機理解對象的語義分組(例如,單詞“cat and dog”在語義上與單詞“cat and bat”非常相似)、文本到語音、翻譯語言等。

自然語言處理 (NLP) 使計算機系統使用、解釋和理解人類語言和口頭語言,例如英語、德語或其他“自然語言”。 今天在實踐中看到了一系列 NLP 應用程序。
它們通常被分組在各自的用例中,例如語音識別、對話系統、信息檢索、問答和機器翻譯已經開始重塑人們識別、檢索和利用信息資源的方式。
自然語言處理示例
- 語音/語音識別系統或像 Siri 這樣的查詢系統會處理問題並返回答案。 在這裡,您將語音輸入計算機,它會理解您的信息。
- 以簡單的英語閱讀財務報告並生成數字(例如通貨膨脹率)的計算機程序。
- 工作門戶檢索候選人詳細信息並自動構建簡歷和應用程序以匹配與技能相匹配的工作。
- 谷歌翻譯處理輸入字符串中的文本並將其與語言映射以將其翻譯成飛行。
- 在您在搜索框中鍵入主題詞後,類似 Google 的搜索引擎會返回您的文檔。 例如,當您搜索 Tajmahal 時,Google 會為您提供包含 Tajmahal 作為人工製品甚至是“Tajmahal”品牌的文檔。 這裡,考慮了英語同義詞和英語複數模式。
自然語言處理流程
自然語言處理是一種人工智能。 如果你想構建一個 NLP 程序,你可以開始編寫諸如“忽略單詞末尾的 s”之類的規則。 這是老派的做事方式,被稱為“基於規則”的方法。
但是,更先進的技術使用統計學習,您可以在其中對計算機進行編程以學習英語模式。 如果你這樣做,你甚至可以只編寫一次程序並訓練它以多種人類語言工作。
NLP 的目標是使人類語言可理解,以便程序化機制可以解釋和理解手稿。 在這裡,我們稱之為機器的程序化機制,而手稿是提供給程序的語言腳本。 因此,計算機程序以數字知識的形式提取語言數據。
然後,機器而不是統計學習模型將語言屬性轉換為基於規則的統計方法,旨在解決特定問題並執行處理語言的任務。
在許多較舊的系統中,尤其是那些“直接翻譯”類型的系統,分析、傳輸和綜合的組成部分並不總是清楚地分開。 其中一些還混合了數據(字典和語法)以及處理規則和例程。
新系統具有不同的模塊化程度,因此系統組件、數據和程序可以在不損害整體系統效率的情況下進行調整和更改。 在一些最近的系統中,進一步的階段是分析和合成組件的可逆性,即在生成該語言的文本時,用於分析特定語言的數據和轉換被反向應用。 詳細了解自然語言處理的應用。
機器翻譯的演變
直到 1980 年代後期,在此階段對機器翻譯進行了大量研究,當時開發了第一個統計機器翻譯 (SMT) 系統。
傳統上,基於規則的系統被用於這項任務,後來在 1990 年代被統計方法取代。 最近,深度神經網絡模型在被正確稱為神經機器翻譯的領域取得了最先進的成果。
統計機器翻譯用從示例中學習翻譯的模型取代了經典的基於規則的系統。
神經機器翻譯模型適合單個模型而不是精煉的管道,並且目前達到了最先進的結果。 自 2010 年代初以來,該領域在很大程度上放棄了統計方法,然後轉向神經網絡進行機器學習。

NLP 統計方法的幾個顯著早期成功出現在機器翻譯領域,旨在為 IBM 研究院工作。 由於法律要求將所有政府程序翻譯成政府相應系統的各種官方語言,這些系統能夠利用由加拿大議會和歐盟製作的現有多語言文本機構。
但是,許多其他系統都依賴於專門為這些系統執行的任務而開發的語料庫,這一直是系統開發的主要限制因素。 因此,需要對從有限數據中有效學習的方法進行大量研究。
例如,神經機器翻譯 (NMT) 一詞強調基於深度學習的機器翻譯方法直接學習序列到序列的轉換,從而無需統計機器翻譯中使用的單詞對齊和語言建模等中間步驟(表面貼裝)。 谷歌於 2016 年底開始在谷歌翻譯的生產中使用這種模型。
序列到序列模型
通常,序列到序列模型包括兩部分; 首先是編碼器,其次是解碼器。 它們是兩個不同的神經網絡模型,它們作為一個大網絡攜手合作。
然後模型的解碼器部分在輸出中生成一個映射序列。 解碼器加密字符串並在表示中為序列添加含義。 用於神經機器翻譯的編碼器-解碼器方法將句子的整個輸入字符串編碼為一個有限長度的向量,從那裡翻譯被解碼。
從廣義上講,編碼器網絡的功能是讀取和分析輸入序列以產生意義,然後生成輸入字符串的小維度表示。 然後模型將此表示轉發到解碼器網絡。
編碼器-解碼器LSTM 是一種循環神經網絡,旨在解決序列到序列問題,有時稱為 seq2seq。 長短期記憶 (LSTM) 是一種用於深度學習的人工循環神經網絡 (RNN) 架構。
例如,當輸入序列中的字符串是“這是什麼地方”時,在通過編碼器-解碼器網絡解析該輸入序列之後,使用 LSTM 塊(一種 RNN 架構)合成字符串。然後解碼器在解碼器迭代的每一步中生成序列中的單詞。
在迭代的總循環之後,構造輸出序列,比如“這個地方是浦那”。 LSTM 網絡適用於根據規則進行分類,分析以處理輸入並使用經過訓練的數據示例進行預測。
注意力模型
“注意力”模型,極大地提高了機器翻譯系統的質量。 Attention 允許模型根據需要關注輸入序列的相關部分。
注意力模型在兩個主要方面不同於經典的序列到序列模型:
- 編碼器將更多數據傳遞給解碼器。 編碼器沒有傳遞編碼階段的最後一個隱藏狀態,而是將所有隱藏狀態傳遞給解碼器。
- 注意解碼器在產生其輸出之前會執行額外的步驟。
變壓器型號
順序計算不能並行化,因為我們必須等待上一步完成才能繼續下一步。 這會延長訓練時間和運行推理所需的時間。 解決順序困境的一種方法是使用卷積神經網絡 (CNN) 而不是 RNN。 變壓器是一種使用注意力來提高速度的模型。 更具體地說,它使用自註意力。 在這裡,每個編碼器由兩層組成:

- 自註意力
- 前饋神經網絡
Transformers 使用卷積神經網絡和注意力模型進行機器翻譯。 Transformer 是一種越來越受歡迎的神經網絡架構。 OpenAI 最近在他們的語言模型中使用了 Transformer,DeepMind 最近也在 AlphaStar 中使用了 Transformer,這是他們擊敗頂級職業星際爭霸玩家的程序。 Transformers 在特定任務中的表現優於 Google 神經機器翻譯模型。
結論
簡而言之,系統中的自註意力機制允許輸入的變化相互影響(“自我”),並讓他們決定應該更多地關注誰(“注意力”)。 因此,處理後的輸出是這些交互的聚合,並用注意力分數加權。
對 NLP 中 MT 的基本理解有助於數據分析師和數據科學家為承擔涉及 AI 的 NLP 學科項目的著名項目做好準備。 由upGrad等提供者提供的該主題的培訓課程有助於邁向前進的道路。 upGrad 品牌是一個在線高等教育平台,提供廣泛的行業相關課程,隨時準備引領您的職業成功。
如果您有興趣了解有關機器學習和人工智能的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為在職專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業, IIIT-B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。
從世界頂級大學學習ML 課程。 獲得碩士、Executive PGP 或高級證書課程以加快您的職業生涯。
Q1。 NLP 中的機器翻譯有哪些類型?
機器翻譯,也稱為機器人翻譯,是計算機或機器獨立快速地將大量文本從特定源語言翻譯成目標語言的過程,無需人類付出任何努力。 換句話說,機器翻譯通過使用幫助將文本從一種輸入語言翻譯成另一種語言的應用程序來發揮作用。 NLP 中有四種不同類型的機器翻譯:統計機器翻譯、基於規則的機器翻譯、混合機器翻譯和神經機器翻譯。 機器翻譯的主要優勢在於它提供了速度和成本效益的有效結合。
Q2。 NLP 和 AI 一樣嗎?
正如一些專家所說,人工智能基本上是人類智能的計算機複製,可以設置為做出決策、執行特定操作並從結果中學習。 當你將 AI 專注於人類語言學時,它就會產生 NLP。 因此,NLP 是 AI 的一個子領域,它使人類能夠與機器交談。 同樣,NLP 是人工智能的子集,它使計算機能夠理解、解釋和處理人類語言並執行特定任務。 在 NLP 的幫助下,計算機可以檢測短語和關鍵字,感知語言意圖,並準確翻譯以生成適當的響應。
Q3。 NLP 是一個好的職業領域嗎?
近年來,NLP 已發展成為數據科學和人工智能領域的一項革命性技術。 智能設備使用的增加、雲解決方案的採用以及 NLP 應用程序的開發以增強客戶服務體驗是 NLP 市場突然擴張的主要因素。 研究表明,NLP 是 2021 年需求量最大的七種技術技能之一,其市場規模預計將超過 340 億美元,複合年增長率接近 22%。 在美國,NLP 專業人員的平均年薪約為 80,000 至 110,000 美元。