Terjemahan Mesin di NLP: Contoh, Aliran & Model

Diterbitkan: 2021-01-21

Daftar isi

pengantar

Ada lebih dari 6.500 bahasa yang diakui di dunia. Dirasakan perlu waktu untuk memahami sumber tertulis lintas budaya. Dalam upaya itu, banyak buku tua diterjemahkan ke dalam bahasa lokal dan disimpan untuk referensi.

Sansekerta, misalnya, bahasa kuno warisan Hindu dikatakan memiliki banyak informasi tentang zaman kuno. Ini karena sangat sedikit yang tahu bahasa Sansekerta. Hal ini mungkin bergantung pada beberapa mekanisme untuk mencari informasi dari kitab suci dan manuskrip.

Sering kali kita ingin komputer memahami bahasa alami. Hal yang baik tentang komputer adalah mereka dapat menghitung lebih cepat daripada kita manusia. Namun, tantangan mempelajari bahasa alami sangat sulit untuk ditiru pada model komputasi.

Mesin penerjemah

Istilah 'terjemahan mesin' (MT) mengacu pada sistem komputerisasi yang bertanggung jawab untuk menghasilkan terjemahan dengan atau tanpa bantuan manusia. Ini tidak termasuk alat terjemahan berbasis komputer yang mendukung penerjemah dengan menyediakan akses ke kamus online, bank data terminologi jarak jauh, transmisi dan penerimaan teks, dll.

Sebelum era teknologi AI, program komputer untuk terjemahan otomatis teks dari satu bahasa ke bahasa lain dikembangkan. Dalam beberapa tahun terakhir, AI telah ditugaskan untuk membuat terjemahan otomatis atau mesin dari fluiditas dan fleksibilitas skrip, dialek, dan variasi bahasa manusia. Terjemahan mesin menantang mengingat ambiguitas yang melekat dan fleksibilitas bahasa manusia.

Apa itu NLP?

Natural Language Processing (NLP) merupakan salah satu cabang dalam penyebaran teknologi Artificial Intelligence (AI). Disiplin ini berkaitan dengan penciptaan model komputasi yang memproses dan memahami bahasa alami. Model NKP pada dasarnya membuat komputer memahami pengelompokan semantik objek (misalnya, kata "kucing dan anjing" secara semantik sangat mirip dengan kata "kucing dan kelelawar"), text to speech, menerjemahkan bahasa, dan sebagainya.

Natural Language Processing (NLP) membuat sistem komputer menggunakan, menafsirkan, dan memahami bahasa manusia dan ucapan verbal, seperti bahasa Inggris, Jerman, atau "bahasa alami" lainnya. Berbagai aplikasi NLP terlihat dalam praktik hari ini.

Mereka biasanya dikelompokkan dalam kasus penggunaan masing-masing, seperti pengenalan suara, sistem dialog, pencarian informasi, penjawab pertanyaan, dan terjemahan mesin telah mulai membentuk kembali cara orang mengidentifikasi, mengambil, dan memanfaatkan sumber daya informasi.

Contoh NLP

Sistem pengenalan suara/ucapan, atau sistem kueri seperti Siri, mengerjakan pertanyaan dan mengembalikan jawaban. Di sini Anda memasukkan suara ke komputer, dan komputer memahami pesan Anda.
Program komputer yang membaca laporan keuangan dalam bahasa Inggris sederhana dan menghasilkan angka (misalnya, tingkat inflasi).
Portal pekerjaan mengambil detail kandidat dan resume konstruksi otomatis dan lamaran ke pekerjaan yang sesuai dengan keterampilan.
Google Terjemahan memproses teks dalam string input dan memetakannya dengan bahasa untuk menerjemahkannya dengan cepat.
Mesin pencari seperti Google mengembalikan dokumen Anda setelah Anda mengetik kata dari subjek ke dalam kotak pencarian. Misalnya, ketika Anda mencari Tajmahal, Google memberi Anda dokumen yang berisi Tajmahal sebagai artefak dan bahkan merek "Tajmahal". Di sini, sinonim bahasa Inggris dan pola jamak bahasa Inggris dipertimbangkan.

Aliran NLP

Pemrosesan Bahasa Alami adalah sejenis Kecerdasan Buatan. Jika Anda ingin membuat program NLP, Anda dapat mulai menulis aturan seperti "abaikan s di akhir kata". Ini adalah cara lama dalam melakukan sesuatu, dan ini disebut pendekatan "berbasis aturan".

Namun, teknik yang lebih maju menggunakan pembelajaran statistik, di mana Anda memprogram komputer Anda untuk mempelajari pola dalam bahasa Inggris. Jika Anda melakukan ini, Anda bahkan dapat menulis program Anda hanya sekali dan melatihnya untuk bekerja dalam banyak bahasa manusia.

Tujuan NLP adalah membuat bahasa manusia dapat dimengerti sehingga mekanisme terprogram dapat menafsirkan dan memahami manuskrip. Di sini, mekanisme terprogram yang kita sebut mesin, dan manuskripnya adalah skrip bahasa yang diumpankan ke program. Program komputerisasi dengan demikian mengekstrak data linguistik dalam bentuk pengetahuan digital.

Mesin, daripada model pembelajaran statistik, kemudian mengubah atribut bahasa menjadi pendekatan statistik berbasis aturan yang dimaksudkan untuk mengatasi masalah tertentu dan melakukan tugas pemrosesan bahasa.

Dalam banyak sistem yang lebih tua, khususnya yang bertipe 'translasi langsung', komponen analisis, transfer, dan sintesis tidak selalu dipisahkan dengan jelas. Beberapa dari mereka juga mencampur data (kamus dan tata bahasa) dan aturan pemrosesan dan rutinitas.

Sistem baru telah menunjukkan berbagai derajat modularitas, sehingga komponen sistem, data, dan program dapat disesuaikan dan diubah tanpa merusak efisiensi sistem secara keseluruhan. Tahap selanjutnya dalam beberapa sistem terbaru adalah reversibilitas komponen analisis dan sintesis, yaitu, data dan transformasi yang digunakan dalam analisis bahasa tertentu diterapkan secara terbalik saat menghasilkan teks dalam bahasa tersebut. Pelajari lebih lanjut tentang aplikasi pemrosesan bahasa alami.

Evolusi Terjemahan Mesin

Sampai akhir 1980-an, penelitian yang cukup besar dalam terjemahan mesin dilakukan selama fase ini, ketika sistem Terjemahan Mesin Statistik (SMT) pertama dikembangkan.

Secara klasik, sistem berbasis aturan digunakan untuk tugas ini, kemudian diganti pada 1990-an dengan metode statistik. Baru-baru ini, model jaringan saraf dalam tiba untuk mencapai hasil mutakhir di bidang yang secara tepat disebut sebagai terjemahan mesin saraf.

Terjemahan mesin statistik menggantikan sistem berbasis aturan klasik dengan model yang belajar menerjemahkan dari contoh.

Model terjemahan mesin saraf cocok dengan satu model, bukan saluran yang disempurnakan dan saat ini mencapai hasil yang canggih. Sejak awal 2010-an, bidang ini kemudian sebagian besar meninggalkan metode statistik dan kemudian beralih ke jaringan saraf untuk pembelajaran mesin.

Beberapa keberhasilan awal yang menonjol pada metode statistik di NLP tiba dalam terjemahan mesin, dimaksudkan untuk bekerja di IBM Research. Sistem ini mampu mengambil keuntungan dari badan tekstual multibahasa yang ada yang diproduksi oleh Parlemen Kanada dan Uni Eropa sebagai hasil dari undang-undang yang membutuhkan terjemahan dari semua proses pemerintah ke dalam berbagai bahasa resmi dari sistem pemerintah yang sesuai.

Namun, banyak sistem lain bergantung pada korpora yang secara khusus dikembangkan untuk tugas-tugas yang diterapkan oleh sistem ini, yang merupakan dan terus menjadi batasan utama untuk pengembangan sistem. Oleh karena itu, kebutuhan untuk banyak penelitian muncul dalam metode pembelajaran yang efektif dari data yang terbatas.

Misalnya, istilah Neural Machine Translation (NMT) menekankan bahwa pendekatan berbasis pembelajaran mendalam untuk terjemahan mesin secara langsung mempelajari transformasi urutan-ke-urutan, meniadakan kebutuhan akan langkah-langkah perantara seperti penyelarasan kata dan pemodelan bahasa yang digunakan dalam terjemahan mesin statistik. (SMT). Google mulai menggunakan model seperti itu dalam produksi untuk Google Terjemahan pada akhir 2016.

Urutan ke Model Urutan

Biasanya, model urutan-ke-urutan terdiri dari dua bagian; pertama, encoder , dan kedua, decoder. Mereka adalah dua model jaringan saraf yang berbeda yang bekerja bersama sebagai satu jaringan besar.

Bagian decoder dari model kemudian menghasilkan urutan yang dipetakan dalam output. Decoder mengenkripsi string dan menambahkan makna pada urutan dalam representasi. Pendekatan encoder-decoder, untuk terjemahan mesin saraf, mengkodekan seluruh string input kalimat menjadi vektor panjang terbatas dari mana terjemahan akan diterjemahkan.

Secara umum, fungsi jaringan encoder adalah membaca dan menganalisis urutan input untuk membuat makna dan kemudian menghasilkan representasi dimensi kecil dari string input. Model kemudian meneruskan representasi ini ke jaringan decoder.

Encoder – Decoder LSTM adalah jaringan saraf berulang yang dirancang untuk mengatasi masalah urutan-ke-urutan, kadang-kadang disebut seq2seq. Long short-term memory (LSTM) adalah arsitektur jaringan saraf tiruan berulang (RNN) yang digunakan dalam pembelajaran mendalam.

Misalnya, ketika string dalam urutan input adalah “Tempat apa ini”, maka setelah urutan input ini diuraikan melalui jaringan encoder-decoder mensintesis string menggunakan blok LSTM (sejenis arsitektur RNN). Dekoder kemudian menghasilkan kata-kata dalam urutan di setiap langkah iterasi dekoder.

Setelah loop total iterasi, urutan output dibangun, katakan sesuatu seperti "Tempat ini adalah Pune." Jaringan LSTM dibuat sesuai untuk mengklasifikasikan berdasarkan aturan, menganalisis untuk memproses input dan membuat prediksi menggunakan contoh data yang dilatih.

Model Perhatian

Model "Perhatian", yang sangat meningkatkan kualitas sistem terjemahan mesin. Perhatian memungkinkan model untuk fokus pada bagian yang relevan dari urutan input sesuai kebutuhan.

Model perhatian berbeda dari model urutan-ke-urutan klasik dalam dua cara utama:

Encoder mengirimkan lebih banyak data ke decoder. Alih-alih melewati status tersembunyi terakhir tahap pengkodean, pembuat enkode meneruskan semua status tersembunyi ke dekoder.
Dekoder perhatian melakukan langkah ekstra sebelum menghasilkan outputnya.

Model Transformator

Perhitungan sekuensial tidak dapat diparalelkan karena kita harus menunggu langkah sebelumnya selesai sebelum melanjutkan ke langkah berikutnya. Ini memperpanjang waktu pelatihan dan waktu yang dibutuhkan untuk menjalankan inferensi. Salah satu cara mengatasi dilema sekuensial adalah dengan menggunakan Convolutional Neural Networks (CNNs) daripada RNNs. Trafo adalah model yang menggunakan perhatian untuk meningkatkan kecepatan. Lebih khusus lagi, menggunakan perhatian diri. Di sini, setiap encoder terdiri dari dua lapisan:

Perhatian diri
Jaringan Neural Feed Forward

Transformer menggunakan Convolutional Neural Networks bersama dengan model perhatian untuk terjemahan mesin. Transformer adalah jenis arsitektur jaringan saraf yang telah mendapatkan popularitas. Transformer baru-baru ini digunakan oleh OpenAI dalam model bahasa mereka dan baru-baru ini digunakan oleh DeepMind untuk AlphaStar, program mereka untuk mengalahkan pemain Starcraft profesional top. Transformers mengungguli model Google Neural Machine Translation dalam tugas-tugas tertentu.

Kesimpulan

Singkatnya, mekanisme self-attention dalam sistem memungkinkan varians input untuk berinteraksi satu sama lain (“self”) dan memungkinkan mereka memutuskan siapa yang harus mereka beri perhatian lebih (“attention”). Output yang diproses dengan demikian merupakan kumpulan dari interaksi ini dan dibobot dengan skor perhatian.

Pemahaman mendasar tentang MT di NLP membantu analis data dan ilmuwan data mempersiapkan diri untuk melakukan proyek bergengsi yang melibatkan proyek dalam disiplin NLP AI. Kursus pelatihan dalam subjek, oleh penyedia seperti upGrad , membantu mengambil perjalanan ke depan. Brand upGrad adalah platform pendidikan tinggi online yang menyediakan berbagai macam program yang relevan dengan industri yang siap untuk memimpin kesuksesan profesional Anda.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin & AI, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, Status Alumni IIIT-B, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Pelajari Kursus ML dari Universitas top Dunia. Dapatkan Master, PGP Eksekutif, atau Program Sertifikat Tingkat Lanjut untuk mempercepat karier Anda.

Q1. Apa saja jenis terjemahan mesin di NLP?

Terjemahan mesin, juga dikenal sebagai interpretasi robot, adalah proses di mana komputer atau mesin secara mandiri dan cepat menerjemahkan teks dalam jumlah besar dari bahasa sumber tertentu ke bahasa target tanpa upaya apa pun yang dilakukan oleh manusia. Dengan kata lain, terjemahan mesin berfungsi dengan menggunakan aplikasi yang membantu menerjemahkan teks dari satu bahasa input ke bahasa lainnya. Ada empat jenis terjemahan mesin di NLP: terjemahan mesin statistik, terjemahan mesin berbasis aturan, terjemahan mesin hybrid, dan terjemahan mesin saraf. Keuntungan utama dari terjemahan mesin adalah pengiriman kombinasi yang efektif dari kecepatan dan efektivitas biaya.

Q2. Apakah NLP sama dengan AI?

Seperti yang dikatakan beberapa ahli, AI pada dasarnya adalah replikasi terkomputerisasi dari kecerdasan manusia, yang dapat diatur untuk membuat keputusan, menjalankan operasi tertentu, dan belajar dari hasilnya. Dan ketika Anda memfokuskan AI pada linguistik manusia, itu menghasilkan NLP. Jadi, NLP adalah subbidang AI, yang memberdayakan manusia untuk berbicara dengan mesin. Sekali lagi, NLP adalah bagian dari AI yang memungkinkan komputer untuk memahami, menafsirkan, dan memproses bahasa manusia dan melakukan tugas-tugas tertentu. Dengan bantuan NLP, komputer dapat mendeteksi frasa dan kata kunci, merasakan maksud bahasa, dan menerjemahkannya secara akurat untuk menghasilkan respons yang sesuai.

Q3. Apakah NLP merupakan bidang karir yang bagus?

NLP telah berkembang sebagai teknologi revolusioner di bidang ilmu data dan AI selama beberapa waktu terakhir. Peningkatan penggunaan perangkat cerdas, adopsi solusi cloud, dan pengembangan aplikasi NLP untuk meningkatkan pengalaman layanan pelanggan adalah kontributor utama ekspansi mendadak di pasar NLP. Studi menunjukkan bahwa NLP adalah salah satu dari tujuh keterampilan teknis dengan permintaan tertinggi pada tahun 2021, dengan ukuran pasarnya diperkirakan akan melampaui $34 miliar dengan CAGR hampir 22 persen. Gaji rata-rata profesional NLP adalah sekitar $80.000 hingga 110.000 per tahun di AS.