Teknologi Memahami Teks Tweet Bahasa Melayu

by Siti Noor Allia Noor Ariffin & Sabrina Tiun

Publisher - Penerbit UKM

Category - General Academics

Tugas mesin memahami sesuatu bahasa bukanlah mudah, terutamanya bahasa yang kaya dengan morfologi seperti Bahasa Melayu. Proses pembacaan dan pemahaman teks bahasa ini adalah sangat kompleks. Hal ini disebabkan oleh kewujudan teks yang tidak mengikut peraturan tatabahasa yang betul, seperti teks yang ditulis dalam media sosial. Kepentingan bahasa mula melonjak naik apabila beberapa sektor industri mula menghasilkan ejen perbualan (chatbots) seperti Alexa, Siri, Google Assistant dan Microsoft Chatbot Ruuh untuk berinteraksi dengan pelanggan mereka, dan Bahasa Melayu tidak terkecuali daripada menerima tempias kehendak teknologi ini. Namun, di sebalik permintaan industri teknologi yang tinggi untuk memahami bahasa secara automatik, terutamanya bahasa penulisan media sosial, kajian Bahasa Melayu masih jauh ketinggalan untuk memenuhi kehendak ini. Kajian yang diutarakan dalam buku ini adalah antara usaha untuk mengisi jurang tebut. Dua teknologi Bahasa Melayu yang diketengahkan dalam kajian ini adalah pertama, menghasilkan algoritma normalisasi teks yang meneutralkan perkataan dalam teks media sosial Bahasa Melayu (seperti tweets) kepada perkataan (atau ejaan) formal. Adanya algoritma normalisasi teks ini membolehkan proses mesin memahami bahasa slang dalam teks media sosial menjadi lebih mudah. Kedua, pembinaan model algoritma penanda golongan kata dapat membantu mesin dalam memahami makna sesuatu perkataan. Kedua-dua teknologi ini diterangkan dengan terperinci berserta cebisan kod Python, senarai set golongan kata dan peraturan normalisasi yang ditambah baik. Perbincangan mengenal masalah bahasa slang pada teks media sosial dan cadangan penyelesaian bahasa seperti peraturan normalisasi teks dan anotasi korpus golongan kata boleh dijadikan bahan rujukan tambahan terutama sekali bagi komuniti penyelidik bidang pemprosesan bahasa tabil, dan komuniti yang melakukan penyelidikan dalam bidang Bahasa Melayu seperti penyelidik linguistik mahupun penyelidik kemanusiaan digital. Akhir sekali, buku ini boleh dijadikan sebagai bacaan umum melalui perkongsian mengenai teknologi pemprosesan Bahasa Melayu yang terkini.

Please login to borrow the book. Preview