Tugas Menerjemahkan Jurnal

Posted by : fauzan yafie Kamis, 17 Januari 2019

Tugas Softskill

Desain Pemodelan Grafik

Fauzan Yafie Muyassar (52416724)

Muhammad Maulana Yusuf (54416995)

Ramma riyantka putra (56416052)

Menerjemahkan Jurnal

corpus based & knowledge based measures of text semantic similarity-5

UNIVERSITAS GUNADARMA

2019

Abstrak

Makalah ini menyajikan metode untuk mengukur kesamaan semantik teks, menggunakan langkah-langkah yang berbasis corpus dan berbasis pengetahuan kesamaan. Pada masalah ini sebelumnya telah difokuskan terutama pada dokumen yang besar (misalnya teks klasifikasi, pencarian informasi) atau kata perkata (misalnya perasamaan kata). Mengingat bahwa sebagian besar informasi yang tersedia saat ini, di Web dan di tempat lain, terdiri dari potongan teks pendek (misalnya dokumen ilmiah abstrak, keterangan abstrak, Deskripsi Produk), dalam tulisan ini kita fokuskan pada mengukur kesamaan semantik teks-teks singkat. Melalui eksperimen dilakukan pada sebuah data set parafrase, kami dapat menunjukkan bahwa metode kesamaan semantic(semantic similarity) melebihi metode dari apa yang didasarkan pada pencocokan leksikal sederhana (simple lexical matching), mengakibatkan hingga terjadi penurunan sebanyak13% kesalahan terkait dengan metrik tradisional berbasis vektor kesamaan (the traditional vector-based similarity metric).

Inti dari isi jurnal

Mengetahui hasil Pengukuran kesamaan simantik antara basis corpus dengan basis pengetahuan

Metode yang digunakan

Linguistik korpus adalah metode linguistik yang menggunakan data dari bahan-bahan bahasa yang terkumpul dalam suatu sumber yang disebut korpus atau korpora (sejenis "bank" bahasa) yang berasal dari penggunaan bahasa dalam berbagai genre, ragam, dan bahan lisan maupun tertulis yang menjamin keragaman yang seluas-luasnya dan menghindari penggunaan bahasa yang sangat sempit seperti idiolek. Data tersebut disusun secara sistematis dan biasanya mudah diakses secara elektronis dengan komputer. Metode ini digunakan dalam linguistik deskriptif maupun linguistik terapan, seperti penyusunan kamus, untuk menjamin bahwa data yang digunakan benar-benar berasal dari penggunaan yang luas dan terhindar dari penggunaan subjektif. (Harimurti Kridalaksana (2008). Kamus Linguistik (edisi ke-4). Jakarta: Gramedia Pustaka Utama. ISBN 978-979-22-3570-8.)

Kelebihan

Metode berbasis corpus memiliki keuntungan bahwa tidak memerlukan cara manual dengan tangan dan, terpisah dari pilihan Corpus yang sesuai dan besar, metode ini tidak ada masalah yang berkaitan dengan kelengkapan sumber daya. Di sisi lain, metode berbasis pengetahuan dapat menyajikan informasi yang tepat. Perbedaan ini dapat diamati dalam hal ketepatan dan mengingat. Faktanya, walaupun ketepatan langkah-langkah pada metode berbasi pengetahuan lebih tinggi akan tetapi langkah-langkah yang berbasi corpus memberikan secara umum kinerja yang lebih baik dalam mengingat.

Kekurangan

Masih belum sempurna untuk mengetahui kesamaan simantik secara keseluruhan teks

Kesimpulan

Ternyata, menggabungkan informasi simantik ke ukuran text meningkatkan kemungkinan secara signifikan secara dasar dan atas dasar kesamaan kosinus berbasis vector, diukur dalam tugas pengelanan paraphrase. Kinerja terbaik dicapai dengan menggunakan metode yang menggabungkan beberapa kesamaan metric menjadi 1, untuk akurasi keseluruhan 70,3% mewakili pengurangan tingkat kesalahan 13,8% yang signifikan sehubungan dengan garis dasar kesamaan cosinus berbasis vektor. Selain itu, jika kita mempertimbangkan kenaikan 83% yang ditetapkan oleh perjanjian antar anotator yang dicapai pada data set ini (Dolan, Quirk, & Brockett 2004), pengurangan tingkat kesalahan pada data awal menampilkan jauh lebih signifikan.

Saran/pengembangan berikutnya

Meskipun metode kami bergantung pada pendekatan kata-perkata,karena ternyata penggunaan ukuran kesamaan semantik meningkatkan secara signifikan atas metrik pencocokan leksikal tradisional. Meskipun demikian kami sadar bahwa pendekatan kata-perkata mengabaikan banyak hubungan penting dalam struktur kalimat, seperti ketergantungan antara kata-perkata, atau peran yang dimainkan oleh berbagai argumen dalam kalimat. Pekerjaan di masa depan akan mempertimbangkan penyelidikan representasi yang lebih canggih dari struktur kalimat, seperti logika sususan predikat pertama atau pohon parse semantik, yang harus memungkinkan untuk penerapan ukuran yang lebih efektif dari kesamaan teks semantic.