Posted by : fauzan yafie
Kamis, 17 Januari 2019
Tugas Softskill
Desain Pemodelan Grafik
Fauzan Yafie
Muyassar (52416724)
Muhammad
Maulana Yusuf (54416995)
Ramma
riyantka putra (56416052)
Menerjemahkan Jurnal
corpus based & knowledge based measures of text semantic
similarity-5
UNIVERSITAS GUNADARMA
2019
Abstrak
Makalah ini menyajikan metode untuk
mengukur kesamaan semantik teks, menggunakan langkah-langkah yang berbasis
corpus dan berbasis pengetahuan kesamaan. Pada masalah ini sebelumnya telah
difokuskan terutama pada dokumen yang besar (misalnya teks klasifikasi,
pencarian informasi) atau kata perkata (misalnya perasamaan kata). Mengingat
bahwa sebagian besar informasi yang tersedia saat ini, di Web dan di tempat
lain, terdiri dari potongan teks pendek (misalnya dokumen ilmiah abstrak, keterangan
abstrak, Deskripsi Produk), dalam tulisan ini kita fokuskan pada mengukur
kesamaan semantik teks-teks singkat. Melalui eksperimen dilakukan pada sebuah data set parafrase, kami dapat
menunjukkan bahwa metode kesamaan semantic(semantic
similarity) melebihi metode dari apa yang didasarkan pada pencocokan
leksikal sederhana (simple lexical
matching), mengakibatkan hingga terjadi penurunan sebanyak13% kesalahan
terkait dengan metrik tradisional berbasis vektor kesamaan (the traditional vector-based similarity
metric).
Inti
dari isi jurnal
Mengetahui
hasil Pengukuran kesamaan simantik antara basis corpus dengan basis pengetahuan
Metode
yang digunakan
Linguistik korpus
adalah metode linguistik yang menggunakan data dari bahan-bahan bahasa yang
terkumpul dalam suatu sumber yang disebut korpus atau korpora (sejenis
"bank" bahasa) yang berasal dari penggunaan bahasa dalam berbagai
genre, ragam, dan bahan lisan maupun tertulis yang menjamin keragaman yang
seluas-luasnya dan menghindari penggunaan bahasa yang sangat sempit seperti
idiolek. Data tersebut disusun secara sistematis dan biasanya mudah diakses
secara elektronis dengan komputer. Metode ini digunakan dalam linguistik
deskriptif maupun linguistik terapan, seperti penyusunan kamus, untuk menjamin
bahwa data yang digunakan benar-benar berasal dari penggunaan yang luas dan
terhindar dari penggunaan subjektif. (Harimurti Kridalaksana (2008). Kamus
Linguistik (edisi ke-4). Jakarta: Gramedia Pustaka Utama. ISBN
978-979-22-3570-8.)
Kelebihan
Metode
berbasis corpus memiliki keuntungan bahwa tidak memerlukan cara manual dengan
tangan dan, terpisah dari pilihan Corpus yang sesuai dan besar, metode ini
tidak ada masalah yang berkaitan dengan kelengkapan sumber daya. Di sisi lain,
metode berbasis pengetahuan dapat menyajikan informasi yang tepat. Perbedaan
ini dapat diamati dalam hal ketepatan dan mengingat. Faktanya, walaupun
ketepatan langkah-langkah pada metode berbasi pengetahuan lebih tinggi akan
tetapi langkah-langkah yang berbasi corpus memberikan secara umum kinerja yang
lebih baik dalam mengingat.
Kekurangan
Masih
belum sempurna untuk mengetahui kesamaan simantik secara keseluruhan teks
Kesimpulan
Ternyata,
menggabungkan informasi simantik ke ukuran text meningkatkan kemungkinan secara
signifikan secara dasar dan atas dasar kesamaan kosinus berbasis vector, diukur
dalam tugas pengelanan paraphrase. Kinerja terbaik dicapai dengan menggunakan
metode yang menggabungkan beberapa kesamaan metric menjadi 1, untuk akurasi
keseluruhan 70,3% mewakili pengurangan tingkat kesalahan 13,8% yang signifikan sehubungan
dengan garis dasar kesamaan cosinus berbasis vektor. Selain itu, jika kita
mempertimbangkan kenaikan 83% yang ditetapkan oleh perjanjian antar anotator
yang dicapai pada data set ini
(Dolan, Quirk, & Brockett 2004), pengurangan tingkat kesalahan pada data
awal menampilkan jauh lebih signifikan.
Saran/pengembangan
berikutnya
Meskipun
metode kami bergantung pada pendekatan kata-perkata,karena ternyata penggunaan
ukuran kesamaan semantik meningkatkan secara signifikan atas metrik pencocokan
leksikal tradisional. Meskipun demikian kami sadar bahwa pendekatan kata-perkata
mengabaikan banyak hubungan penting dalam struktur kalimat, seperti
ketergantungan antara kata-perkata, atau peran yang dimainkan oleh berbagai
argumen dalam kalimat. Pekerjaan di masa depan akan mempertimbangkan
penyelidikan representasi yang lebih canggih dari struktur kalimat, seperti logika
sususan predikat pertama atau pohon parse semantik, yang harus memungkinkan
untuk penerapan ukuran yang lebih efektif dari kesamaan teks semantic.