Mendeteksi Review Palsu

Ulasan produk dan layanan memainkan peran penting dalam membuat keputusan-keputusan pembelian. Di zaman sekarang, ketika kita dihadapkan dengan banyak pilihan, review atau testimoni berdasarkan pembelian pengunjung membantu kita mempersempit pilihan dan membuat keputusan berdasarkan kebutuhan kita. Hal ini terutama bersifat online, mana ulasan yang mudah diakses. Beberapa perusahaan di indonesia yang menggunakan berbasis review yang sangat menonjol adalah Tokopedia, Lazada, FJB Kaskus, dan Bukalapak, untuk beberapa nama lainnya. Dari sudut pandang bisnis, review positif dapat mengakibatkan keuntungan keuangan yang signifikan. Ini juga menyediakan kesempatan untuk penipuan, yang mana ulasan palsu dapat dihasilkan untuk mengumpulkan pendapat positif tentang suatu produk, atau untuk buruk beberapa bisnis atau produk. Untuk memastikan kredibilitas ulasan yang diposting pada platform, sangat penting untuk menggunakan model mendeteksi yang kuat. Dalam posting ini, kita akan berbicara tentang beberapa metode untuk mendeteksi ulasan palsu. Model-model yang dibahas di sini terbagi dalam tiga kategori: Textbased, Sentimentbased dan Userbased

Text-based Model(Model Berbasis Text)

Pendekatan ini untuk mengklasifikasikan ulasan palsu dan tidak palsu, ini sangat mirip dengan ide-ide yang digunakan dalam spam-klasifikasi. Dengan membuat fitur n-gram linguistik dan menggunakan supervised learning alogrithm seperti Bayes naif atau SVM, yang dapat membangun model klasifikasi. Pendekatan ini, tentu saja, bergantung pada asumsi bahwa ulasan palsu dan bebas-palsu terdiri dari kata-kata dengan frekuensi yang berbeda secara signifikan. Dalam kasus spammer mempunyai sedikit pengetahuan tentang produk, atau mereka tidak memiliki minat yang tulus dalam menulis review (misalnya, spammer murah dibayar), ada lebih banyak kesempatan mereka menciptakan ulasan berlatar berbeda dari yang tidak palsu.

Kita tidak punya alasan untuk percaya bahwa para spammer tidak akan berhati-hati untuk membuat ulasan berlatar serupa dengan yang asli, atau memiliki kecenderungan kuat untuk menulis pendapat palsu. Dalam hal ini, model berbasis teks yang murni tidak akan berhasil. Kita akan perlu untuk memasukkan informasi lebih lanjut.

Fitur lanjutan:

  • Panjang Review: bahkan jika seorang spammer mencoba untuk menggunakan kata-kata yang mirip dengan ulasan nyata, ia mungkin tidak menghabiskan banyak waktu di menulis tinjauan. Dengan demikian, panjang palsu-Review lebih kecil daripada ulasan lain dari produk yang sama. Kurangnya pengetahuan domain juga meningkatkan kemungkinan peninjauan lebih pendek. Juga, itu bisa terjadi bahwa para spammer mencoba berlebihan pekerjaannya dan menulis review lagi.
  • Deviasi(penyimpangan) dari rata-rata rating: ada probabilitas tinggi untuk meninjau spam untuk menyimpang dari rating konsensus umum untuk produk atau layanan.

Sentiment-based Model(Model berbasis sentimen)

Karena ulasan palsu diciptakan untuk meningkatkan opini positif atau menodai citra, ulasan ini harus kuat dengan adanya sentimen positif atau negatif. Oleh karena itu, sentimen analisis review dapat menjadi alat yang penting untuk memisahkan spam ulasan. Meskipun lebih canggih, sentimen analisis metode dapat digunakan, model AFINN statis harus memberikan akurasi yang tinggi karena berisi nilai sentimen untuk istilah, proyek yang sangat tinggi dan rendah sentimen, dan kata-kata seperti itu akan menjadi sangat menonjol dalam ulasan palsu. Beberapa kata-kata ini termasuk 'baik', 'hebat', 'awesome', 'luar biasa', 'buruk', 'mengerikan', 'berguna', 'buruk', dan seterusnya. Dalam AFINN model, penulis telah dihitung sentimen Partitur untuk daftar kata-kata. Menghitung sentimen review berdasarkan nilai sentimen persyaratan di review. Sentimen review didefinisikan untuk menjadi sama dengan jumlah dari nilai sentimen untuk setiap istilah dalam review. AFINN adalah daftar kata-kata bahasa Inggris yang dinilai untuk valence dengan nilai integer antara -5 dan 5. Kata-kata memiliki manual dicap oleh Finn Arup Neilsen pada 2009-2010.

Jika para spammer membuat upaya untuk meyakinkan suara dengan menggunakan kata-kata yang memiliki tinggi sentimen positif atau negatif, model ini dapat menjadi sangat sukses.

Bahkan jika rating numerik dari para spammer tidak menyimpang jauh dari konsensus umum, ulasan teks akan menjadi sangat positif. Dalam kasus tersebut, sentimen Partitur review dapat menjelaskan masalah mendeteksi ulasan palsu, misalnya, Anda dapat menghitung nilai sentimen semua tinjauan bintang 5 dan melihat apakah beberapa review memiliki nilai sentimen yang sangat tinggi.

Model berbasis pengguna(User-based Model)

Model berbasis pengguna menegaskan bahwa pengguna spamming menampilkan perilaku yang tidak normal, dan mungkin untuk mengelompokkan pengguna sebagai spammer dan bukan spammer. Informasi pengguna yang dapat diekstrak dari profil umum mereka. Fitur relevan termasuk:

  • Jumlah Tinjauan: seorang spammer kemungkinan untuk membuat banyak ulasan, dan ini dapat digunakan untuk mengidentifikasi pengulas palsu. Sebagian besar pengguna membuat tidak lebih dari 1 tinjauan setiap hari.
  • Tinjauan panjang rata-rata: seperti disebutkan sebelumnya, seorang spammer tidak akan menginvestasikan banyak waktu dalam menciptakan ulasan nya (terutama ketika mereka dibayar oleh jumlah menulis ulasannya) dan lebih mungkin untuk membuat pendek ulasan.
  • Jumlah suara positif: sebagian besar ulasan palsu cenderung sangat positif. Yang tinggi persen suara positif yang kuat menunjukkan perilaku yang tidak normal. Tidak palsu pengulas memiliki berbagai tingkat penilaian.
  • Penyimpangan dari pengguna lain: satu dapat menghitung deviasi para spammer dari seluruh pengguna oleh rata-rata atas Semua ulasannya deviasi dari penilaian lain untuk produk yang sama.

Standard learning algorithm, seperti SVM atau Random Forests, fitur ini dapat membuat model klasifikasi untuk pengulas palsu dan bukan pengulas palsu.

Selain fitur ini penting, ada beberapa fitur lain yang dapat diekstraksi dari profil pengguna, yang dapat digunakan dalam mendeteksi ulasan palsu.

  • Informasi geografis: Pengguna yang meninjau lokasi berdasarkan Produk (misalnya, bisnis di Yelp) pada 2 atau lebih lokasi dalam satu hari pasti menunjukkan perilaku yang mencurigakan. Perusahaan kartu kredit menggunakan informasi jenis ini untuk melacak penipuan.
  • Aktivitas: Pada situs sosial (misalnya, Yelp, Foursquare, dan lainnya), aktivitas akun juga dapat menjadi indikator perilaku yang tidak normal. Pengguna dengan teman basis dan yang memposting berbagi check-in di Facebook dan Twitter sebagian besar asli. Pada kenyataannya, menghubungkan account lainnya adalah indikator positif.
  • Suara berguna: Yelp juga memungkinkan para pengguna untuk memilih pada review, dan jumlah orang yang 'menggunakan' suara untuk review juga dapat digunakan untuk mengklasifikasikan spammer dan bukan spammer.
Kesimpulan

Dalam posting ini, kita membahas tiga kategori yang berbeda dari beberapa model untuk mendeteksi ulasan palsu online. Melalui(Text-based Model) text-mining dasar mampu mendeteksi spam ulasan dengan akurasi yang wajar, spammer cerdas akan dapat membuat lebih sulit model ini untuk mengklasifikasikan. Model berbasis sentimen(sentiment-based model) dan perilaku pengguna(user-based model) dapat membantu mencapai akurasi yang lebih baik dalam menyaring ulasan palsu. Kami mengusulkan bahwa kombinasi dari model ini dapat menjadi sangat efektif dalam mendeteksi ulasan palsu.

Referensi

[1] Paul Graham "A plan for spam"

[2] Finn Arup Nielsen Evaluation of a word list for sentiment analysis in microblogs Proceedings of the ESWC2011 Workshop on "Making Sense of Microposts: Big things come in small packages" 718 in CEUR Workshop Proceedings - 93-98. 2011 May

Komentar

Posting Komentar

Postingan populer dari blog ini

Apa sih NFV (Network Function Virtualization) itu ?

Spionase Industri di Dunia Maya (Industrial Espionage in Cyberspace)

Introduction LINE CHATBOT