Terbaru - Pemodelan Topik Film Di Twitter Menggunakan Latent Dirichlet Allocation

Pemodelan Topik Film di Twitter memakai Latent Dirichlet Allocation

Andri Imanudin

Abstrak - Film merupakan industri kreatif yang berkembang dari waktu ke waktu, bahkan dari satu judul film saja terkadang mampu dijadikan beberapa sekuel. Akan tetapi tidak serta merta suatu film dibuatkan sekuelnya begitu saja. Setiap industri film perlu memastikan terlebih dahulu apakah suatu film layak untuk dibuatkan sekuelnya atau tidak. Apakah masyarakat masih membicarakannya atau topik apa yang mereka bahas sehabis penayangan film tersebut. Hal ibarat ini tentunya akan menimbulkan banyak kesulitan, serta menghabiskan banyak waktu jikalau dilakukan secara manual. Maka dari itulah dibutuhkan suatu teknik untuk melakukannya. Pemodelan topik yaitu teknik untuk menemukan kumpulan kata-kata yaitu topik dari sekelompok dokumen yang mewakili informasi dalam sekelompok dokumen tersebut. Sekelompok dokumen dapat diperoleh dari kumpulan data interaksi dalam media sosial, yang dalam hal ini ialah twitter. 

Keywords – Pemodelan Topik, Latent Dirichlet Allocation, Data Science

I. PENDAHULUAN

Film merupakan industri kreatif yang berkembang dari waktu ke waktu, bahkan dari satu judul film saja terkadang bisa dijadikan beberapa sekuel. Hal ini terjadi lantaran banyaknya masyarakat yang menantikan kelanjutan cerita dari suatu film yang telah ditontonya. Akan tetapi tidak serta merta suatu film dibuatkan sekuelnya begitu saja. Setiap industri film perlu memastikan terlebih dahulu apakah suatu film layak untuk dibuatkan sekuelnya atau tidak. 

Para pemilik industri film sanggup melihatnya dari rating atau hal lain ibarat review dan status media umum yang sanggup mewakili pendapat masyarakat terkait film yang telah mereka produksi. Apakah masyarakat masih membicarakan film tersebut, seberapa sering dan apa yang mereka bahas atau topik apa yang mereka bahas dalam pembicaraan tersebut. Hal seakan-akan ini akan menimbulkan banyak kesulitan, serta menghabiskan banyak waktu kalau dilakukan secara manual. Maka dari itulah dibutuhkan suatu teknik khusus yang sanggup memudahkan dalam melakukannya. Pemodelan topik ialah teknik untuk menemukan kumpulan kata-kata yaitu topik dari sekelompok dokumen yang mewakili informasi dalam sekelompok dokumen tersebut. Sekelompok dokumen dapat diperoleh dari kumpulan data interaksi dalam media umum, yang dalam hal ini adalah twitter. 

Dengan memakai kata kunci (hastag) #InfinityWars dan #InfinityWar yang sering dituliskan setiap pengguna menciptakan tweet terkait film  Avenger : Infinity War yang telah ditontonnya kita dapat menganalisa apakah mereka masih membicarakannya, seberapa sering dan apa yang bekerjsama mereka bicarakan atau topik apa yang mereka bicarakan sesudah penayangan film tersebut.

II. DASAR TEORI

Beberapa langkah yang diperlukan dalam melakukan Pemodelan Topik di Twitter menggunakan LDA mirip Data Aquicition dengan melakukan web scraping, Data Preparation dengan melaksanakan preprocessing dan melaksanakan analisis data dengan memakai algoritma Latent Dirichlet Allocation, serta melaksanakan Visualization untuk menggambarkan hasil dari pemodelan topik tersebut

A. Data Aquicition

Suatu tahapan untuk pengumpulan informasi dalam hal ini berupa data twitter dengan memakai teknik web scraping, yakni teknik yang dipakai untuk mengambil isi sebuah halaman web dalam hal ini twitter secara spesifik, misalnya link tweet, isi tweet atau sejenisnya.

B. Data Preparation

Tahap penyiapan suatu data mentah, menjadi data berkualitas yang siap diolah, dengan melaksanakan beberapa tahap pre-processing seolah-olah :
  • Case Folding : mengubah keseluruhan data menjadi bentuk standar (huruf kecil atau lowercase)
  • Filtering : melakukan penyaringan data untuk mendapatkan kata-kata yang penting dengan melaksanakan stopword removal atau penghapusan kata-kata yang tidak memiliki makna atau kata-kata yang tidak penting, punctuation filtering atau peniadaan tanda baca
  • Lemmatization : menghapus imbuhan dalam kata sehingga kata tersebut menjadi kata dasarnya
  • Tokenizing : melaksanakan split atau memisahkan seluruh kata yang ada menjadi list kata.

C. Analisis Data

Melakukan analisis terhadap data yang telah siap untuk diolah dengan melaksanakan ekstrasi fitur yang terkandung didalamnya mencakup :
  • Dictionary : memastikan setiap kata unik memperoleh index
  • Bag of word : menghitung frekuensi kemunculan setiap kata yang ada. 

Hingga selanjutnya barulah melaksanakan pemodelan topik menggunakan 
  • Latent Dirichlet Allocation : model Bayesian Hirarki yang memandang suatu dokumen sebagai kombinasi dari topik-topik yang berbeda. Dimana setiap dokumen diasumsikan memiliki sekelompok topik yang ditugaskan untuk membentuk dokumen tersebut.

D. Visualization

Melakukan visualiasi yang sanggup menggambarkan isi dari data seperti
  • Barchart : menampilkan fluktuasi jumlah tweet perhari selama rentang waktu tertentu sesudah penayangan film
  • WordCloud : menampilkan kata-kata yang menyusun suatu topik tertentu 
  • Nearest Interpolations : menggambarkan kedekatan kata dalam masing-masing topik

III. PERANCANGAN SISTEM

Perancangan sistem untuk pemodelan topik dilakukan memakai bahasa pemrograman python 3 pada Jupyter Notebook dan memakai algoritma pemodelan topik yakni Latent Dirichlet Allocation dengan tahapan sebagai berikut

A. Pengumpulan Data

Data dikumpulkan dengan melaksanakan twitter scraping pada Jupyter Notebook melalui library tweepy memakai kata kunci (hastag) #InfinityWars dan #InfinityWar dengan mengambil atribut berupa tanggal tweet dibentuk, nama pemilik tweet, jumlah re-tweet dari tweet tersebut, jumlah favorit dari tweet tersebut, isi dari tweet tersebut dan lokasi tweet tersebut dibentuk.

Gambar.1 Twitter Scraping dengan library tweepy

B. Preprocessing Data

Pada tahap ini dilakukan beberapa hal seperti Case Folding, Filtering, Lemmatization dan Tokenizing hingga data siap untuk dilakukan pengolahan ditahap berikutnya

Gambar.2 Proses Case Folding
Gambar.3 Proses Filtering, Lemmatization dan Tokenizing

C. Feature Extraction

Melakukan ekstrasi fitur dalam bentuk dictionary untuk memastikan setiap kata mendapat index, yang selanjutnya akan direpresentasikan dalam bentuk bag of word untuk mengetahui frekuensi kemunculan dari masing-masing kata. Ekstrasi fitur ini dilakukan dengan menggunakan library genism

Gambar.4 Proses Dictionary dan Bag of Word

D. Pemodelan Topik

Pemodelan topik dilakukan dengan LDA (Latent Dirichlet Allocation) memakai library gensim dengan penentuan jumlah passes, topik dan kata penyusun topik ditentukan secara manual yakni secara urut 50, 5 dan 10.

Gambar.5 Proses Pemodelan Topik dengan LDA
Untuk cuilan hasil pada artikel berikutnya yaa, admin ngantukk banget wkwk



Belum ada Komentar untuk "Terbaru - Pemodelan Topik Film Di Twitter Menggunakan Latent Dirichlet Allocation"

Posting Komentar

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel