Selasa, 08 November 2016

PENGAMBILAN INFORMASI



Pengambilan informasi (IR) merupakan suatu pencarian informasi yang biasanya berupa dokumen-dokumen yang relevan dengan kebutuhan pengguna informasi sehingga dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Contoh yang paling sering digunakan dalam sistem pengambilan informasi adalah search engine pada World Wide Web. Pengguna Web dapat mengetikkan query seperti [AI buku] ke search engine dan melihat daftar halaman yang relevan. Pada bagian ini, kita akan melihat bagaimana sistem tersebut dibangun. Sistem pengembalam informasi selanjutnya (IR) dapat dicirikan oleh:
1.      Korpus dokumen.
Setiap sistem harus ditentukan apa saja yang diperlukan untuk menangani dokumen seperti apakah sebagai paragraf, halaman, atau multipage teks.
2.      Pertanyaan yang diajukan dalam bahasa kueri.
Query menentukan apa yang ingin diketahui user. Bahasa kueri dapat hanya daftar kata-kata, seperti [AI buku]; atau dapat menentukan susunan kata-kata yang harus berdekatan.
3.      Kumpulan Hasil.
Ini merupakan bagian dari dokumen dimana sistem IR harus mempertimbangkan relevan dengan query. Dengan kata lain relevan dapat diartikan sebagai sesuatu yang digunakan oleh pemilik query, untuk informasi khusus yang dibutuhkan untuk ekspresi query.
4.      Presentasi dari kumpulan hasil.
Dalam presentasi yang didapat dari kumpulan hasil  dapat sesederhana daftar ranking dari judul dokumen atau rumit seperti peta warna yang berputar dari kumpulan hasil yang diproyeksikan ke 3 dimensi, digambarkan dalam dispaly 2 dimensi.


Pada awalnya sistem IR bekerja menggunakan Model Kunci Boolean. Setiap kata di dalam kumpulan dokumen diperlakukan sebagai fitur Boolean itu benar dokumen, jika kata muncul dalam dokumen tersebut dan salah, jika kata tidak muncul dalam dokumen. Jadi fitur IR ini berlaku untuk bab saat ini tetapi tidak untuk Bab 15. Bahasa query adalah bahasa ekspresi dari fitur Boolean. Dokumen yang relevan hanya terjadi jika ekspresi mengevaluasi itu benar. Misalnya, permintaan [informasi DAN pengambilan] benar untuk bab saat ini dan tidak untuk Bab 15. Model ini memiliki keuntungan yaitu menjadi sederhana dalam menjelaskan dan menerapkan. Namun, model ini memiliki beberapa kelemahan. Pertama, tingkat relevansi dokumen sedikit, sehingga tidak mendapat arahan dalam mengatur dokumen agar relevan untuk presentasi. Kedua, ekspresi Boolean tidak terbiasa untuk pengguna yang bukan programmer atau logicians. Pengguna merasa tak jelas dan unintuitive (malas untuk mengamati), misal ketika mereka ingin tahu tentang pertanian di negara bagian Kansas dan Nebraska dan mereka harus mengeluarkan izin [pertanian (Kansas atau Nebraska)]. Ketiga, sulit untuk merumuskan sesuai permintaan, bahkan untuk pengguna ahli. Misalkan kita mencoba [informasi DAN pengambilan DAN model DAN optimasi] dan mendapatkan hasil set. Kita bisa mencoba [informasi OR pengambilan ATAU model OR optimasi], tetapi jika yang mengembalikan hasil terlalu banyak, maka sulit untuk mengetahui apa yang harus dicoba selanjutnya.

22.3.1 Fungsi Penilaian IR
Kebanyakan sistem IR telah meninggalkan Model Boolean dan beralih menggunakan Model Statistik berdasarkan jumlah kata. Fungsi penilaian BM25 berasal dari proyek Okapi Stephen Robertson dan Karen Sparck Jones di London City College yang telah digunakan dalam mesin pencarian atau search engine seperti proyek Lucene open source.
Scoring Function mengambil dokumen dan query yang mengembalikan nilai numeric dalam arti dokumen yang paling relevan memiliki nilai tertinggi. Dalam fungsi BM25, skor sebanding dengan berat kombinasi skor untuk setiap kata yang sesuai dengan query.
Tiga faktor yang sangat mempengaruhi \ query:
1 Frekuensi atau dengan istilah query adalah kata-kata yang muncul dalam dokumen yang cocok dengan query (Persyaratan frekuensi). Misal
Untuk izin [pertanian di Kansas], dokumen yang sering menyebutkan "pertanian" akan memiliki nilai yang lebih tinggi.
2. Kebalikan dari Syarat Frekuensi atau IDF. Kata “dalam” akan sering muncul dalam dokumen, sehingga memilki frekuensi rendah invers dokumen atau dengan kata lain memiliki nilai yang renda (biasanya, itu adalah konektor pada query)
3. Panjang dokumen. Sebuah dokumen berisi jutaan kata-kata yang mungkin untuk menyebutkan semua kata-kata query, tetapi kemungkin itu bukan yang dimaksud dalam query. Sebuah dokumen singkat menguraikan semua kata adalah kandidat yang lebih baik.

Fungsi BM25 menerapkan ketiga factor ini di dalam akun. Yang mana kita berasumsi telah menciptakan indeks dokumen N dan juga di dalam korpus sehingga kita dapat melihat TF (qi, dj) dengan menghitung jumlah kali yang muncul kata qi dalam dokumen dj. Kita juga dapat berasumsi bahwa tabel dokumen frekuensi dihitung, DF (qi), dimana dokumen ini memberikan jumlah kata yang mengandung qi. Setelah itu, mengingat dj dokumen dan query terdiri dari q1:N kata-kata, maka didapat rumus:

Dimana:
·         Di merupakan panjang dokumen (dalam kata)
·         N merupakan jumlah dokumen
·         L merupakan panjang rata-rata dokumen dalam corpus (koleksi dokumen) dengan rumus |Di|/N
·         Ada 2 parameter yaitu k dan b.
Dimana nilai k = 0,2 dan b = 0,75.
·         IDF (qi) adalah invers dari dokumen frekuensi kata Qi, yang diberikan oleh


Tentu saja, menjadi tidak praktis dalam menerapkan fungsi penilaian BM25 untuk setiap dokumen di dalam korpus tersebut. Sebaliknya jika sistem membuat indeks terlebih dahulu dimana terdapat daftar untuk setiap kata kosakata dan dokumen yang berisi kata. Hal ini disebut dengan daftar sasaran kata. Kemudian ketika diberikan query, akan berpotongan dengan daftar sasaran kata dan skor dokumen di persimpangan.

22.3.2 SISTEM EVALUASI IR

Bagaimana kita tahu apakah sistem IR bekerja dengan baik? Kami melakukan percobaan di mana sistem diberikan satu set pertanyaan dan satu set hasil yang dinilai dengan penilaian manusia yang relevan. Secara tradisional, sudah ada dua ukuran yang digunakan dalam penilaian: mengingat dan presisi. Kami menjelaskan dengan bantuan sebuah contoh. Misal bayangkan bahwa sistem IR telah  kembali dengan hasil yang telah ditetapkan untuk permintaan tunggal, yang kita tahu bahwa dokumen-dokumen yang tidak relevan dari korpus sebanyak 100 dokumen. Dokumen penting dalam setiap kategori dicatat di dalam tabel berikut ini:

Presisi mengukur proporsi dokumen di set hasil yang benar-benar relevan. Dalam contoh Presisi, 30 /  (30 + 10) =0.75. Tingkat positif salah adalah 1 − 0.75 =0.25. Ingat mengukur proporsi semua dokumen yang relevan dalam koleksi dengan hasil yang sudah ditetapkan. Dalam contoh, Ingat, 30 / (30 + 20) =0.60. Tingkat negatif salah adalah 1 – 0.60 =0.40. Dalam kumpulan dokumen yang sangat besar, seperti World Wide Web sulit untuk menghitung, karena tidak ada cara yang mudah untuk memeriksa setiap halaman di Web untuk relevansi. Sehingga harus memperkirakan untuk ingat sampling atau menghapus semua ingatan dan hanya menilai presisinya saja. Dalam kasus Web search engine, mungkin ada ribuan dokumen dengan hasil yang telah ditetapkan, sehingga lebih masuk akal untuk mengukur presisi dalam beberapa ukuran yang berbeda, seperti "P@10" (presisi di atas 10 hasil) atau "P@50" dan seterusnya, daripada memperkirakan presisi dalam seluruh hasil yang ditetapkan.
Itu mungkin untuk penawaran dagang dari presisi terhadap ingat dengan memvariasikan ukuran hasil yang telah ditetapkan kembali. Di ujung, sebuah sistem yang mengembalikan setiap dokumen dalam kumpulan dokumen dijamin untuk mengingat 100%, tetapi akan memiliki rendah presisi. Begitu juga sebaliknya, sistem bisa kembali menjadi sebuah dokumen tunggal dan memiliki ingat rendah, tetapi kesempatan yang layak di 100% presisi. Ringkasan langkah-langkah kedua disebut dengan Skor F1, satu nomor yang berarti harmonik presisi dan ingat, dengan rumus 2P R /(P + R).





Tidak ada komentar:

Posting Komentar

REVIEW MAKANAN 9: STEAK HOTEL BY HOLYCOW

Nah kali ini aku makan steak yang bisa dibilang ga mahal-mahal banget dan ga murah-murah banget, apalagi kalau ada promo yang kalian bisa...