Pengambilan informasi (IR) merupakan
suatu
pencarian informasi yang biasanya berupa dokumen-dokumen yang relevan dengan kebutuhan
pengguna informasi sehingga dapat memenuhi keinginan user dari kumpulan dokumen
yang ada. Contoh yang paling sering digunakan dalam sistem pengambilan
informasi adalah search engine pada World Wide Web. Pengguna Web dapat
mengetikkan query seperti [AI buku] ke search engine dan melihat daftar halaman
yang relevan. Pada bagian ini, kita akan melihat bagaimana sistem tersebut
dibangun. Sistem pengembalam informasi selanjutnya (IR) dapat dicirikan oleh:
1.
Korpus dokumen.
Setiap sistem harus ditentukan apa
saja yang diperlukan untuk menangani dokumen seperti apakah sebagai paragraf,
halaman, atau multipage teks.
2.
Pertanyaan
yang diajukan dalam bahasa kueri.
Query
menentukan apa yang ingin diketahui user. Bahasa kueri dapat hanya daftar
kata-kata, seperti [AI buku]; atau dapat menentukan susunan kata-kata yang
harus berdekatan.
3.
Kumpulan
Hasil.
Ini
merupakan bagian dari dokumen dimana sistem IR harus mempertimbangkan relevan
dengan query. Dengan kata lain relevan dapat diartikan sebagai sesuatu yang digunakan
oleh pemilik query, untuk informasi khusus yang dibutuhkan untuk ekspresi
query.
4. Presentasi dari kumpulan hasil.
Dalam
presentasi yang didapat dari kumpulan hasil
dapat sesederhana daftar ranking dari judul dokumen atau rumit seperti
peta warna yang berputar dari kumpulan hasil yang diproyeksikan ke 3 dimensi,
digambarkan dalam dispaly 2 dimensi.
Pada awalnya sistem IR bekerja menggunakan
Model Kunci Boolean. Setiap kata di dalam kumpulan dokumen diperlakukan sebagai
fitur Boolean itu benar dokumen, jika kata muncul dalam dokumen tersebut dan
salah, jika kata tidak muncul dalam dokumen. Jadi fitur IR ini berlaku untuk
bab saat ini tetapi tidak untuk Bab 15. Bahasa query adalah bahasa ekspresi dari
fitur Boolean. Dokumen yang relevan hanya terjadi jika ekspresi mengevaluasi itu
benar. Misalnya, permintaan [informasi DAN pengambilan] benar untuk bab saat ini
dan tidak untuk Bab 15. Model ini memiliki keuntungan yaitu menjadi sederhana
dalam menjelaskan dan menerapkan. Namun, model ini memiliki beberapa kelemahan.
Pertama, tingkat relevansi dokumen sedikit, sehingga tidak mendapat arahan
dalam mengatur dokumen agar relevan untuk presentasi. Kedua, ekspresi Boolean
tidak terbiasa untuk pengguna yang bukan programmer atau logicians. Pengguna
merasa tak jelas dan unintuitive (malas untuk mengamati), misal ketika mereka
ingin tahu tentang pertanian di negara bagian Kansas dan Nebraska dan mereka harus
mengeluarkan izin [pertanian (Kansas atau Nebraska)]. Ketiga, sulit untuk
merumuskan sesuai permintaan, bahkan untuk pengguna ahli. Misalkan kita mencoba
[informasi DAN pengambilan DAN model DAN optimasi] dan mendapatkan hasil set.
Kita bisa mencoba [informasi OR pengambilan ATAU model OR optimasi], tetapi
jika yang mengembalikan hasil terlalu banyak, maka sulit untuk mengetahui apa yang
harus dicoba selanjutnya.
22.3.1
Fungsi Penilaian IR
Kebanyakan sistem IR telah meninggalkan
Model Boolean dan beralih menggunakan Model Statistik berdasarkan jumlah kata. Fungsi
penilaian BM25 berasal dari proyek Okapi Stephen Robertson dan Karen Sparck
Jones di London City College yang telah digunakan dalam mesin pencarian atau
search engine seperti proyek Lucene open source.
Scoring
Function mengambil dokumen dan query yang mengembalikan nilai numeric dalam
arti dokumen yang paling relevan memiliki nilai tertinggi. Dalam fungsi BM25, skor
sebanding dengan berat kombinasi skor untuk setiap kata yang sesuai dengan
query.
Tiga faktor yang sangat mempengaruhi
\ query:
1 Frekuensi atau dengan istilah query adalah kata-kata yang muncul dalam dokumen yang cocok dengan query (Persyaratan frekuensi). Misal Untuk izin [pertanian di Kansas], dokumen yang sering menyebutkan "pertanian" akan memiliki nilai yang lebih tinggi.
1 Frekuensi atau dengan istilah query adalah kata-kata yang muncul dalam dokumen yang cocok dengan query (Persyaratan frekuensi). Misal Untuk izin [pertanian di Kansas], dokumen yang sering menyebutkan "pertanian" akan memiliki nilai yang lebih tinggi.
2.
Kebalikan dari Syarat Frekuensi atau IDF. Kata “dalam” akan sering muncul dalam
dokumen, sehingga memilki frekuensi rendah invers dokumen atau dengan kata lain
memiliki nilai yang renda (biasanya, itu adalah konektor pada query)
3.
Panjang dokumen. Sebuah dokumen berisi jutaan kata-kata yang mungkin untuk
menyebutkan semua kata-kata query, tetapi kemungkin itu bukan yang dimaksud
dalam query. Sebuah dokumen singkat menguraikan semua kata adalah kandidat yang
lebih baik.
Fungsi BM25 menerapkan ketiga factor
ini di dalam akun. Yang mana kita berasumsi telah menciptakan indeks dokumen N dan
juga di dalam korpus sehingga kita dapat melihat TF (qi, dj) dengan menghitung
jumlah kali yang muncul kata qi dalam dokumen dj. Kita juga dapat berasumsi bahwa
tabel dokumen frekuensi dihitung, DF (qi), dimana dokumen ini memberikan jumlah
kata yang mengandung qi. Setelah itu, mengingat dj dokumen dan query terdiri
dari q1:N kata-kata, maka didapat rumus:
Dimana:
·
Di merupakan panjang dokumen (dalam
kata)
·
N merupakan jumlah dokumen
·
L merupakan panjang rata-rata dokumen dalam
corpus (koleksi dokumen) dengan rumus |Di|/N
·
Ada 2 parameter yaitu k dan b.
Dimana nilai k = 0,2 dan b = 0,75.
·
IDF (qi) adalah invers dari dokumen
frekuensi kata Qi, yang diberikan oleh
Tentu saja, menjadi tidak praktis dalam
menerapkan fungsi penilaian BM25 untuk setiap dokumen di dalam korpus tersebut.
Sebaliknya jika sistem membuat indeks terlebih dahulu dimana terdapat daftar
untuk setiap kata kosakata dan dokumen yang berisi kata. Hal ini disebut dengan
daftar sasaran kata. Kemudian ketika diberikan query, akan berpotongan dengan
daftar sasaran kata dan skor dokumen di persimpangan.
22.3.2
SISTEM EVALUASI IR
Bagaimana kita tahu apakah sistem IR
bekerja dengan baik? Kami melakukan percobaan di mana sistem diberikan satu set
pertanyaan dan satu set hasil yang dinilai dengan penilaian manusia yang
relevan. Secara tradisional, sudah ada dua ukuran yang digunakan dalam
penilaian: mengingat dan presisi. Kami menjelaskan dengan bantuan sebuah
contoh. Misal bayangkan bahwa sistem IR telah kembali dengan hasil yang telah ditetapkan
untuk permintaan tunggal, yang kita tahu bahwa dokumen-dokumen yang tidak
relevan dari korpus sebanyak 100 dokumen. Dokumen penting dalam setiap kategori
dicatat di dalam tabel berikut ini:
Presisi mengukur proporsi dokumen di
set hasil yang benar-benar relevan. Dalam contoh Presisi, 30 / (30 + 10) =0.75.
Tingkat positif salah adalah 1 − 0.75 =0.25. Ingat mengukur proporsi semua
dokumen yang relevan dalam koleksi dengan hasil yang sudah ditetapkan. Dalam
contoh, Ingat, 30 / (30 + 20) =0.60.
Tingkat negatif salah adalah 1 – 0.60 =0.40. Dalam kumpulan dokumen yang sangat
besar, seperti World Wide Web sulit untuk menghitung, karena tidak ada cara
yang mudah untuk memeriksa setiap halaman di Web untuk relevansi. Sehingga
harus memperkirakan untuk ingat sampling atau menghapus semua ingatan dan hanya
menilai presisinya saja. Dalam kasus Web search engine, mungkin ada ribuan
dokumen dengan hasil yang telah ditetapkan, sehingga lebih masuk akal untuk
mengukur presisi dalam beberapa ukuran yang berbeda, seperti "P@10"
(presisi di atas 10 hasil) atau "P@50" dan seterusnya, daripada memperkirakan
presisi dalam seluruh hasil yang ditetapkan.
Itu mungkin untuk penawaran dagang
dari presisi terhadap ingat dengan memvariasikan ukuran hasil yang telah ditetapkan
kembali. Di ujung, sebuah sistem yang mengembalikan setiap dokumen dalam
kumpulan dokumen dijamin untuk mengingat 100%, tetapi akan memiliki rendah
presisi. Begitu juga sebaliknya, sistem bisa kembali menjadi sebuah dokumen
tunggal dan memiliki ingat rendah, tetapi kesempatan yang layak di 100%
presisi. Ringkasan langkah-langkah kedua disebut dengan Skor F1, satu nomor
yang berarti harmonik presisi dan ingat, dengan rumus 2P R /(P + R).
Tidak ada komentar:
Posting Komentar