[SOLVED]Search PDF file?

sabitzhabit · May 15, 2011, 4:53pm

Para master2 sekalian, nubie minta sarannya dong gan…

Ane mau buat aplikasi kayak perpustakaan gan. Jadi ane mau nya user ntar tinggal masukin keyword dan semua list buku yg punya keyword itu akan ditampilin list ny gan. Yg ane mau tanya, kira2 apa ya baik library/extension yg bagus buat ane pake untuk search PDF ny gan?

Makasih gan atas bantuannya…

ressaince · May 16, 2011, 11:09am

wah topik yang bagus,soalnya saya juga nyari2 itu,heheheheh

tar kalo saya udah ketemu,tak posting deh,heheh

sip

ibiz4 · May 26, 2011, 7:04am

Waktu upload text pdfnya diindex dolo trus masukin ke database + tambah tambah satu field buat nyimpen nama file pdfnya. gampang kan : )

sabitzhabit · May 26, 2011, 2:02pm

saya ga upload text ny mas, saya cuma upload pdf ny+informasi pdf ny(penerbit, yg upload, tnggal upload, dll). Kemaren nemu library apache solr+apache tika untuk lakuin pencarian ke file pdf ny.

Tapi bisa dijelasin lebih rinci ga yg mas jelasin di atas?, mngkin lebih efisien dan gampang di implementasikan kali…

Mkasih…

ibiz4 · May 28, 2011, 2:38am

yang ngambil text ya PHPnya mas

coba yg ini

http://www.webcheatsheet.com/php/reading_clean_text_from_pdf.php

ato yg semisal dgn itu, intinya textnya dibaca dulu trus masukin ke database

ressaince · May 31, 2011, 8:50am

mungkin agan bisa liat disini…

http://www.yiiframework.com/forum/index.php?/topic/15122-yii-websites-search-feature/

mantap banget nih topiknya…

sabitzhabit · June 1, 2011, 12:07am

oh, gitu maksud ny. Okeh, saya coba dlu mas, thanks y mas…

iya mas, thanks… saya udah coba dg cara itu. Kalo untuk search dari database udah bisa mas, tapi kalo untuk yg ngelibatin file seperti pdf,word, dll sampe skrg masih salah trus n blum nemu caranya nih… hehe… smentara mau coba2 rekomendasi dari mas ibiz4 kalo emang cara di atas ttep ga bisa…

ressaince · June 1, 2011, 1:54am

yoi dicoba dulu gih yang link dari ane itu,keliatannya itu powerfull

kalo udah bisa dishare ya…

kalo caranya om ibiz4 itu makan resource apalagi kalo pdfnya gede sizenya dan banyak textnya

ibiz4 · June 1, 2011, 3:08am

performance search sama saja mas asal datanya disimpan dalam bentuk binary dan diindex.

tapi klo data sudah sangat banyak indexing tidak mampu berbicara banyak, baru dibantu dengan tambahan aplikasi kayak solr, lucene ato sphinx.

perbedaannya pada saat pertama kali diinputkan, klo cara ane resource yg kemakan di server phpnya, klo nyimpan pdf bulat2 ke bentuk BLOB ya yg kemakan resource server databasenya

ressaince · June 1, 2011, 3:59am

yoi performance searchnya mah emang sama-sama aja…

cuma resource aja yang berbeda

sabitzhabit · June 1, 2011, 6:24pm

okeh gan, klo udah bisa ntar ane share…

sbenernya di solr nya sendiri uda ada cara buat ekstrak file PDF ny ke text gan pake apache tika, tapi saya ga berhasil2 buat ny. Jadi mngkin mw ngikutin saran agan di atas…

sabitzhabit · June 7, 2011, 12:18pm

[SOLVED]

Mungkin sedikit share dari saya tentang pemecahan kasus saya, barangkali bermanfaat…

Pertama untuk melakukan pencarian di dalam database nya saya gunakan apache solr, sedangkan untuk PHP client ny, saya pake solr php client. Kalo ada yg mau lihat tutorial bahasa Indonesia nya tentang peggunaan apache solr itu sendiri, bisa dilihat di tutorial (btw itu bukan blog saya ya, ga ada maksud promosi kok )

Nah, tapi cara di atas masih belum mecahin masalah buat index file PDF nya. Untuk melakukan index dari file2 PDF nya sendiri kita harus ngerubah file PDF nya ke dalam bentuk text biar bisa dimasukkin ke solr nya. Sebenernya di apache solr sendiri udah bisa langsung dilakukan extract PDF ke text nya pake apache tika, tapi ga tw kenapa udah seminggu lebih saya kotak-katik tetep ga bisa2 pake apache tika ny buat extract file PDF ny ke text(mungkin saya ny yg bego kali ya, kalo ada yg bisa mohon di share ya buat nambah ilmu ). Akhirnya saya lakukan extract PDF ke text dengan pake library yg ada yaitu pake xpdf, sebenarnya ada banyak library/class untuk konversi PDF ke text, tapi dari semua yang saya coba xpdf yang hasilnya paling bagus(ini mnurut persepsi saya sendiri yak…).

Nah, setelah udah bisa extract file PDF ke text, ntar hasil dari extract nya tadi bisa langsung di kirim ke apache solr. Setelah itu baru bisa dilakukan pencarian by content PDF nya…

Btw, terima kasih buat temen2 yang udah bantuin…

ressaince · June 7, 2011, 2:34pm

mantap my bro

junxiong · June 8, 2011, 12:42pm

nanya donk…

PDF nya itu sifatnya pdf yang bisa dicopy paste oleh kita kan isinya?

kalau ceritanya pdfnya itu adalah pdf hasil scan surat begitu, bisa gak yah pakai xpdf atau apache tika?

sabitzhabit · June 8, 2011, 1:38pm

maksud ny ekstact image yg ada dalam PDF nya ya mas? kalo image, sejauh ini saya coba ga kebaca bisa di extract oleh xpfd ny mas…(kalo tika saya juga ga tw mas, saya juga gagal terus pake tika )

Oh iya, file PDF yg emang uda di lindungi oleh si pembuat nya kek ebook2 gitu jga ga bisa di extract. Kmren saya coba ebook2 bajakan dari HD saya bnyak yg ga bisa.

ressaince · June 8, 2011, 3:03pm

yah klo kek gitukan udah image namanya,udah ga mengandung text lagi…

kyknya ga bisa

junxiong · June 9, 2011, 6:01am

oh justru, karena image maka ingin tahu apakah ada module yang mampu memanfaatkan OCR untuk mengenali tulisannya.

ressaince · June 9, 2011, 5:09pm

yah tpi pdf converter aja bisa ye,

ga da yg ga mungkin lah di it,wkwkwkwkw

penasaran juga nih binary ke ascii

junxiong · June 10, 2011, 3:08am

betul. harusnya ada aplikasi yang bisa scan gambar jadi tulisan di Linux. PHP bisa menjalankan sintaks command linux. Jadi tujuan untuk mencari tulisan di pdf hasil scan harusnya memungkinkan…