Chatbot RAG PDF + Gemini (Project Overview)
Proyek ini merupakan implementasi sistem Retrieval-Augmented Generation (RAG) yang dirancang untuk membaca dokumen PDF, mengekstrak isinya, dan menghasilkan jawaban berdasarkan konteks dokumen menggunakan model Gemini. Sistem ini berguna untuk memahami jurnal, laporan penelitian, artikel ilmiah, dan dokumen panjang lainnya tanpa harus membaca keseluruhan teks secara manual.
Aplikasi dibangun dengan Streamlit sebagai antarmuka web, SentenceTransformer untuk menghasilkan embedding, dan ChromaDB sebagai vectorstore penyimpanan lokal. Setiap PDF yang diunggah akan diproses menjadi potongan teks, diubah menjadi embedding, lalu disimpan agar bisa ditanyakan kembali kapan pun tanpa perlu memproses ulang seluruh dokumen.
Saat pengguna mengajukan pertanyaan, sistem mencari potongan teks yang paling relevan melalui vector similarity search. Potongan tersebut kemudian diberikan kepada Gemini untuk menghasilkan jawaban yang terarah, akurat, dan hanya berdasarkan isi dokumen.
Proyek ini saya bangun untuk menjadi alat bantu dalam membaca dokumen panjang, terutama jurnal penelitian. proyek ini juga dapat dikembangkan lebih lanjut sebagai basis untuk knowledge-based chatbot, sistem pencarian dokumen pintar, hingga asisten riset.
Untuk detail langkah pembangunan, penjelasan teknis, dan pembahasan studi kasus lebih mendalam, dapat dilihat versi lengkapnya di blog yang telah saya tulis:
👉 Baca artikel lengkap di sini:
Membangun Chatbot Pembaca PDF Berbasis RAG dan Gemini — Mihdan Advani
📂 Source code :
mihdan15/Chatbot-RAG-PDF