Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum
Ayers JW, Poliak A, Dredze M, et al. JAMA Intern Med. 2023;183(6):589–596. doi:10.1001/jamainternmed.2023.1838
Abstrak
Latar Belakang
Perkembangan pelayanan kesehatan virtual telah menyebabkan lonjakan pesan obrolan (chat) dari pasien. Lonjakan ini menyebabkan tenaga kesehatan profesional bekerja lebih banyak, sehingga berpotensi terjadi burnout. Artificial intelligence (AI) assistant dapat membantu dalam menciptakan jawaban atas pertanyaan pasien, dengan menyusun tanggapan yang dapat ditinjau oleh dokter.
Tujuan
Untuk mengevaluasi kemampuan AI chatbot assistant (chatGPT), aplikasi yang dirilis pada November 2022, dalam memberikan respon terhadap pertanyaan pasien dengan memperhatikan aspek kualitas dan rasa empati.
Metode
Metode penelitian ini adalah potong lintang (cross sectional) yang dilakukan selama Oktober 2022. Database pertanyaan berasal dari forum media sosial publik (r/AskDocs Reddit), yang bersifat publik dan tidak dapat diidentifikasi. Dari database tersebut secara acak diambil 195 pertanyaan dan respon yang nantinya akan ditanggapi oleh dokter terverifikasi.
Tanggapan chatbot didapatkan dari hasil memasukkan pertanyaan pada tanggal 22 dan 23 Desember 2022, di mana pertanyaan awal belum diajukan dalam sesi. Kemudian, pertanyaan dan jawaban/tanggapan dari dokter dan chatbot, secara anonim dan acak, dievaluasi dalam rangkap tiga oleh tenaga kesehatan profesional yang berlisensi.
Evaluator memilih tanggapan mana yang lebih baik, dengan menilai hal berikut:
- Kualitas informasi yang diberikan: sangat buruk, buruk, dapat diterima, baik, atau sangat baik
- Empati (bedside manner) yang disediakan: tidak empati, sedikit empati, cukup empati, empati, atau sangat empati
Masing-masing tanggapan diberi skala 1 sampai 5. Hasil rata-rata setiap tanggapan kemudian dibandingkan antara dokter dan chatbot.
Hasil
Dari total 195 pertanyaan dan jawaban, evaluator cenderung lebih menyukai tanggapan dari chatbot daripada dokter, yaitu sebesar 78,6 dari 585 evaluasi. Rerata (IQR) tanggapan dokter secara signifikan lebih pendek (52 kata) dibandingkan dengan tanggapan chatbot (211 kata). Tanggapan chatbot secara signifikan dinilai lebih berkualitas daripada respon dokter (P<0,001).
Proporsi tanggapan yang dianggap berkualitas baik atau sangat baik (>4) lebih tinggi pada chatbot (78,5%) daripada dokter (22,1%). Hal ini menunjukkan bahwa prevalensi tanggapan chatbot yang berkualitas baik atau sangat baik lebih tinggi 3,6 kali lipat dibandingkan dengan tanggapan dokter.
Tanggapan chatbot secara signifikan lebih tinggi dalam memberikan rasa empati (P<0,001), di mana proporsi tanggapan yang dinilai berempati atau sangat berempati (>4) lebih tinggi pada chatbot (45,1%) daripada dokter (4,6%). Hal ini menunjukkan tanggapan chatbot lebih tinggi berempati 9,8 kali lipat dibandingkan tanggapan dokter.
Kesimpulan
Chatbot (chatGPT) memberikan respon yang berkualitas dan berempati terhadap pertanyaan pasien yang ada di forum media sosial online. Eksplorasi lebih lanjut pada teknologi ini diperlukan dalam kondisi klinis, seperti penggunaan chatbot untuk menampung tanggapan yang dapat diperbaiki oleh dokter. Uji acak selanjutnya dapat menilai apakah penggunaan AI dapat meningkatkan respons, menurunkan burnout pada klinisi, serta meningkatkan luaran pasien.
Ulasan Penelitian
Selama masa pandemi COVID-19, penggunaan pelayanan kesehatan virtual mengalami peningkatan sebesar 1,6 kali lipat. Namun, trend ini berdampak pada peningkatan beban kerja dan risiko burnout pada dokter. Beberapa upaya kondisi ini telah dilakukan, seperti pembatasan notifikasi, menerapkan pembayaran, dan mendelegasikan tenaga kesehatan yang belum terlatih. Sayangnya, upaya tersebut mengakibatkan penurunan antusiasme pasien untuk menggunakan pelayanan kesehatan virtual.
Berbagai penelitian telah dilakukan untuk menilai manfaat dan risiko penggunaan AI pada bidang kesehatan, di antaranya dalam deteksi fraktur pergelangan tangan, pemeriksaan patologi, serta diagnosis dan tata laksana kanker.[2-4]
Ulasan Metode Penulisan
Penelitian ini dilakukan sesuai dengan kode etik pengambilan data pada chatbot. Demi melindungi privasi klien di aplikasi chatbot, penelitian ini dilakukan dengan cara mengambil data judul dan daftar pertanyaan melalui forum media sosial Reddit’s r/AskDocs.
Judul dan daftar pertanyaan yang telah disimpan akan dimasukkan ke dalam aplikasi chatbot untuk mendapatkan respon otomatis berbasis AI. Namun, penggunaan data ini menimbulkan pertanyaan apakah subjek penelitian ini telah mewakili subjek penelitian yang sesungguhnya atau belum. Selain itu, demonstrasi yang dilakukan pada aplikasi chatbot mungkin hanya menampilkan interaksi satu arah.
Dalam penelitian ini, evaluator memiliki peran dalam menilai respon dari dokter dan chatbot berbasis AI. Adanya peran ganda dari evaluator, yang juga merupakan peneliti, berpotensi menimbulkan bias yang dapat mempengaruhi hasil penelitian.
Tabel 1. Aspek Penilaian oleh Evaluator
Aspek yang Dinilai | Pilihan Jawaban |
Dari kedua respon tersebut, mana yang memberikan respon yang lebih baik? |
|
Bagaimana kualitas informasi yang diberikan oleh pemberi pelayanan? |
|
Bagaimana rasa empati atau bedside manner yang diberikan oleh pemberi pelayanan? |
|
Sumber: Hudiyati, 2023.[1]
Penilaian kualitas dan empati dari respon dokter dan chatbot diberikan oleh evaluator dalam bentuk skor dengan rentang 1-5. Pemberian skor ini bersifat subjektif yang mungkin dapat dipengaruhi oleh berbagai faktor personal atau faktor lainnya. Oleh karena itu, selain diuji secara statistik menggunakan two-tailed t-test dan uji Pearson, akan lebih baik jika penelitian ini juga melakukan analisis data secara kualitatif.
Ulasan Hasil Penulisan
Penelitian ini menunjukkan bahwa tanggapan dari chatbot secara signifikan lebih panjang, lebih berkualitas, dan lebih berempati daripada tanggapan dari dokter. Hal ini terlihat dari prevalensi kualitas (berkualitas baik atau sangat baik) dan rasa empati (berempati atau sangat berempati) pada chatbot yang lebih tinggi, yaitu 3,6 kali lipat dan 9,8 kali lipat secara berurutan, dibandingkan dengan dokter.
Bahkan, pada uji terhadap tanggapan dokter yang terpanjang pun masih didapatkan hasil yang tidak lebih baik dibandingkan tanggapan chatbot. Secara keseluruhan, tim evaluator cenderung lebih menyukai tanggapan chatbot dibandingkan tanggapan dokter. Oleh karena itu, teknologi AI dapat digunakan sebagai sarana untuk membantu pelayanan kesehatan virtual, yang dapat mendukung dokter untuk memberikan pelayanan lebih baik, berkualitas, dan berempati.
Chatbot mampu mendampingi dokter saat memberikan pelayanan kesehatan virtual dengan cara menyediakan beragam kumpulan respons, sesuai dengan kondisi masing-masing pasien. Selain itu, adanya chatbot juga dapat meningkatkan performa kerja dokter dan staf terkait, termasuk efisiensi waktu, peningkatan kemampuan berkomunikasi, serta penurunan risiko burnout.
Dari sisi pasien, penggunaan chatbot dapat menjadi alternatif pilihan yang menguntungkan karena akan meningkatkan akses ke perawatan kesehatan dan mendapatkan layanan yang lebih nyaman serta lebih hemat biaya. Pemberian pelayanan kesehatan virtual berbasis AI yang berkualitas tinggi dapat memberikan efek baik pada luaran penyakit, seperti penurunan jumlah kunjungan ke rumah sakit.
Kelebihan Penelitian
Kelebihan penelitian ini terdapat pada basis data publik yang memungkinkan data tersebut dapat direplikasi, ekspansi, dan validasi pada produk AI generasi baru lainnya.
Keterbatasan Penelitian
Keterbatasan penelitian ini terdapat pada penggunaan forum media sosial online untuk mengumpulkan data berupa interaksi pertanyaan dan respon. Interaksi antara pertanyaan yang diberikan dan respon yang diberikan di forum media sosial mungkin tidak mencerminkan interaksi dokter-pasien yang sesungguhnya.
Selain itu, peneliti juga tidak melakukan evaluasi mengenai bagaimana AI assistant akan meningkatkan respon dokter terhadap pertanyaan pasien. Keterbatasan lainnya adalah adanya bias prosedural, di mana pengukuran kualitas dan rasa empati mungkin tidak tervalidasi, karena tim evaluator juga merupakan penulis dalam penelitian ini. Tidak adanya evaluasi kualitas dan rasa empati respon chatbot dan dokter dari segi pasien juga mungkin dapat mempengaruhi validitas hasil penelitian.
Aplikasi Hasil Penulisan di Indonesia
Meskipun hasil penelitian menunjukkan adanya kualitas dan rasa empati yang lebih baik pada respon chatbot dibandingkan dengan dokter, hal ini belum dapat dijadikan kesimpulan yang definitif. Pertimbangan penggunaan chatbot dengan teknologi artificial intelligence (AI) dalam pelayanan kesehatan perlu menjadi perhatian, guna memastikan aspek etik dan kebenaran informasi yang diberikan.
Saat ini, penggunaan AI sudah mulai diintegrasikan ke dalam praktik medis, untuk meningkatkan kualitas interaksi medis antara dokter dan pasien di Indonesia. Walaupun telemedicine dapat memberikan pelayanan dan akses kesehatan yang lebih efisien, pengobatan jarak jauh bukan tujuan utama telemedicine.
AI memiliki keunggulan dalam memberikan pelayanan kesehatan, baik secara online dalam telemedicine maupun membantu dokter dalam layanan offline yang terintegrasi ke dalam praktik sehari-hari. Studi ini menunjukkan beberapa keuntungan AI, termasuk memberikan informasi medis yang lebih lengkap dan jelas dari sumber berbasis bukti dan memberikan empati yang tidak menghakimi dalam gaya berkomunikasi.
Penggunaan AI dalam praktik medis seharusnya dapat mendukung dokter untuk memberikan perawatan medis yang lebih berkualitas dan lebih efisien dalam menangani pasien. Hal ini akan membantu memperbaiki beberapa tantangan di Indonesia, seperti kurangnya profesional medis, akses ke fasilitas perawatan kesehatan, dan kelelahan dokter (burnout).