Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum
Может ли ИИ-ассистент ChatGPT давать ответы на вопросы пациентов, качество и эмпатия которых сопоставимы с теми, что написаны врачами?
В этом исследовании для 195 случайно выбранных вопросов пациентов с сабреддита r/AskDocs (там ответы пишут доктора, по крайней мере, так говорят), группа из трёх лицензированных докторов в оффлайн-режиме сравнила ответы в тредах и от чат-бота. Ответы ChatGPT были предпочтительнее, чем ответы врачей, и были оценены значительно выше как по качеству, так и по эмпатии. Отмечается, что с Reddit брались именно ответы врачей, хз как это проверялось (может, по плашке, назначенной администрацией, может, по рейтингу - но так или иначе это не ответ какого-то рандома без образования).
Я не увидел в статье прямого указания на оценку правильности советов/ответов, однако используется две метрики “the quality of information provided” и “the empathy or bedside manner provided”, так что кажется, что первая косвенно должна это учитывать. В моём понимании один доктор не может оценить качество ответа от чатбота выше, чем от другого доктора, если в сгенерированном ответе постоянно встречаются ошибки и неточности.
И что же вышло? Ну...ChatGPT разрывает кожаных по метрикам, оценщики предпочли ответ чат-бота ответам с Reddit в 78,6% случаев. А ещё гораздо чаще ответы более эмпатичны.
Качество ответов чат-бота значительно выше, чем ответов врачей. Средняя оценка ответов чат-ботов была 4.13 (по 5-ти бальной шкале), в то время как в среднем ответы в тредах были оценены в 3.26. Детали можно найти на картинке.
Ну и для интересующихся - статистическая значимость достигается везде 😔
В следующий раз пойду узнавать, не рак ли у меня, у GPT-4..ах да, это ДЕКАБРЬСКАЯ версия ChatGPT, поэтому она сильно слабее, чем GPT-4! А потенциально разница ещё больше между ответами на онлайн-форуме и ответами от модели.