Порівняння GPT4 vs GPT3.5
Вирішив зробити невелике порівняння двох версій в розрізі того, наскільки генерований через них контент легко визначається як AI-generated. А також, наскільки взагалі аналізатори правильно визначають AI-контент. В таблиці результати порівняння. Ось лінк на таблицю
Пояснення:
Загалом дві окремі групи. 🤖 Перша група - це 6 текстів, генерованих через chatGPT. Задавався prompt в версії 3.5, а потім він же в 4.0
Результат генерації потім годувався аналізаторам. Кожен аналізатор рахує по своєму і десь видає просто цифру, а десь текстове пояснення. Для кращого розуміння я підсвітив зеленим (коли текст визначило як human-generated, і за таке давав 1 бал), жовтим (алгоритми не змогли вирішити, хто написав; 0.5 балів) і червоним (текст визначило як AI-generated; 0 балів). В кінці бали просумував
🧍♂Друга група - це два контрольні тексти, які були написані людиною.
👉 Висновок 1:
GPT4 генерує трішки кращі тексти.
- В першому запиті він набрав 3.5 балів проти 2.5.
- В другому - 2.5 проти 1.
- В третьому - 3 проти 1.
👉 Висновок 2:
Людський текст, в більшості випадків, проходить всі перевірки, однак з технічними текстами можуть бути проблеми. На прикладі текст з Wikipedia про covid-19 багато хто визначив як з долею AI. Все через велику кількість сухих наукових фраз, які постійно повторюються. Якщо в тексті менше “технічності”, то з великою долею ймовірності він пройде всі перевірки
👉 Висновок 3:
Коли GPT4 сказали зробити текст в 400 слів, то на виході отримали 399 (у GPT3.5 це було 464). Коли GPT4 сказали чотири рази використати слово “RAM”, то отримали 13 разів (у GPT3.5 було 3 рази). Тобто з розумінням завдання труднощі можуть виникати в обох версій
👉 Висновок 4:
Найточніші дані показfd gptradar, який AI-текстам дав по 10-14 балів. А людським - 23 та 26. Решту сервісів помилялись в ту чи іншу сторону. Навіть сервіс від OpenAI