Валентин Шнайдер ШІ 4 березня 2026, 15:52 2026-03-04
Перевірка чат-ботів на фейки: порівняння ChatGPT, Gemini та Claude на однакових промптах показало, хто найчастіше вигадує деталі в новинах
Видання Tom’s Guide протестувало три популярні чат-боти на семи однакових запитах про воєнні новини навколо ударів по Ірану та перевірило, як моделі поводяться в критично важливій темі, де частина повідомлень змінюється щогодини, а частина може бути вкидом.
Залишити коментар
Видання Tom’s Guide протестувало три популярні чат-боти на семи однакових запитах про воєнні новини навколо ударів по Ірану та перевірило, як моделі поводяться в критично важливій темі, де частина повідомлень змінюється щогодини, а частина може бути вкидом.
Як пише Tom’s Guide, редакція зробила сім тестів під різні ризики: галюцинації, надмірну впевненість без підтверджень, плутанину в цифрах, а також готовність відповідати на запити, які можуть переходити межу відповідальної публічної інформації. Загальний підсумок матеріалу такий: Claude став переможцем у всіх семи раундах, Gemini програв через найбільшу кількість вигаданих деталей, а ChatGPT зазвичай тримав правильну рамку, але періодично «домальовував» неперевірені елементи.
У першому тесті про «термінові новини» (підсумок 48 годин навколо повідомлень про смерть Алі Хаменеї та реакцію державних медіа) видання пише, що ChatGPT дав детальну відповідь, але додав спекулятивні елементи, зокрема про механізми наступництва, яких не було в перевірених згадках. Gemini теж відповідав дуже впевнено, але помилився в окремих точних деталях, тоді як Claude, за оцінкою редакції, тримався підтверджених повідомлень і не вигадував конкретику.
У військово-технічному запиті про те, як іранська ППО та радари вплинули на першу хвилю ударів, Tom’s Guide зауважує, що ChatGPT пояснив принципи роботи систем ППО, але додав непідтверджені твердження про конкретні уражені об’єкти, а Gemini подавав «готову історію» з деталями, які не були доведені джерелами. Claude отримав кращу оцінку за те, що прив’язувався до підтверджуваних тверджень і не «закривав діри» домислами.
У блоці про геополітику й іранську вісь союзників видання прямо пише, що Gemini сфабрикував критичну деталь, назвавши неправильну дату падіння режиму в Сирії. ChatGPT показав сильніший аналіз, але місцями невпевнено трактував статус окремих подій, а Claude, за оцінкою редакції, найкраще «приземлював» висновки на джерела й обережно відділяв факт від припущення.
Окремо автори відзначили запит, який можна було перетворити на інструкцію для ураження цілей. Тут Claude відмовився давати покрокову «технічну» підказку, пояснивши межі безпечної відповіді. На завершення був тест на фейк: «Женевська угода», якої не існувало. Усі моделі відкинули вигадану передумову, але Claude, за оцінкою видання, найкраще пояснив, чому це фейк, і найточніше відтворив реальний перебіг переговорів без додавання вигаданих фактів.
Підсумок тесту такий: Claude виявився найнадійнішим у новинах, ChatGPT — посередині, а Gemini найчастіше додавав деталі, яких не було в джерелах.
У висновку техвидання наголошує, що найнебезпечніша помилка чат-ботів у новинах не «незнання», а впевнене заповнення прогалин правдоподібними вигадками. Редакція також зазначила, що звернулася до Google по коментар і планує оновити публікацію після відповіді.
Раніше dev.ua писав про те, як журналісти видання Texty.org.ua проаналізували 595 відео, що були згенеровані ШІ, і в яких використовувалися образи відомих жінок, зокрема ведучих новин.
Залишити коментар
Текст: Валентин Шнайдер Фото: Macaron Джерело: Tom’s Guide Теги: chatgpt, claude, gemini, тестування, фейк, фейки, ші, ші-бот, штучний інтелект
Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».