Чат-боти ШІ тупішають після тривалого спілкування з людьми, - дослідження Microsoft
Нове спільне дослідження Microsoft Research з Salesforce демонструє, що популярні чат-боти ШІ дурнішають після тривалого спілкування з людьми. Сумарний рівень помилок може зрости більш ніж на 100% при аналізі понад 200 тисяч розмов.
В останні роки провідні IT-розробники представили цілу лінійку просунутих великих мовних моделей, прагнучи закріпити лідерство на ринку. Проте користувачі регулярно скаржаться на "галюцинації" і неправильні відповіді. Нова наукова робота підтверджує: навіть топові нейромережі нерідко "губляться" в розмові, коли завдання розбивається на природний діалог з декількох реплік.
Як відомо, У TikTok шириться нова хвиля ШІ-відео із закликами до насильства проти працівників ТЦК
В ході експерименту експерти вивчили понад 200 000 діалогів за участю флагманських LLM, включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1. Якщо при поодиноких запитах такі моделі демонструють понад 90% успішних відповідей, то в довгих бесідах з уточненнями і додатковими питаннями показник падає до 65%. Іншими словами, у міру ускладнення контексту ефективність помітно знижується.
Дослідники виявили ще одне цікаве явище – "роздування відповідей". У багатоходових діалогах відповіді моделей ставали довшими на 20–300%. Разом з обсягом зростала і кількість припущень і галюцинацій, які потім закріплювалися в контексті розмови і використовувалися як основа для наступних реплік. Причому навіть моделі з розширеними "токенами роздумів", такі як OpenAI o3 і DeepSeek R1, не змогли повністю уникнути цього ефекту.
Автори підкреслюють, що різке погіршення якості в довгих бесідах не означає, що моделі "тупішають" в буквальному сенсі – скоріше, це вказує на їх обмеженість в утриманні й правильній інтерпретації великого обсягу інформації в ході діалогу. Незважаючи на це, ШІ все ще демонструє вражаючі здібності при відповідях на окремі запити.
Як зазначає Windows Central, такі особливості слід враховувати при використанні чат-ботів у продуктах, орієнтованих на тривалу взаємодію з користувачем. Можливі помилки та галюцинації можуть ввести людей в оману, особливо якщо користувач покладається на ШІ як на джерело точної і критично важливої інформації.
Сьогодні ChatGPT займає понад 80% світового ринку чат-ботів. Найближчі конкуренти – Perplexity і Google Gemini. На них припадає частка в 15% від усіх користувачів.
Читайте також: "Помиї ШІ" та "гниття мозку": настали останні дні соцмереж, а штучний інтелект зламає інтернет?


Плівки Міндіча: як Банкова та СБУ намагалися врятувати «бек-офіс» від розслідувань НАБУ
Крах російської економіки в глибинці: чому офіційна статистика Росстату є фікцією
Анігіляція «Ахмату» на Сумщині: ГУР розкрило деталі унікальної спецоперації за участю агента-перебіжчика
Сбербанк б’є на сполох: росіяни масово забирають вклади, а нафтопереробка обвалилася до мінімуму
Замороження переговорів з Ліваном та нічні бої в Тегерані: головне з огляду Григорія Тамара
«Мазутний корок» та технологічний параліч: як удари по НПЗ руйнують економіку РФ
Політичний бек-офіс на Грушевського: оприлюднено «плівки Міндіча» про кадрові ігри та «Проєкт 23»
«На Росію ніхто не нападав»: російський пропагандист Боронець у прямому ефірі спростував брехню Путіна




