xcounter
Calendar Icon

Google «перевертає гру», OpenAI оновлює генерацію зображень: головні ШІ-новини тижня

23.12.2025 15:46 (Оновлено 23.12.2025 в 15:46)

Хвиля оновлень у сфері штучного інтелекту цього тижня зосередилася навколо двох центрів впливу — OpenAI та Google. OpenAI презентував оновлену систему генерації та редагування зображень у ChatGPT, паралельно визнавши різку конкуренцію за обчислювальні ресурси. Google, зі свого боку, анонсував низку продуктів і підходів — від нової швидкої моделі Gemini Flash до перекладу мовлення в реальному часі та експериментів із «генеративним браузингом», який може змінити спосіб роботи з інтернетом. Про це повідомляє FaceNews.ua з посиланням на відео Igor Matrofailo «Найбільші ШІ новини тижня за 20 хвилин!».

OpenAI: оновлення генерації зображень у ChatGPT і «війна» за обчислення

У випуску йдеться, що OpenAI «наздоганяє Google» у напрямку генерації зображень та показує оновлену версію інструменту ChatGPT Images (у відео також згадується як GPT 1.5). Заявлені переваги — краще редагування, точніше виконання інструкцій і промтів, різні типи трансформацій, а також робота «у чотири рази швидше» (як зазначається у ролику).

Окремий акцент — на публікації одного з топ-менеджерів OpenAI, де він говорить про перерозподіл обчислювальних потужностей на користь генерації зображень. У відео стверджується, що цей крок дав приріст активних користувачів на 32%, але водночас «з’їв» ресурс, який міг би піти на дослідження та впровадження нових ідей. Автор випуску інтерпретує це як прояв ширшого тренду: під «красивими моделями» точиться жорстка конкуренція за комп’ютерні ресурси, енергію та дата-центри.

Читайте також: Дата-центри стали «політичною отрутою» в США: чому це може відкрити можливості для України

Паралельно згадується позиція окремих політиків у США, які пропонують обмеження на будівництво дата-центрів для ШІ — як контрбаланс до експансії індустрії.

Перша LLM у космосі: тренування моделі на Nvidia H100 на борту апарата

Одна з найгучніших технологічних історій тижня — запуск і тренування великої мовної моделі в космосі. У відео сказано, що компанія StarCloud повідомила про роботу GPU Nvidia H100 на борту космічного апарата та тренування моделі (згадується nanoGPT Андрія Карпатого як база/референс).

Автор також пояснює, чому «ШІ в космосі» — надскладний сценарій: управління супутниками, ризики зіткнення, вимоги до передачі даних між апаратами, радіація та фундаментальна проблема охолодження, адже у космосі немає звичних умов теплообміну. Згадується і гіпотеза, що економіка таких запусків може змінитися, якщо вартість виведення 1 кг вантажу на орбіту суттєво знизиться у наступні роки.

OpenAI Codex: Android-застосунок за 28 днів і 85% коду від моделі

У випуску також йдеться про кейс внутрішньої розробки, де застосунок під Android був створений за 28 днів із використанням Codex. За словами автора, над проєктом працювало четверо інженерів, а близько 85% коду було написано Codex. Окремо підкреслюється, що інструмент добре справляється з аналізом кодової бази, тестовим покриттям, написанням юніт-тестів та роботою з інструкціями, але потребує постійного «guidance» — спрямування в процесі.

Google Gemini 3 Flash: ставка на швидкість, дешевизну і мультимодальність

Ключовою «Google-новиною» у випуску названо анонс Gemini 3 Flash — швидкої та дешевшої моделі, яка, за твердженням автора, суттєво ефективніша за низкою бенчмарків і майже «наздоганяє» Pro-версію, залишаючись при цьому дешевшою. Окремо зазначається мультимодальність: здатність працювати з відео, аудіо та зображеннями, а також ефективніше використання токенів.

Втім у сюжеті є й «але»: автор показує графік, де рівень галюцинацій у Flash-версії вищий (чим менше — тим краще), тобто за швидкість і ціну може платитися стабільністю фактів або точністю відповідей. Також сказано, що модель уже інтегрують у користувацький інтерфейс Gemini та використовують як основу для режимів швидкої взаємодії.

Переклад мовлення в реальному часі без прив’язки до навушників

У випуску згадується новий підхід Google до розмовного перекладу: реальний час, двостороння взаємодія різними мовами, можливість працювати «з будь-якими навушниками» завдяки аудіомоделям Gemini (у відео названо Gemini Flash і 2.5 Pro speech). Також зазначається, що функціональність стає частиною Google Translate, а якість перекладу (за внутрішніми оцінками/бенчмарками, згаданими в ролику) зросла на 20% порівняно з попередньою версією.

OpenAI: оновлення моделей для голосу

Окремим блоком іде оновлення голосових можливостей OpenAI: у відео названо GPT4 Omni Transcribe, яка, за словами автора, суттєво зменшує галюцинації порівняно з попередніми рішеннями, а також покращує дотримання інструкцій у text-to-speech. Випуск підсумовує це як сигнал для бізнесів, які будують голосових агентів для консультацій та підтримки клієнтів.

«Disco» та Gen Tabs: браузер як генеративний інтерфейс замість сайтів

Ще один напрямок, який автор називає потенційно переломним, — прототип Google Disco та функціонал Gen Tabs. Ідея полягає в тому, що користувач не просто відкриває вебсторінки, а отримує «згенерований інтерфейс» із зібраною та структурованою інформацією під запит: планування подорожі, вибір дат, карта, добірка активностей, погода — усе в одному «міні-застосунку» всередині браузера.

У відео звучить теза, що завтра може настати епоха «disco Chrome» — коли класичний спосіб браузингу поступається генеративним вкладкам.

Інтеграції та відкриті моделі: Krea + Nano Banana, NotebookLM у Gemini, Starflow від Apple, Live-аватари Alibaba

У фінальній частині випуску зібрані короткі апдейти:

  • інтеграція «бананової» моделі Google у сторонні сервіси (згадується Krea та механіка elements/референсів стилю);
  • інтеграція NotebookLM у Gemini для роботи з власними «ноутбуками» та крос-переходами;
  • вихід Apple з відкритою відеомоделлю Starflow (окремо згадується Starflow для зображень і Starflow V для відео та різниця в параметрах);
  • поява Live-аватарів від Alibaba, які працюють у реальному часі: ведучий ставить запитання — аватар відповідає синхронно, з акцентом на стабільність та реалістичність.

Контекст тижня: ефективність дешевшає, а ставки ростуть

Автор підсумовує загальний тренд так: «одиниця задачі» для ШІ збільшується (моделі можуть тягнути довші й складніші сценарії), а вартість інференсу з часом падає. Це, за логікою сюжету, дозволяє бізнесам запускати більше паралельних гіпотез і швидше відбирати ті, що дають ефект.

Читайте також: Гонка за штучний інтелект: чому битва точиться не лише за чіпи, а й за електрику та дата-центри
Кращі криптовалютні біржі 2021 року для трейдерів-початківців

Кращі криптовалютні біржі 2021 року для трейдерів-початківців

Популярні відео на YouTUBE
Тематичні матеріали
Binance
Цікаве
Найпопулярніші новини
Найкращі відео з YouTUBE
Популярні блоги
Погода і гороскоп
Автоновини