Сообщение #59889 - Telegram Messages

ID сообщения: 59889

Чат: vc.ru (1031569976)

Отправитель: vc.ru

Дата: 2026-02-24T17:50:08+00:00

Статус обработки: ✅ Обработано

Текст сообщения: OpenAI больше не будет использовать бенчмарк SWE-bench Verified для оценки способностей нейросетей в разработке ПО. Исследователи обнаружили, что модели запоминали готовые решения, которые видели на GitHub. GPT‑5.2 решала 80% задач из этого набора тестов vc.ru/ai/2756713