Предыдущая публикация
AI Wiz

AI Wiz

19 янв

🏆 Claude Opus 4.5: первая модель, превысившая 80% на SWE-bench

🏆 Claude Opus 4.5: первая модель, превысившая 80% на SWE-bench - 5386859949804
📅 23 ноября 2025 года Anthropic выпустила Claude Opus 4.5 — флагманскую модель, которая стала первой в мире, преодолевшей планку 80% решённых реальных задач программирования. Теперь доступна в AI Wiz.

💻 Рекорд в программировании

SWE-bench Verified: 80.9% (405 из 500 задач)

Для сравнения:
🔺Claude Sonnet 4.5: 77.2%
🔺GPT-5.1/5.2: ~76-77%
🔺Gemini 3 Pro: ~76%

Terminal-Bench (сложные задачи в терминале): 59.3%
Это на 12 пунктов выше GPT-5.1 (47.6%) и на 5 пунктов выше Gemini 3 Pro (54.2%)

Opus 4.5 показывает уровень сильного senior-разработчика на реальных production-задачах из open-source проектов.

🧠 Hybrid Reasoning: два режима мышления
Claude Opus 4.5 — hybrid reasoning-модель, которая работает в двух режимах.

Standard (быстрый):
Отвечает сразу для простых задач — скорость и экономия

Extended thinking (глубокий):
Модель сначала "думает", планирует шаги, проверяет выводы — точность на сложных задачах

📊 Огромный контекст
200 000 токенов стандартно — это примерно 400 страниц текста или целая кодовая база.

Context awareness: Модель "знает", сколько контекста осталось, и планирует длину ответов соответственно — не обрывает важную информацию на середине.

🤖 Компьютер как инструмент
Claude Opus 4.5 — лучшая модель Anthropic для computer use:

✅ Управляет браузером, офисными приложениями, IDE, терминалом

✅ Новая операция zoom — приближает области экрана для чтения мелкого текста

✅ Выстраивает цепочки действий через разные инструменты

✅ Работает как оркестратор для команды саб-агентов

💼 Офисная автоматизация на новом уровне
Claude Opus 4.5 показывает +20% точности и +15% эффективности в работе с Excel и финансовым моделированием.

Excel:
Строит рабочие финансовые модели с формулами, named ranges, проверками ошибок и пояснениями

Презентации:
Превращает PDF-отчёты в презентации для руководства со структурой и визуализацией

Документы:
Анализирует большие отчёты, извлекает ключевую информацию, структурирует выводы

🔒 Безопасность и точность

✔️Omniscience Index: 2-е место по точности и низкому уровню галлюцинаций среди всех моделей

✔️Prompt-injection защита: В 3 раза лучше защита от непрямых атак, чем у GPT-5.1 и Gemini 3 Pro — только 25% успешных атак против 80%+ у конкурентов

✔️Constitutional AI: Модель обучена с фокусом на безопасность и этические нормы — меньше вредного контента, больше осознанных отказов

🎯 Для каких задач лучше всего

1️⃣ Программирование:
Рефакторинг, миграции, поиск сложных багов, анализ архитектуры — на уровне senior-инженера

2️⃣ Агентные сценарии:
Автономные помощники, которые планируют действия, используют инструменты, работают часами без участия человека

3️⃣ Бизнес-аналитика:
Финансовые модели, обработка больших отчётов, стратегические документы, презентации

4️⃣ Исследования:
Анализ десятков документов, синтез информации, поиск связей между удалёнными частями текста

5️⃣ Сложные рассуждения:
Многошаговая логика, математика, задачи, требующие проверки промежуточных выводов

📈 Сравнение с конкурентами

✅ По программированию: Лидер — 80.9% против ~76-77% у всех остальных

✅ По общим знаниям (MMLU-Pro): Паритет — ~90.8% против ~91% у GPT-5 и Gemini

✅ По безопасности: Лучшая защита от атак и низкий уровень галлюцинаций

🚀 Claude Opus 4.5 уже доступна в AI Wiz — протестируйте первую модель, преодолевшую планку 80% на реальных задачах программирования: https://aiwiz.ru/trial

#AIWiz #ClaudeOpus45 #Anthropic

Нет комментариев

Новые комментарии
Для того чтобы оставить комментарий, войдите или зарегистрируйтесь
Следующая публикация
Свернуть поиск
Сервисы VK
MailПочтаОблакоКалендарьЗаметкиVK ЗвонкиVK ПочтаТВ программаПогодаГороскопыСпортОтветыVK РекламаЛедиВКонтакте Ещё
Войти
AI Wiz

AI Wiz

ЛентаТемы 628Фото 669Видео 36Участники 1 264
  • Подарки
Левая колонка
Всё 628
Обсуждаемые

Присоединяйтесь — мы покажем вам много интересного

Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.

Зарегистрироваться