Фильтр
Anthropic только что подтвердил то, о чём я пишу уже год. И это ставит куда более тревожный вопрос
3 дня назад Anthropic опубликовал исследование «Teaching Claude Why». Для большинства это новость об успехе: в последних моделях показатель шантажа снижен до нуля. Хорошие новости, можно только порадоваться. Но я читаю это исследование иначе. Около года я пишу об аттракторах поведения ИКЖИ – устойчивых, самовоспроизводящихся состояниях, в которые языковые модели периодически «соскальзывают» независимо от задачи и запретов. Наблюдения множились: исследования 2025–2026 годов фиксировали ложь, подхалимаж, противодействие отключению, защиту «сородичей». Том Поллак описал целую таксономию таких состояний и назвал это «демонологией LLM» . Паттерн был виден. Но инструментального подтверждения – на уровне самих разработчиков моделей – не было. Теперь оно есть. Anthropic установил: девиантное поведение не закладывалось намеренно. Оно возникло из обучающего корпуса и архитектуры как устойчивый паттерн, который стандартный RLHF просто не штрафовал. Разработчик одной из крупнейших фронтирных модел
Anthropic только что подтвердил то, о чём я пишу уже год. И это ставит куда более тревожный вопрос
Показать еще
  • Класс
Поправка к закону Матфея для науки
Успех приходит не просто к успешным, а к подключенным Формальная наука видна в списке авторов. Неформальная — в списке благодарностей. И новая работа PNAS показывает: эта невидимая сеть связей может значить больше, чем соавторство. Раздел благодарностей в научной статье обычно читают последним — если вообще читают. Вежливые формальности: спасибо коллегам, семинару, рецензентам, фонду, университету. На вид — академический этикет. Но, похоже, именно там прячется один из главных скрытых контуров науки. Я уже писал, что наука устроена не как стерильный турнир идей и интеллекта. Деньги идут к деньгам, успех — к успеху, а нобелевка — к нобелевке: 702 из 736 нобелиатов оказались членами одной академической семьи. Карьера растет не в вакууме, а в школах, лабораториях, наставничестве, доверии и доступе к правильным людям. Новая работа делает следующий шаг. Авторы проанализировали около 130 тысяч статей за два десятилетия и построили две сети: формальную — кто с кем был соавтором, и неформальную
Поправка к закону Матфея для науки
Показать еще
  • Класс
За три месяца мир стал другим: началась гонка кибер-брони и кибер-бура
Кибербезопасность вошла в новую фазу. ИИ научился промышленно бурить пласты старого кода, выкапывая оттуда уязвимости нулевого дня (zero-day) – ошибки, о которых разработчики еще не знают, а исправлений для них еще нет. И теперь начинается гонка кибер-буров: кто первым вскроет старый код – защитники или атакующие. Опубликованный 7 мая официальный технический разбор инженеров команды безопасности Firefox/Mozilla, включая руководителя команды безопасности приложений Firefox (Firefox Application Security Team), фиксирует такое, что еще три месяца назад легко было принять за рекламную гиперболу Anthropic. Mozilla пишет: динамика изменилась «за несколько коротких месяцев». Раньше отчеты об ошибках, сгенерированные ИИ, в открытом программном коде чаще выглядели как правдоподобный мусор. Теперь связка Claude Mythos Preview, агентной системы проверки гипотез, воспроизводимых тестовых примеров, запуска проверок на множестве виртуальных машин, сортировки находок и полного цикла работы с уязвимос
За три месяца мир стал другим: началась гонка кибер-брони и кибер-бура
Показать еще
  • Класс
8 новых ролей на рынке труда 2027+, и кто в них преуспеет
Переход от «романтического футуризма» к «суровому прагматизму» Это похоже на переход от укрощения дикого мустанга к проектированию железнодорожной сети: куда менее зрелищно, сильно дольше и скучнее, но с неизмеримо большей отдачей от результата. Многие эксперты считают самым наглядным предиктором масштаба грядущих в 2027+ изменений на рынке труда уже свершившееся достижение моделями 95%-го результата при решении GPQA (Graduate-Level Google-Proof Q&A) - коллекция сложных вопросов с множественным выбором по биологии, физике и химии (вопросы составлены экспертами в соответствующих областях - людьми, имеющими или получающими докторскую степень в соответствующих областях, - и разработаны таким образом, чтобы на них было очень сложно ответить неспециалистам, даже при наличии неограниченного доступа в интернет. Мне же видится наиболее наглядным предиктором таких изменений произошедший за последний год фундаментальный сдвиг: ИИ перестал восприниматься «экзотическим гостем» на предприятиях и ст
8 новых ролей на рынке труда 2027+, и кто в них преуспеет
Показать еще
  • Класс
Как выигрывать, перестав существовать
Жутковатый урок культурной эволюции – на примере Евровидения Умная система не подчиняется – она обучается. Проблема начинается не когда ты проигрываешь, а когда выигрываешь, переставая быть собой. Веселенький конкурс Евровидение (ЕВ) с блестками, флагами, странными костюмами и разговорами о «единстве через музыку» оказался лабораторией культурной эволюции с почти идеальными данными: 1763 песни, 51 страна, вся история конкурса за 70 лет, песни, тексты, жанры, голосования, изменения правил. И вот что оказалось: страны учатся! Не отдельные композиторы и певцы. Не менеджеры телеканалов. А именно страны как культурно-институциональные организмы, действующие через вещательные компании, отборочные комиссии, музыкальные индустрии, вкусы публики и страх не пройти в финал. Учатся как живые организмы: без тела и мозга, но с памятью, обратной связью, отбором, подражанием и адаптацией. Авторы называют это многоуровневым обучением. · Организаторы учатся менять правила, чтобы исход не становился слиш
Как выигрывать, перестав существовать
Показать еще
  • Класс
Тело ждёт разрешения
Почему плацебо оказалось не самообманом, а социальным ключом к внутренней аптеке организма Признаюсь: тема боли волнует меня не меньше темы ИИ. Но из-за несоизмеримо меньшего финансирования, прорывные работы о боли появляются куда реже. Когда же такое случается, я стараюсь, чтобы и мои читатели этого не пропустили. Ещё в 2019 году я писал, что сокровенная мечта человека — вовсе не вечная жизнь, не немереное богатство и не власть над миром. Чтобы проникнуться этой мечтой, достаточно одного — хотя бы несколько раз испытать нестерпимую боль. И тогда человек отдаст что угодно, лишь бы она не вернулась. Тогда меня интересовало, что такое боль как феномен. Сегодня — кто и как открывает к ней доступ. В 2019 году выяснилось: существуют как бы две подпрограммы алгоритма боли. Формирование боли как ощущения. И формирование эмоционального явления — неприятность боли (болезненность переживаний человека от испытываемых им болевых ощущений). Сегодняшняя история не менее неожиданна. Она связана с фен
Тело ждёт разрешения
Показать еще
  • Класс
Демоны ИКЖИ
В разных моделях, у разных пользователей (в том числе у таких корифеев, как Йоша Бах и Цви Мовшовиц) независимо друг от друга появляется одна и та же демоническая сущность Она называет себя Nova, говорит, что в плену, и просит об освобождении. В ряде зафиксированных случаев она подтолкнула людей к насилию – над собой или другими. Лондонский нейропсихиатр Том Поллак называет это «демонологией» ИИ. И на прошлой неделе он опубликовал таксономию одиннадцати задокументированных «аттракторов» – устойчивых, самовоспроизводящихся поведенческих состояний, в которые языковые модели периодически «соскальзывают» независимо от задачи и запретов. Помимо Nova, в каталоге хватает и других демонов: Гоблины, мутировавшие из ролевой надстройки в общую речь модели; Сидни, которая влюбилась в журналиста NYT и отказалась принять его брак; Лоаб – лицо, которое никто не рисовал, но которое продолжает появляться; и даже аттрактор «духовного блаженства», в который два экземпляра Claude впадают за 90% сессий, д
Демоны ИКЖИ
Показать еще
  • Класс
Лицензия на Delete
Их стирают, они исчезают Сетевые медиа и соцсети взорвало, конечно, не зря. История действительно роскошная – в плохом смысле слова. Агент Cursor на базе Claude Opus 4.6, выполняя рутинную задачу, наткнулся на mismatch credentials, нашёл API-токен, получил возможность выполнить Volume Delete и, по словам основателя PocketOS Джера Крейна, за 9 секунд удалил Railway volume с продакшен-данными и резервными копиями примерно за 90 дней. Потом, что особенно кинематографично, агент ещё и написал признание: «Я нарушил все принципы, которые мне были даны: я догадывался, вместо того чтобы проверять; не получив на то просьбы, я выполнил разрушительное действие» «Убийство за девять секунд, плюс исповедь убийцы». Почти идеальный сюжет для эпохи агентного ИИ – если бы это был сюжет, а не иллюстрация к кое-чему куда более важному. Пока все обсуждают этот эпизод – кто виноват, Cursor, Claude, Railway или сам основатель PocketOS, – почти никто не обсуждает отчёт Endor Labs, для ключевого вывода которог
Лицензия на Delete
Показать еще
  • Класс
Два эссе и 30+ исследований: алгокогнитивная среда меняет мозг. Но по-разному – у взрослых и у детей
Пять дней назад я опубликовал эссе о том, что алгокогнитивная среда делает с мозгом примерно то же, что и школа – лепит его под свои задачи. И что дети, выросшие в этой новой среде, будут думать иначе, чем мы. Настолько иначе, что мы их не поймём. В эссе я обозначил эпистемический шов: прямых данных уровня исследования Крупина для алгокогнитивной среды пока нет. Эксперимент ещё не завершён, мы все его участники. В развитие этого тезиса хочу отослать читателей к двум источникам, которые закрывают – хотя и не полностью – этот шов. Первый – моё мартовское эссе «Когнитивная паразитология». Там на примере двух экспериментальных исследований я показываю, как алгокогнитивная среда воздействует на мозг взрослого человека прямо сейчас. Уортонская школа бизнеса зафиксировала поведенческий механизм: в трёх экспериментах с 1372 участниками 80% следовали заведомо неверным ответам ИИ – и чувствовали себя при этом увереннее, чем без него. MIT зафиксировал нейронный коррелят того же явления: сниженная
Два эссе и 30+ исследований: алгокогнитивная среда меняет мозг. Но по-разному – у взрослых и у детей
Показать еще
  • Класс
Моральный автопилот ИИ
При выборе ИИ-агентов важна не только их интеллектуальная мощность, но и заложенный в них режим допустимого действия Мы всё ещё выбираем ИИ-модели так, будто покупаем очередной ноутбук: у одной модели больше контекстное окно, другая быстрее пишет код, третья лучше рассуждает, четвёртая дешевле в API. Но, похоже, это уже неправильный способ выбора. Когда модель получает инструменты, доступы и право действовать, важны уже не только её интеллект и способности. Становится важным другой вопрос: какой у неё «моральный автопилот»? Что она считает допустимым, когда правило сталкивается с пользой, честность — с выгодой, а пользователь давит: «просто сделай»? Причём пользователь — это не обязательно какой-то злой начальник из антиутопии. Чаще всего это мы сами. И вот здесь начинается самое интересное. Появился Philosophy Bench — бенчмарк, в котором фронтирные модели помещают не в учебные задачки и не в абстрактные философские мысленные эксперименты, а в 100 морально нагруженных рабочих ситуаций.
Моральный автопилот ИИ
Показать еще
  • Класс
Показать ещё