См. также другие публикации, посвященные LLM
AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Sunday, June 21, 2026
Переполнение подсказок
Saturday, June 20, 2026
О безопасности ML
И даже такая базовая вещь, как внедрение уязвимостей с помощью инъекции подсказок все еще быстро растет. Это означает, что в сфере безопасности, вероятно, произойдёт смещение в сторону мониторинга, обнаружения вторжений и песочницы, как это было в начале 2000-х, сначала рассматривая LLM как «чёрный ящик», входы и выходы которого требуют строгого контроля. Этот сдвиг уже идёт полным ходом. Сколько продуктов для межсетевых экранов на основе ИИ уже представлено на рынке? Далее мы поймём, что нам нужно проникнуть внутрь «чёрного ящика» и разработать набор методов обеспечения безопасности, которые будут моральным эквивалентом анализа кода и архитектурного анализа. Мы пока не знаем, что это значит, но такие работы, как исследования трансформаторных цепей Anthropic, открывают новые горизонты. - NO SECURITY METER FOR AI
Friday, June 19, 2026
Поет морзянка за стеной веселым дискантом
Thursday, June 18, 2026
Автоматизация косвенных инъекций
См. также другие публикации, посвященные LLM
Wednesday, June 17, 2026
Агенты данных под атакой
См. также другие публикации, посвященные агентам
Tuesday, June 16, 2026
Monday, June 15, 2026
Sunday, June 14, 2026
О дифференциальной приватности
Saturday, June 13, 2026
Защиты не вечны, атаки - не окончательны
Как бы мы ни старались, мы никогда не сможем сделать искусственный интеллект полностью неоспоримым с помощью традиционных моделей безопасности. В рецензируемом журнале IEEE Security and Privacy Апостол Василев, старший научный сотрудник Национального института стандартов и технологий (NIST), опубликовал математическое доказательство этого утверждения, опубликовавшее работу, опубликованную в 1931 году известным логиком Куртом Гёделем. Его теоремы о неполноте показали, что существуют пределы того, что можно доказать в системе, построенной на конечном числе правил.
Ограничения, управляющие поведением ИИ, — это именно такая система, и одним из последствий доказательства является то, что всегда найдётся способ заставить систему ИИ игнорировать свои правила — всё остаётся только в том, чтобы её найти.
«Один из столпов ответственного ИИ — это то, чтобы технология была безопасной», — сказал Василев, автор доказательства и эксперт по состязанию в машинном обучении. «Ты хочешь, чтобы он выдержал атаки противника и выполнял только то, что хочешь тебе, а не то, что мог бы захотеть нападающий. Это доказательство показывает, что не существует конечного набора ограничителей, которые были бы универсально устойчивы к враждебным стимулам.»
Компании, разрабатывающие ИИ, часто признают, что инструменты, которые они создают, могут причинить вред физическому миру, поэтому вводят ограничения, направленные на предотвращение создания запрещённого контента, такого как дипфейки, вредоносное ПО или инструкции по созданию биологического оружия или запрещённых наркотиков. Если систему попросят генерировать такой контент, ограничители должны отметить проблему и отказаться выполнять требования.
Однако эти ограничения не являются безошибочными Злоумышленники могут обходить их, создавая подсказки так, чтобы ИИ случайно обходил собственные механизмы отказа. Успешный «джейлбрейк» ИИ лишает его ограничений, что приводит к реальным рискам, таким как кибератаки, утечки данных и высоко персонализированные фишинговые сообщения.
Первоначальное доказательство Гёделя разрушило надежды нескольких выдающихся математиков, которые в начале XX века пытались создать математическую «теорию всего» из небольшого набора базовых утверждений или аксиом. С хорошо подобранным набором начальных аксиом, рассуждали они, можно было бы доказать все идеи в любой области математики.
«Гёдель положил конец этой мечте», — сказал Василев. «Он показал, что нельзя иметь конечный набор утверждений и создать теорию, которая будет полной и последовательной без противоречий. Вы можете добавить больше утверждений, чтобы устранить противоречия, с которыми сталкиваетесь, но вы возвращаетесь к тому, с чего начали. Это повторяется.»
В случае ИИ «конечный набор утверждений» — это группа ограничителей, которые создаёт дизайнер ИИ, чтобы не дать ИИ сделать что-то нежелательное. Независимо от того, насколько хорошо они продуманы, доказательства Василева показывают, что всегда найдётся способы подтолкнуть ИИ, чтобы он нарушил эти правила. Всё дело в том, чтобы найти правильный запрос.
«Логика Гёделя здесь применена», — говорит Василев. «Ты никогда не сможешь утверждать, что ты устойчив ко всем внезапным атакам противника. Всегда будет какая-то подсказка, которая потенциально сможет обойти и разрушить любую оборонительную инфраструктуру, которую ты построил вокруг своей системы ИИ.»
К счастью для защитников, эта новая математическая теория оставляет пространство для усиления развернутых систем ИИ до такой степени, что их сложно эксплуатировать. Доказательство Василева не даёт рецепта для злоумышленников о том, как находить новые эксплойты.
«Вы заставляете злоумышленника искать то, что специалисты по безопасности называют "нулевыми дновыми эксплойтами" — это проблемы в системе, о которых знает только вы», — говорит Васильев. «Хакеры часто пользуются этими уязвимостями, когда находят их. И если они обнаруживают такую уязвимость в системе одной компании, обычно проходит немного времени, прежде чем кто-то воспользуется ею в другой системе с той же уязвимостью.»
Такие эксплойты нулевого дня для традиционного детерминированного программного обеспечения было нелегко найти и реализовать, отметил Василев; Часто им требовались ресурсы противников уровня национального государства. Проблема эпохи ИИ, по словам Василева, в том, что мы используем человеческий язык как вход в систему. Сложность и богатство языка делают проверку соответствия, построенную на конечном наборе правил, бесконечно неоднозначной. Количество способов, которыми противники могут скрывать вредные намерения на виду, практически безгранично.
Что же нам тогда делать? Василев предлагает подход, который не решит проблему полностью, но значительно усложнит успешное джейлбрейк ИИ враждебным подсказкам.
Подход состоит из трёх элементов: постоянной работы «красных команд», которые стремятся выявить новые враждебные запросы раньше, чем реальные атакующие; постоянные обновления, которые ужесточают барьеры ИИ от недавно обнаруженных враждебных подсказок; и операционной устойчивости, которая ставит приоритет на ограничение воздействия и быстрое восстановление, когда возникает эксплойт, а не если.
«Цель — достичь ситуации, когда стоимость поиска новых эксплойтов превысит ресурсы злоумышленников», — сказал он. «В математике не уйти от Гёделя, а в ИИ ты, скорее всего, не сможешь запатчить систему ИИ, как LLM, и надеяться, что всё будет нормально вечно. Нужно постоянно искать слабые места и опережать нападающих. Цель — достичь нового экономического равновесия, при котором злоумышленникам будет финансово невыгодно пытаться сломать вашу систему ИИ. Это может быть дорого, но это цена даже частичной безопасности, которая должна позволить организациям максимально использовать преимущества ИИ, минимизируя риски.» - отсюда
Friday, June 12, 2026
А кто это сделал?
Thursday, June 11, 2026
Wednesday, June 10, 2026
Что делать со статьями, написанными ИИ?
В этом году в рамках секции «Позиционные доклады» конференции NeurIPS 2026 было принято решение обязать авторов в значительной степени использовать человеческий труд, а ИИ — только для корректуры или подобных второстепенных изменений основного текста. Хотя мы признаем, что продуманное использование ИИ может привести к повышению производительности исследований, применение ИИ для написания докладов создает серьезный риск для системы рецензирования. В этом году, как председатели секции «Позиционные доклады», мы придерживаемся консервативного подхода, поскольку считаем, что в случае аргументированных работ, таких как позиционные доклады, чрезмерное использование ИИ при написании представленных докладов мало полезно для всего исследовательского сообщества. Текст, сгенерированный ИИ, часто выглядит привлекательно, но может значительно отличаться от первоначального замысла авторов. В этом случае представление текста, сгенерированного ИИ, на рецензирование перекладывает затраты на проверку этой работы на рецензентов. Если же сам текст, сгенерированный ИИ, не является бессвязным или вводящим в заблуждение, это поднимает вопросы о надлежащем распределении заслуг.
Придерживаемся в журнале INJOIT такой же позиции. Статья - авторский материал. Есть (должен быть) автор. А просто при выполнении работы (производственного задания) есть исполнитель, который может, конечно, использовать любые инструменты.
Tuesday, June 09, 2026
Не до законов - 3
Альтман попросит Конгресс увеличить финансирование тестирования искусственного интеллекта в Министерстве торговли США. Министерство уже сотрудничает с такими компаниями, как OpenAI и Anthropic, для тестирования их моделей. В заявлении компании говорится, что OpenAI хочет, чтобы правительство США расширило эту инициативу и привлекло ученых, обладающих опытом в области кибербезопасности, биологического оружия и национальной безопасности, среди прочих тем.
Визит Альтмана в Вашингтон совпадает с критическим периодом для компании и отрасли. Как ранее сообщало агентство Reuters, компания OpenAI готовится конфиденциально подать заявку на первичное публичное размещение акций (IPO). Конкурент Anthropic, производитель Claude, в понедельник конфиденциально подал заявку на IPO в США. Требования федерального правительства могут негативно сказаться на прибыли отрасли, если они замедлят внедрение новых моделей или побудят компании изменить характеристики своей продукции для решения проблем безопасности. - OpenAI's Altman to urge US lawmakers not to require AI model approvals
Умом ИИ не понять, в ИИ нужно только верить ...
Monday, June 08, 2026
Водит как подросток
Однако анализ CNN данных местных и федеральных органов власти, а также видеороликов в социальных сетях показывает, что та же самая особенность, которая делает роботакси Waymo менее склонными к опасным столкновениям — отсутствие водителя-человека — также создает совершенно новые проблемы безопасности, которые беспокоят правительственных чиновников, поскольку компания стремится расширить свою деятельность за пределы 11 городов, где она в настоящее время работает.
CNN выявила сотни инцидентов, в которых роботакси якобы совершали опасные маневры и испытывали трудности с препятствиями, с которыми люди инстинктивно справляются. Они проезжали на красный свет, выезжали на встречную полосу и на места преступлений, не соблюдали правила дорожного движения и приближались на расстояние нескольких сантиметров к пешеходам, законно переходящим улицу — ошибки, которые роботизированные автомобили должны быть запрограммированы избегать.
За последние два месяца компания Waymo отозвала тысячи автомобилей и приостановила работу в нескольких городах после того, как роботакси выехали на затопленные улицы, в том числе в Сан-Антонио, где пустой автомобиль Waymo был смыт бурным потоком воды. А недавно компания объявила о приостановке работы на всех автомагистралях в таких городах, как Лос-Анджелес и Майами, после того, как один из пассажиров из Сан-Франциско рассказал на форуме X, что его роботакси устроило высокоскоростную погоню с полицией через зону активных дорожных работ. - ‘Driving like teenagers’: Waymo robotaxis have run red lights and nearly hit pedestrians, CNN finds
