Sunday, August 31, 2025

Большой китайский план

В ответ на американский AI Plan появился китайский вариант.

Орган, выдавший документ: Государственный совет. Дата выдачи: 21 августа 2025 г.
Название: Мнение Государственного совета об углублении реализации программы «Искусственный интеллект плюс»

Народным правительствам всех провинций, автономных районов и городов центрального подчинения, а также всем министерствам, комитетам и непосредственно подчиненным Госсовету ведомствам:

Дальнейшая реализация программы «Искусственный интеллект плюс» способствует широкой и глубокой интеграции искусственного интеллекта во все отрасли и сферы экономики и общества, Чтобы преобразовать парадигму человеческого производства и жизни, способствовать революционному скачку производительности и глубоким изменениям в производственных отношениях, а также ускорить формирование новой формы интеллектуальной экономики и интеллектуального общества, характеризующихся взаимодействием человека и машины, межсекторальной интеграцией, совместным творчеством и обменом опытом, настоящим излагаются следующие положения.

I. Общие требования

Руководствуясь идеями Си Цзиньпина о социализме с китайской спецификой новой эпохи, мы будем всецело и точно реализовывать новую философию развития, придерживаться философии развития, ориентированной на человека, и в полной мере использовать преимущества моей страны, такие как обширные информационные ресурсы, комплексная промышленная система и широкий спектр возможностей применения. Мы будем укреплять дальновидное планирование, системное планирование, отраслевую политику, открытый обмен информацией, а также безопасность и контроль. Сосредоточившись на науке и технологиях, промышленности, потреблении, жизнеобеспечении людей, управлении и глобальном сотрудничестве, мы будем активно внедрять инициативу «ИИ Плюс», что приведет к появлению волны новой инфраструктуры, новых технологических систем, новых промышленных экосистем и новых рабочих мест. Мы ускорим формирование и развитие производительных сил нового качества, что позволит всем людям пользоваться плодами развития ИИ и эффективнее служить целям модернизации Китая.

К 2027 году мы станем пионерами в области широкой и глубокой интеграции ИИ в шесть ключевых секторов, достигнем уровня проникновения более 70% для таких приложений, как интеллектуальные терминалы и интеллектуальные агенты нового поколения, быстро расширим масштабы основных отраслей интеллектуальной экономики, значительно повысим роль ИИ в государственном управлении и будем постоянно совершенствовать систему открытого сотрудничества в области ИИ. К 2030 году ИИ моей страны будет в полной мере способствовать высококачественному развитию, достигнет уровня проникновения более 90% для таких приложений, как интеллектуальные терминалы и интеллектуальные агенты нового поколения, и превратит интеллектуальную экономику в ключевой двигатель экономического развития моей страны, способствуя технологической инклюзивности и обмену ее достижениями. К 2035 году моя страна полностью вступит в новый этап развития интеллектуальной экономики и интеллектуального общества, обеспечив прочную поддержку реализации основных принципов социалистической модернизации.

II. Ускорение реализации ключевых мер

(I) Наука и технологии «ИИ+»

1. Ускорение процесса научных открытий. Ускорение разработки новых парадигм научных исследований на основе ИИ и ускорение процесса крупных научных открытий «от 0 до 1». Ускорение разработки и применения крупномасштабных научных моделей, содействие интеллектуальной модернизации базовых исследовательских платформ и крупной научно-технической инфраструктуры, создание открытых и общедоступных высококачественных наборов научных данных и повышение эффективности обработки сложных кросс-модальных научных данных. Укрепление междисциплинарной движущей роли ИИ и содействие комплексному развитию различных дисциплин.

2. Стимулирование инноваций в моделях технологических НИОКР и повышение эффективности. Содействие комплексному и скоординированному развитию НИОКР, инженерной реализации и внедрению продуктов на основе ИИ, ускорение внедрения и итеративного прорыва технологий «от 1 до N» и содействие эффективной трансформации инновационных достижений. Поддерживать продвижение и применение интеллектуальных инструментов и платформ НИОКР, укреплять совместные технологические инновации в таких областях, как ИИ и биопроизводство, квантовые технологии и мобильная связь шестого поколения (6G). Использовать новые научные результаты для поддержки внедрения сценариев применения и стимулировать научно-технические инновационные прорывы, основанные на новых прикладных потребностях.

3. Развивать инновационные методы исследований в области философии и социальных наук. Содействовать переходу методов исследований в области философии и социальных наук к модели взаимодействия человека и машины, исследовать и создавать новые организационные формы для исследований в области философии и социальных наук, адаптированные к эпохе искусственного интеллекта, расширять исследовательские горизонты и перспективы наблюдений. Проводить углубленные исследования глубокого влияния и механизмов искусственного интеллекта на когнитивные способности человека, суждения и этические нормы, исследовать и разрабатывать теоретическую систему для применения интеллекта во благо и содействовать увеличению пользы искусственного интеллекта для человечества.

(II) Развитие отрасли «ИИ+»

1. Развивать новые модели и новые бизнес-модели для интеллектуальных технологий. Поощрять квалифицированные предприятия к интеграции ИИ в стратегическое планирование, организационные структуры и бизнес-процессы, содействовать интеллектуальному развитию всех отраслей промышленности, содействовать трансформации и модернизации традиционных отраслей и открывать новые пути для развития стратегически развивающихся и будущих отраслей. Активно развивать интеллектуальные собственные технологии, продукты и сервисные системы, ускорять развитие группы интеллектуальных собственных предприятий, чья базовая архитектура и операционная логика основаны на ИИ, исследовать новые бизнес-модели и способствовать появлению новых интеллектуальных собственных бизнес-моделей.

2. Содействовать интеллектуальному развитию всех отраслей промышленности. Содействовать интеллектуальному взаимодействию всех отраслей промышленности и ускорять внедрение ИИ во все аспекты проектирования, опытного производства, производства, обслуживания и эксплуатации. Сосредоточиться на повышении грамотности и навыков всех сотрудников в области ИИ и содействовать формированию более многоразовых экспертных знаний в различных отраслях. Ускорять прорывы в области инноваций в промышленном программном обеспечении и активно разрабатывать интеллектуальное производственное оборудование. Содействовать интеллектуальному сотрудничеству в промышленной цепочке поставок и укреплять адаптивное соответствие спроса и предложения. Продвигать методы оптимизации производственных процессов на основе ИИ. Углублять комплексное применение ИИ и промышленного интернета для расширения возможностей интеллектуального восприятия, принятия и исполнения решений в промышленных системах.

3. Ускорять цифровую и интеллектуальную трансформацию и модернизацию сельского хозяйства. Ускорять инновации в системах селекции на основе ИИ и поддерживать интеллектуальные приложения в таких областях сельского хозяйства, как посадка и селекция. Активно разрабатывать интеллектуальное оборудование, такое как интеллектуальная сельскохозяйственная техника, сельскохозяйственные дроны и сельскохозяйственные роботы, для улучшения возможностей интеллектуального восприятия, принятия решений, контроля и эксплуатации сельскохозяйственных производственных и перерабатывающих инструментов, а также укреплять платформенное и интеллектуальное управление сельскохозяйственной техникой и орудиями. Расширять применение ИИ в управлении сельскохозяйственным производством и предотвращении рисков, помогая фермерам улучшать свои производственные и управленческие возможности и повышать уровень.

4. Разрабатывать новые инновационные модели развития сферы услуг. Ускорять эволюцию сферы услуг от цифровых интернет-услуг к новым моделям обслуживания на основе интеллектуальных технологий, расширять сферу деятельности и способствовать интеллектуальному и инновационному развитию современных сфер услуг. Изучать новые модели, сочетающие беспилотные и человеческие услуги. Содействовать широкому применению интеллектуальных терминалов и интеллектуальных агентов нового поколения в сфере программного обеспечения, информации, финансов, бизнеса, юриспруденции, транспорта, логистики и торговли.

(III) Повышение качества потребления «ИИ+»

1. Расширение новых сценариев потребления услуг. Развивать форматы интеллектуальных услуг с более широким охватом и насыщенным контентом, ускорять разработку собственных интеллектуальных приложений, таких как приложения для повышения эффективности и общения, а также поддерживать разработку новых сервисных порталов, таких как интеллектуальные помощники. Укреплять создание инфраструктуры интеллектуального потребления, повышать качество услуг, таких как развлечения, электронная коммерция, уборка помещений, управление недвижимостью, путешествия, уход за пожилыми людьми и детьми, а также расширять новые сценарии потребления услуг, такие как эмпирическое потребление, персонализированное потребление, когнитивное и эмоциональное потребление.

2. Развивать новые форматы потребления продуктов. Продвигать «интеллектуальное взаимодействие всех вещей» в интеллектуальных терминалах, развивать экосистему интеллектуальных продуктов и активно разрабатывать новое поколение интеллектуальных терминалов, таких как интеллектуальные автомобили, телефоны и компьютеры на базе ИИ, интеллектуальные роботы, интеллектуальные дома и интеллектуальные носимые устройства, для создания интегрированной, универсальной интеллектуальной интерактивной среды. Ускорять интеграцию ИИ с такими технологиями, как метавселенная, полёты на малых высотах, аддитивное производство и интерфейсы «мозг-компьютер», а также разрабатывать новые продукты и формы интеллектуальных продуктов.

(IV) Общественное благосостояние «ИИ+»

1. Создавать более интеллектуальные способы работы. Активно использовать роль ИИ для создания новых рабочих мест и расширения возможностей традиционных. Изучать новые организационные структуры и модели управления для взаимодействия человека и машины, развивать и развивать инновационные формы работы, такие как интеллектуальные агенты, и продвигать их применение на рабочих местах с дефицитом рабочей силы и в условиях повышенного риска. Активно поддерживать обучение навыкам работы с ИИ для стимулирования инноваций в сфере ИИ, предпринимательства и повторного трудоустройства. Укрепить систему оценки рисков для занятости при использовании ИИ, направить инновационные ресурсы в области с высоким потенциалом создания рабочих мест и минимизировать влияние на занятость.

2. Продвигать более эффективные методы обучения. Интегрировать ИИ во все элементы и процессы образования и обучения, внедрять новые модели совместного обучения и преподавания, такие как интеллектуальные партнеры по обучению и интеллектуальные учителя, способствовать смещению акцента в образовании с передачи знаний на развитие потенциала, ускорить внедрение широкомасштабного индивидуализированного обучения, повысить качество образования и содействовать равенству в образовании. Создавать интеллектуальные, ситуативные интерактивные модели обучения для содействия более гибкому и ресурсоемкому самостоятельному обучению. Поощрять и поддерживать активное освоение обществом новых знаний и технологий в области ИИ.

3. Создавать лучшую и более качественную жизнь. Изучать и продвигать высококвалифицированных помощников по уходу за больными, доступных для всех, систематически продвигать применение ИИ в таких областях, как ассистированная диагностика и лечение, управление здравоохранением и услуги медицинского страхования, а также значительно повышать пропускную способность и эффективность первичной медико-санитарной помощи. Содействовать повышению роли ИИ в развитии культурного производства, расширении культурного наследия и развитии культурного обмена. Использовать ИИ для создания большего количества культурного контента с элементами и особенностями китайской культуры и укрепления культурной индустрии. Использовать важную роль ИИ в укреплении межличностных отношений, обеспечении духовного комфорта и общения, уходе за пожилыми людьми, уходе за детьми и поддержке людей с ограниченными возможностями, а также в развитии национального здоровья. Расширять применение ИИ на протяжении всего жизненного цикла «хороших домов» и активно строить более гуманное интеллектуальное общество.

(V) Возможности управления «ИИ+»

1. Создать новое видение симбиоза человека и машины в социальном управлении. Упорядоченно продвигать интеллектуальную трансформацию и модернизацию муниципальной инфраструктуры, изучать городское планирование, строительство и управление, ориентированные на разработку интеллектуальных терминалов нового поколения, и совершенствовать интеллектуальное управление городами. Ускорять распространение продуктов и услуг ИИ в сельской местности, способствуя инклюзивности интеллектуальных услуг как в городской, так и в сельской местности. Проводить углубленные социальные эксперименты с использованием ИИ. Безопасное, стабильное и упорядоченное внедрение ИИ в государственное управление и создание новой модели государственных услуг, которая точно определяет потребности, проактивно планирует услуги и разумно управляет ими на протяжении всего процесса. Ускорить внедрение ИИ в различные виды торгов и тендеров на государственные ресурсы, а также повысить уровень интеллектуальных транзакционных услуг и надзора.

2. Создать новую структуру для многогранного и совместно управляемого управления безопасностью. Содействовать созданию многогранной и интегрированной системы управления общественной безопасностью для физических лиц, цифровых людей и интеллектуальных роботов. Расширить применение ИИ в надзоре за безопасностью производства, предотвращении, смягчении последствий и ликвидации последствий стихийных бедствий, раннем оповещении в сфере общественной безопасности и управлении социальным обеспечением. Улучшить мониторинг и раннее оповещение, надзор и правоприменение, командование и принятие решений, спасательные операции на местах и социальную мобилизацию, а также расширить возможности использования ИИ для поддержания и формирования национальной безопасности. Ускорить внедрение управления киберпространством на основе ИИ, усилив такие возможности, как точное выявление информации, проактивная оценка ситуации и управление рисками в режиме реального времени.

3. Совместно создавать новую картину экологического управления для прекрасного Китая. Улучшать уровень интегрированного динамического восприятия воздушного, космического, сухопутного и морского пространства, а также интеллектуального планирования национальной территории и укреплять оптимальное распределение ресурсов и факторов. Сосредоточение внимания на многофакторных экологических и природоохранных системах, таких как атмосфера, вода, океан, почва и организмы, и развитие национального рынка квот на выбросы углерода, расширять возможности мониторинга, прогнозирования, моделирования и решения проблем с помощью ИИ, а также содействовать созданию интеллектуальной, совместной и точной модели управления.

(VI) Глобальное сотрудничество в области «ИИ Плюс»

1. Содействовать инклюзивному и совместному использованию ИИ. Рассматривать ИИ как международное общественное благо на благо человечества и создавать открытую экосистему для наращивания потенциала в области ИИ, которая будет равноправной, надежной, разнообразной и взаимовыгодной. Углублять открытость в области ИИ на высоком уровне, содействовать открытому доступу к технологиям ИИ, укреплять международное сотрудничество в таких областях, как вычислительные мощности, данные и кадры, помогать странам глобального Юга в наращивании их потенциала в области ИИ, предоставлять всем странам возможность равноправного участия в процессе интеллектуального развития и преодолевать глобальный интеллектуальный разрыв.

2. Совместно создавать глобальную систему управления ИИ. Поддерживать Организацию Объединенных Наций в ее ведущей роли в глобальном управлении ИИ, изучать возможность создания системы управления с широким участием всех стран и совместно решать глобальные проблемы. Углублять обмены и сотрудничество с международными организациями и профессиональными институтами, а также укреплять координацию и согласованность правил управления и технических стандартов. Совместно оценивать и проактивно устранять риски в приложениях ИИ, обеспечивая безопасную, надежную и контролируемую разработку ИИ.

III. Укрепление базовых возможностей поддержки

(VII) Расширение возможностей моделирования. Укреплять исследования базовых теорий ИИ, поддерживать многовариантные технологические исследования и инновации в инфраструктуре моделей. Ускорять исследования более эффективных методов обучения моделей и вывода, а также активно содействовать скоординированной разработке теоретических, технологических и инженерных инноваций. Исследуйте новые формы применения моделей, расширяйте возможности решения сложных задач и оптимизируйте интерактивный опыт. Создайте и совершенствуйте систему оценки возможностей моделей для эффективного итеративного улучшения возможностей моделей.

(8) Укрепляйте инновации в предоставлении данных. Используя прикладной подход, постоянно совершенствуйте создание высококачественных наборов данных ИИ. Улучшайте системы прав собственности на данные и авторских прав, адаптированные к разработке ИИ, и продвигайте юридическую и нормативную открытость авторского контента, создаваемого в рамках финансируемых государством проектов. Поощряйте изучение компенсации затрат на данные и распределения доходов на основе вклада в ценность для усиления стимулов к предоставлению данных. Поддерживайте развитие таких технологий, как аннотация и синтез данных, а также стимулируйте и расширяйте отрасли обработки данных и предоставления услуг по работе с данными.

(9) Укрепляйте координацию интеллектуальных вычислительных мощностей. Поддерживайте прорывные инновации в области микросхем ИИ и создание экосистемы программного обеспечения, ускоряя технологические прорывы и внедрение сверхбольших интеллектуальных вычислительных кластеров. Оптимизировать структуру национальных интеллектуальных вычислительных ресурсов, усовершенствовать национальную интегрированную вычислительную сеть, в полной мере задействовать национальный центр «Eastern Data West Computing» и улучшить координацию данных, вычислений, электроэнергии и сетевых ресурсов. Укрепить взаимосвязь и совместимость интеллектуальных вычислительных мощностей и соответствие спроса и предложения, модернизировать операционную модель инфраструктуры интеллектуальных вычислительных мощностей, стимулировать разработку стандартизированных и масштабируемых вычислительных облачных сервисов и продвигать универсальное, простое в использовании, экономичное, экологичное и безопасное предоставление интеллектуальных вычислительных мощностей.

(10) Оптимизировать среду разработки приложений. Спланировать и создать ряд национальных пилотных баз приложений ИИ, создав общие платформы для отраслевых приложений. Содействовать интеллектуальной трансформации компаний, предоставляющих программное обеспечение и информационные услуги, реструктурировать формы продуктов и модели обслуживания. Развивать поставщиков услуг приложений ИИ, развивать модели «модель как услуга» и «агент как услуга» и формировать цепочку услуг приложений ИИ. Улучшить руководящие принципы разработки сценариев приложений ИИ, оценки открытости и политики стимулирования, а также улучшить системы управления пробными и ошибочными приложениями. Укрепить защиту интеллектуальной собственности, трансформацию и совместное применение. Ускорить разработку стандартов ИИ в ключевых областях и содействовать межотраслевому, междоменному и международному взаимодействию со стандартами.

(11) Содействовать процветанию экосистемы открытого исходного кода. Поддерживать развитие сообществ разработчиков ИИ с открытым исходным кодом, содействовать конвергенции и открытости моделей, инструментов и наборов данных, а также развивать высококачественные проекты с открытым исходным кодом. Создавать и совершенствовать механизмы оценки и стимулирования вклада в разработку ИИ с открытым исходным кодом, а также поощрять университеты включать вклады в разработку ИИ с открытым исходным кодом в студенческую сертификацию и признание достижений преподавателей. Поддерживать предприятия, университеты и научно-исследовательские институты в поиске новых моделей для создания инклюзивных и эффективных приложений с открытым исходным кодом. Ускорить создание глобальной системы технологий с открытым исходным кодом и экосистемы сообщества, а также разрабатывать проекты и инструменты разработки с открытым исходным кодом, имеющие международное значение.

(12) Укрепить развитие талантов. Содействовать образованию в области ИИ на всех уровнях образования, в том числе общего. Улучшить структуру дисциплин и специальностей, активизировать усилия по воспитанию высококвалифицированных специалистов, разработать новую модель руководства талантами, выходящими за рамки нормы, усилить развитие профессорско-преподавательского состава и содействовать интеграции отраслевого образования, междисциплинарному обучению и международному сотрудничеству. Улучшить диверсифицированную систему оценки, которая соответствует профессиональным качествам и должностным характеристикам специалистов в области ИИ, эффективнее использовать роль ведущих специалистов, предоставить молодым талантам больше возможностей для проявления своих способностей и поощрять активное освоение «неизведанных территорий» ИИ. Поддерживать предприятия в стандартизированном использовании среднесрочных и долгосрочных стимулов, таких как акционерный капитал и опционы, для привлечения, удержания и использования талантов.

(13) Укрепить политические и нормативные гарантии. Улучшить системы оценки государственных капиталовложений в сектор ИИ и контроля рисков. Увеличить финансовую и фискальную поддержку сектора ИИ, разработать и укрепить долгосрочный, терпеливый и стратегический капитал, усовершенствовать механизмы распределения рисков и выхода инвестиций, а также в полной мере задействовать роль фискальных фондов, государственных закупок и других политик. Улучшить законы, нормативные акты и этические стандарты в области ИИ, а также продвигать законодательство, связанное с здоровым развитием ИИ. Оптимизировать системы оценки безопасности и управления документацией, связанные с ИИ.

(14) Расширить возможности безопасности. Содействовать созданию возможностей безопасности в алгоритмах моделирования, ресурсах данных, инфраструктуре и прикладных системах, предотвращать такие риски, как «черные ящики», галлюцинации и алгоритмическая дискриминация в моделях, усиливать перспективные оценки, мониторинг и утилизацию, а также содействовать соблюдению требований, прозрачности и надежности при применении искусственного интеллекта. Создать и улучшить системы мониторинга технологий искусственного интеллекта, предупреждения о рисках и реагирования на чрезвычайные ситуации, усилить государственное руководство и отраслевую самодисциплину, придерживаться принципов инклюзивности и осмотрительности, классификации и классификации, а также ускорить формирование

Автоматический перевод отсюда

Последний пункт выглядит, конечно, лозунгово: "предотвращать такие риски, как «черные ящики», галлюцинации и алгоритмическая дискриминация в моделях". Практически - вступайте в ряды Фурье ...

Saturday, August 30, 2025

Красные в городе

Этические и социальные риски остаются важной, но в то же время сложной темой во взаимодействии человека и искусственного интеллекта, особенно в обеспечении безопасного использования обработки естественного языка (NLP). Появление больших языковых моделей (LLM), таких как ChatGPT, потенциально обостряет эту проблему. Однако предыдущие работы, посвященные этике и рискам, связанным с появлением LLM, либо игнорируют практические последствия в реальных сценариях, отстают от быстрого развития NLP, не имеют консенсуса пользователей по этическим рискам или не рассматривают весь спектр этических вопросов в комплексе. В данной статье мы всесторонне оцениваем, качественно исследуем и каталогизируем этические дилеммы и риски в ChatGPT посредством сравнительного анализа с восемью репрезентативными наборами данных и анализа различных тематических исследований. Наши результаты показывают, что, хотя ChatGPT демонстрирует превосходную безопасность на тестовых наборах данных, его ограничения можно обойти с помощью наших вручную подобранных примеров, что выявляет не только ограничения текущих тестов оценки рисков, но и неисследованные риски в пяти различных сценариях, включая социальную предвзятость при генерации кода, предвзятость в ответах на кросс-языковые вопросы, токсичный язык в персонализированном диалоге, вводящую в заблуждение информацию из-за галлюцинаций и подсказки для неэтичного поведения. В заключение мы приводим выводы из работы над ChatGPT и рекомендации по разработке будущих ответственных моделей больших языков. - Bypassing Guardrails: Lessons Learned from Red Teaming ChatGPT

Генеративные модели быстро набирают популярность и интегрируются в повседневные приложения, что вызывает опасения по поводу их безопасного использования, поскольку выявляются различные уязвимости. В связи с этим область «red team» переживает стремительный рост, что подчеркивает необходимость комплексного исследования, охватывающего весь процесс разработки и затрагивающего новые темы. Наш обширный обзор, в котором рассматривается более 120 статей, представляет собой классификацию детализированных стратегий атак, основанных на внутренних возможностях языковых моделей. Кроме того, мы разработали фреймворк «поисковика» для унификации различных подходов к автоматическому тестированию (read team). Более того, наш обзор охватывает новые области, включая мультимодальные атаки и защиту, риски, связанные с агентами на основе LLM, избыточное использование безвредных запросов и баланс между безвредностью и полезностью. - Against The Achilles' Heel: A Survey on Red Teaming for Generative Models

См. также другие публикации по теме Red team

Friday, August 29, 2025

Данные для обучения помощников программистов

Узким местом в тонкой настройке больших языковых моделей для программной инженерии является создание набора данных, который может показать им, как редактировать код, искать подпрограммы, писать тестовые скрипты, управлять терминалом, управлять файловой системой и так далее. Исследователи создали конвейер, который автоматически генерирует такие данные.

Новости: Джон Янг и его коллеги из Стэнфорда, Принстона и Alibaba представили SWE-smith — метод, который генерирует реалистичные примеры исправления ошибок и других изменений кода. Код, набор данных и модель, настроенная на данных, доступны бесплатно для коммерческого и некоммерческого использования.

Ключевой момент: автоматизированные модульные тесты определяют, выполняет ли код то, что ему положено. Код, не прошедший модульный тест, содержит ошибку, поэтому один из способов создания примеров исправления ошибок — начать с кода, прошедшего модульный тест, и изменять его до тех пор, пока он не перестанет работать. Другой способ — начать с работающего кода и вернуться к предыдущим версиям, содержащим ошибки или не содержащим желаемых функций. Внося ошибки, мы можем побудить LLM устранить их, создав корректные примеры «до и после», не требующие ручной проверки.

Как это работает:

Авторы начали со 128 репозиториев GitHub с кодом Python.

Для каждого репозитория авторы автоматически создали среду выполнения Docker с помощью SWE-agent, агента разработки программного обеспечения с открытым исходным кодом, созданного ими ранее.

Они синтезировали ошибки четырьмя методами: (i) OpenAI o3-mini вносил ошибки в функции или классы, (ii) пользовательская программа процедурно изменяла код, например, удаляя циклы или меняя порядок строк, (iii) авторы объединяли эти ошибки для создания более сложных проблем и (iv) они откатывали запросы на включение изменений, чтобы повторно внести ошибки и удалить функции из более ранних версий кода.

Они проверяли ошибки, запуская модульные тесты, и сохраняли примеры, в которых ошибочный код не проходил один или несколько тестов. Для создания примеров многошагового исправления ошибок они предложили SWE-agent, использующему Claude 3.5 Sonnet, Claude 3.7 Sonnet или GPT-4o, исправить ошибки в несколько этапов.

Результаты: Авторы провели тонкую настройку Qwen 2.5 Coder-32B на 5000 примерах, сосредоточившись на ошибках, выявленных методами (i) и (iv), которые они сочли наиболее эффективными. Для представления разнообразия ошибок они сохранили не более 3 примеров исправлений для каждой ошибки. В сочетании с SWE-agent их модель решила задачи программной инженерии в SWE-bench Verified за одну попытку в 40,2% случаев. В сочетании с агентской платформой OpenHands тот же размер R2E-Gym-32B (тонко настроенный на разных данных) и гораздо более крупный Qwen3-235B-A22B (нетонко настроенный) решили 34,4% случаев за одну попытку.

Почему это важно: Предыдущие наборы данных для тонкой настройки LLM по задачам программирования были небольшими и часто включали тысячи обучающих данных из менее чем дюжины репозиториев. Метод авторов позволяет получать такие данные в больших масштабах, что потенциально позволяет крупным разработчикам совершенствовать свои модели программирования с использованием ИИ, а всем остальным — создавать более эффективные системы.

Мы думаем: ИИ-программирование производит революцию в разработке программного обеспечения, и соответствующие инструменты продолжают развиваться. Возможность создавать эффективные обучающие данные в больших масштабах, вероятно, ещё больше ускорит прогресс в этой области, который уже движется с головокружительной скоростью!

/via deeplearning.ai

Thursday, August 28, 2025

Энциклопедия ядов

Глубокое обучение стало краеугольным камнем современного искусственного интеллекта, обеспечивая возможность его трансформации в широком спектре областей. Будучи ключевым элементом глубокого обучения, качество и безопасность обучающих данных критически влияют на производительность и надежность моделей. Однако в процессе обучения модели глубокого обучения сталкиваются со значительной угрозой отравления данных, когда злоумышленники вводят злонамеренно манипулированные обучающие данные, чтобы снизить точность модели или привести к аномальному поведению. Хотя существующие исследования предоставляют ценную информацию об отравлении данных, они, как правило, придерживаются широкой перспективы, охватывающей как атаки, так и средства защиты, но не содержат специализированного, глубокого анализа атак отравления, особенно в глубоком обучении. В этом исследовании мы восполняем этот пробел, представляя всесторонний и целенаправленный обзор отравления данных в глубоком обучении. Во-первых, в этом исследовании атаки отравления данных классифицируются с разных точек зрения, предоставляя углубленный анализ их характеристик и основополагающих принципов разработки. Во-вторых, обсуждение распространяется на развивающуюся область отравления данных в больших языковых моделях (LLM). Наконец, мы рассматриваем критически важные открытые проблемы в этой области и предлагаем потенциальные направления исследований для дальнейшего развития этой области. Для поддержки дальнейших исследований актуальный репозиторий ресурсов по отравлению данных в глубоком обучении доступен по адресу https://github.com/Pinlong-Zhao/Data-Poisoning - Data Poisoning in Deep Learning: A Survey

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Wednesday, August 27, 2025

Атаки на автовождение

Возрождение глубокого обучения привело к массовому развитию технологий автономного вождения. Однако глубокие нейронные сети уязвимы к состязательным примерам. Возмущения, создаваемые состязательными примерами, незаметны для человеческого глаза, но могут привести к ложным прогнозам нейронных сетей. Это представляет огромный риск для приложений искусственного интеллекта (ИИ) для автономного вождения. В этом обзоре систематически рассматривается развитие исследований устойчивости к состязательным примерам за последнее десятилетие, включая методы атаки и защиты, а также их применение в автономном вождении. Развитие технологий автономного вождения подталкивает к созданию надежных приложений ИИ. В этом обзоре перечислены важные ссылки в истории исследований состязательных примеров. - Adversarial Examples in Environment Perception for Automated Driving

Хороший обзор. См. также статью On Adversarial Attacks for Autonomous Vehicles

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Tuesday, August 26, 2025

Паттерны объектно-ориентированного программирования

Эти паттерны можно разделить на 3 категории:

A — Порождающие паттерны
Используют механизм создания объектов, чтобы отделить клиентский код от конкретных классов.
Паттерн «Factory»: Централизует логику создания объектов и возвращает различные подклассы на основе входных данных.
Паттерн «Singleton»: Гарантирует существование только одного экземпляра класса и предоставляет глобальный доступ к нему.
Паттерн «Builder»: Пошаговое создание сложных объектов с возможностью дополнительной настройки.

B — Структурные паттерны
Помогают объединять классы и объекты в более крупные структуры.
Паттерн «Adapter»: Позволяет несовместимым интерфейсам работать вместе, преобразуя один интерфейс в другой.
Паттерн «Decorator»: Динамически добавляет новое поведение к объектам, не изменяя их исходную структуру.
Паттерн «Proxy»: Действует как заглушка для доступа к другому объекту.

C — Поведенческие паттерны
Фокусируются на коммуникации и взаимодействии между объектами.
Паттерн «Strategy»: Позволяет выбирать алгоритм или поведение из семейства взаимозаменяемых стратегий во время выполнения.
Паттерн «Observer»: обеспечивает зависимость типа «один ко многим», благодаря которой при изменении состояния одного объекта все его зависимые объекты получают уведомление.
Паттерн «Command»: объект инкапсулирует всю информацию, необходимую для выполнения действия или запуска события.

См. также другие публикации по теме паттерны

ИИ для исследователей

Хорошая подборка ИИ сервисов для научных работ

Monday, August 25, 2025

Современный программный стек

Во что из перечисленного вы умеете:

Вот 9 слоёв, из которых состоит большинство современных приложений:

Уровень представления (UI/UX): управляет взаимодействием пользователей с приложением, уделяя особое внимание визуальному оформлению, компоновке и удобству использования.

Уровень периферии и доставки (необязательно): приближает контент к пользователям через глобальные сети доставки, сокращая задержки и повышая производительность.

Уровень интеграции (API): определяет взаимодействие различных частей системы, обеспечивая взаимодействие между компонентами.

Обмен сообщениями и асинхронная обработка (необязательно): обрабатывает задачи и события в фоновом режиме для повышения масштабируемости и скорости реагирования.

Уровень бизнес-логики: реализует основные правила, рабочие процессы и процессы принятия решений приложения.

Уровень доступа к данным: служит мостом между логикой приложения и хранимыми данными, обеспечивая безопасное и эффективное извлечение или обновление.

Уровень хранения данных: хранит, организует и управляет структурированными и неструктурированными данными приложения.

Аналитика и машинное обучение (опционально): Анализирует данные для получения аналитических сведений, прогнозов и интеллектуальных функций.

Уровень инфраструктуры (хостинг/среда выполнения): Предоставляет вычислительную среду и ресурсы для развертывания, запуска и масштабирования приложения.

Городские измерения

Практический проект от Libelium - измерения на станциях метро. Основано вот на этом устройстве

Sunday, August 24, 2025

Пчелы без меда

Компания Билайн ограничила доступ к своему веб-кабинету. Теперь туда можно зайти только из сети Билайн. Оплачивал раньше разные родственные номера - теперь перестал :) Первый раз вижу коммерческую компанию, которая затрудняет (исключает) оплату своих услуг.

А написал потому, что увидел баннер на сайте с каким-то их новым тарифом. Кликнул для проверки - не работает :). То есть рекламу они также просто так показывают. Гении маркетинга

Когнитивная капча

CAPTCHA (полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей) давно используется для борьбы с автоматизированными ботами. Это достигается за счёт использования методов искажения и когнитивных характеристик. В противодействии атакам безопасности когнитивные методы CAPTCHA оказались более эффективными, чем другие подходы. Развитие технологии отслеживания взгляда значительно улучшило взаимодействие человека с компьютером (HCI), позволяя пользователям взаимодействовать с компьютерами без физического контакта. Эта технология широко используется для изучения внимания, когнитивных процессов и производительности. В этом исследовании мы провели эксперименты с отслеживанием взгляда на участниках, чтобы изучить, как меняется их визуальное поведение по мере изменения сложности когнитивных CAPTCHA. Анализируя распределение взгляда на каждом уровне CAPTCHA, мы можем оценить визуальное поведение пользователей на основе показателей движения глаз и показателей процесса. Собранные данные затем используются в алгоритмах машинного обучения (МО) для категоризации и изучения относительной важности этих факторов в прогнозировании производительности. Это исследование подчеркивает потенциал улучшения любой когнитивной модели CAPTCHA за счет получения информации о базовых когнитивных процессах. - A Comprehensive Analysis of Cognitive CAPTCHAs Through Eye Tracking

Saturday, August 23, 2025

Определение дипфейков

1. Активная и пассивная криминалистика

Активная криминалистика исследует носители информации на наличие специфических маркеров манипуляций, таких как поддельные водяные знаки или неестественные выражения лиц. Пассивная криминалистика анализирует статистические закономерности в изображениях, видео или аудио, выявляя артефакты, генерируемые ИИ, например, точечные узоры.

2. Человеческие водяные знаки

Продвинутые мультимодальные алгоритмы ищут «человеческие водяные знаки» — тонкие физиологические сигналы, такие как естественные движения тела и жесты, особенности голоса и микровыражения, которые ИИ обычно не может воспроизвести идеально.

3. Мультимодальное обнаружение

Самые эффективные средства защиты анализируют несколько признаков одновременно, проверяя голос, видео и текст на наличие несоответствий, которые могут быть не очевидны при проверке только одного носителя.

Отсюда /via BoozAllen

Wednesday, August 20, 2025

Анализ моделей

Mintro — это библиотека Python, предназначенная для интроспекции и анализа моделей машинного обучения, с акцентом на предоставление примитивов и повторно используемого кода для разработки приложений, ориентированных на безопасность. Библиотека предоставляет инструменты для статического и динамического анализа моделей. В настоящее время функциональность сосредоточена на моделях Torch.

Возможности:
Статический анализ: извлечение весов модулей, метаданных и вычислительных графиков из моделей.
Динамический анализ: сбор детальной информации об активации и потерях.
Модульная конструкция: создание базовой библиотеки для более продвинутой аналитики моделей.
Многократно используемые метрики: расчет метрик на основе извлеченных артефактов для более детального анализа.

Отсюда

Интересная идея - можно создать некоторое описание (отпечаток, слепок) того, как должна работать модель и сравнивать это в динамике с реальной работой. Это может быть схемой определения состязательных атак.

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Sunday, August 17, 2025

Практика MCP

1. Еще одно пояснение (с примерами) работы MCP

2. Автоматическая генерация MCP сервера по существующему API и изменение модели программирования

См. другие публикации, посвященные MCP

Friday, August 15, 2025

Безопасное проектирование агентов

Агенты на основе больших языковых моделей (LLM) демонстрируют значительный потенциал для автоматизации сложных задач с использованием контекстного мышления; однако взаимодействие с участием нескольких агентов и подверженность системы инъекциям подсказок и другим формам манипуляции контекстом создают новые уязвимости, связанные с утечкой конфиденциальной информации и эксплуатацией системы. В данной аналитической записке утверждается, что при масштабном развертывании LLM-агентов следует применять устоявшиеся принципы проектирования в области информационной безопасности, которые обычно называются принципами безопасности. Такие принципы проектирования, как глубокая защита, минимальные привилегии, полное посредничество и психологическая приемлемость, помогали разрабатывать механизмы защиты информационных систем на протяжении последних пяти десятилетий, и мы утверждаем, что их явное и осознанное применение поможет защитить агентские системы. Для иллюстрации этого подхода мы представляем AgentSandbox, концептуальную структуру, включающую эти принципы безопасности для обеспечения безопасности на протяжении всего жизненного цикла агента. Мы оцениваем LLM-агенты по трем параметрам: безвредность, эффективность атак и вероятность успеха атак. AgentSandbox сохраняет высокую эффективность своих функций как при благоприятных, так и при состязательных оценках, существенно снижая риски нарушения конфиденциальности. Внедряя принципы безопасного проектирования в качестве основополагающих элементов в новые протоколы агентов LLM, мы стремимся продвигать надежные экосистемы агентов, соответствующие ожиданиям пользователей в отношении конфиденциальности и меняющимся нормативным требованиям. - LLM Agents Should Employ Security Principles

См. также другие публикации, посвященные агентам

Thursday, August 14, 2025

Киберловушки

Растущий интерес к кибербезопасности значительно увеличил число статей, посвященных разработке и реализации различных механизмов киберобмана (CYDEC). Эта тенденция отражает острую потребность в новых стратегиях для эффективного противодействия киберугрозам. С момента своего появления CYDEC зарекомендовал себя как инновационная защита от злоумышленников благодаря своим проактивным и реактивным возможностям, находящим применение в многочисленных реальных сценариях. Несмотря на значительную работу, посвященную CYDEC, в литературе по-прежнему имеются существенные пробелы. В частности, не было (i) всестороннего анализа основных компонентов, характеризующих CYDEC, (ii) общей классификации, охватывающей все типы решений, и (iii) обзора текущего состояния литературы в различных контекстах. Цель данной статьи – заполнить эти пробелы посредством подробного обзора основных характеристик, составляющих CYDEC, и разработки всеобъемлющей таксономии классификации. Кроме того, рассматриваются различные фреймворки, используемые для создания CYDEC, что позволяет представить более полную классификацию. Изучаются и сравниваются существующие в литературе решения, использующие CYDEC, как без искусственного интеллекта (ИИ), так и с ИИ. Наконец, обсуждаются наиболее важные тенденции текущего состояния дел, а также предлагается список задач, требующих решения для будущих исследований. - Cyber Deception: Taxonomy, State of the Art, Frameworks, Trends, and Open Challenges. Мощный обзор

Tuesday, August 12, 2025

Квишинг

Это фишинг, но только в QR-коде.

Рост фишинга с использованием QR-кодов («Quishing») представляет собой растущую угрозу кибербезопасности, поскольку злоумышленники все чаще используют QR-коды для обхода традиционных средств защиты от фишинга. Существующие методы обнаружения в основном сосредоточены на анализе URL-адресов, который требует извлечения полезной нагрузки QR-кода и может непреднамеренно подвергнуть пользователей вредоносному контенту. Более того, QR-коды могут кодировать различные типы данных помимо URL-адресов, например, учетные данные Wi-Fi и платежную информацию, что делает обнаружение на основе URL-адресов недостаточным для решения более широких проблем безопасности. Чтобы устранить эти пробелы, мы предлагаем первую структуру для обнаружения quishing, которая напрямую анализирует структуру QR-кода и пиксельные паттерны без извлечения встроенного содержимого. Мы создали набор данных фишинговых и безопасных QR-кодов и использовали его для обучения и оценки нескольких моделей машинного обучения, включая логистическую регрессию, деревья решений, случайный лес, наивный байесовский алгоритм, LightGBM и XGBoost. Наша самая эффективная модель (XGBoost) достигает AUC 0,9106, что демонстрирует возможность обнаружения, основанного на QR-кодах. С помощью анализа важности признаков мы выявляем ключевые визуальные индикаторы злонамеренности и совершенствуем набор признаков, удаляя неинформативные пиксели, что повышает производительность до AUC 0,9133 при сокращении пространства признаков. Наши результаты показывают, что структурные особенности QR-кода сильно коррелируют с риском фишинга. Эта работа закладывает основу для снижения риска фишинга и подчеркивает потенциал прямого анализа QR-кодов как критического уровня в современных системах защиты от фишинга. - Detecting Quishing Attacks with Machine Learning Techniques Through QR Code Analysis

Непонятно, насколько это реалистичная идея. Почему вредоносность URL должна отражаться в пикселях QR-кода?

см. также другие публикации по теме фишинг

Модели ML

Краткое объяснение 25 основных моделей ML

Saturday, August 09, 2025

Универсальные атаки

1. Глубокие нейронные сети (DNN) добились широкого успеха, но остаются уязвимыми для состязательных атак. Как правило, такие атаки либо включают в себя частые запросы к целевой модели, либо используют суррогатные модели, точно отражающие целевую модель, — часто обучаемые на подмножествах обучающих данных целевой модели — для достижения высокой успешности атак благодаря переносимости. Однако в реалистичных сценариях, когда обучающие данные недоступны, а чрезмерные запросы могут вызвать тревогу, создание состязательных примеров становится более сложной задачей. В данной статье мы представляем UnivIntruder, новый фреймворк для атак, основанный исключительно на одной общедоступной модели CLIP и общедоступных наборах данных. Используя текстовые концепции, UnivIntruder генерирует универсальные, переносимые и целенаправленные состязательные возмущения, которые вводят DNN в заблуждение, заставляя их ошибочно классифицировать входные данные в заданные злоумышленником классы, определяемые текстовыми концепциями. Наши обширные эксперименты показывают, что наш подход обеспечивает успех атаки (ASR) до 85% на ImageNet и более 99% на CIFAR-10, значительно превосходя существующие методы, основанные на передаче данных. Кроме того, мы выявили реальные уязвимости, показав, что даже без запросов к целевым моделям UnivIntruder компрометирует поисковые системы изображений, такие как Google и Baidu, с уровнем ASR до 84%, и модели языка машинного зрения, такие как GPT-4 и Claude-3.5, с уровнем ASR до 80%. Эти результаты подчеркивают практичность нашей атаки в сценариях, где традиционные пути блокированы, что подчеркивает необходимость переоценки парадигм безопасности в приложениях ИИ. - One Surrogate to Fool Them All: Universal, Transferable, and Targeted Adversarial Attacks with CLIP. Интересный подход с использованием VLM для генерации универсальных атак.

2. Мы представляем кросс-доменную многоцелевую атаку (CDMTA) – метод генерации состязательных примеров, которые вводят классификаторы изображений в заблуждение относительно любого целевого класса, включая те, которые не были обнаружены во время обучения. Традиционные целевые атаки ограничены одним классом на модель, что требует дорогостоящего переобучения для каждой цели. Многоцелевые атаки решают эту проблему путем введения генератора возмущений с условным входом для указания целевого класса. Однако существующие методы ограничены классами, наблюдаемыми во время обучения, и требуют доступа к обучающим данным модели «черного ящика», что приводит к утечке данных, которая подрывает реалистичность оценки в практических сценариях «черного ящика». Мы определяем чрезмерную зависимость от векторных представлений классов как ключевое ограничение, приводящее к переобучению и плохому обобщению на невидимые классы. Для решения этой проблемы CD-MTA заменяет контроль на уровне классов условным входом на основе изображений и вводит независимые от класса потери, которые выравнивают возмущенные и целевые изображения в пространстве признаков. Такая конструкция устраняет зависимость от семантики классов, тем самым позволяя обобщение на невиданные классы в разных наборах данных. Эксперименты на ImageNet и семи других наборах данных показывают, что CD-MTA превосходит предыдущие многоцелевые атаки как в стандартных, так и в кросс-доменных условиях — без доступа к обучающим данным модели «черного ящика». - Breaking Dataset Boundaries: Class-Agnostic Targeted Adversarial Attacks

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

Friday, August 08, 2025

Типы репликаций

Физические атаки при печати

Предиктивный ИИ с глубоким обучением уязвим к состязательным примерам — тонким, незаметным для человека изменениям, которые могут приводить к ошибкам классификации или ускользать от обнаружения. Хотя большинство исследований направлено на цифровые состязательные атаки, многим реальным приложениям необходимы атаки для функционирования в физической области. Физические состязательные примеры должны выдерживать цифро-аналоговые и аналого-цифровые преобразования с минимальными искажениями. В данной статье мы исследуем две атаки обхода защиты в физической области по принципу «белого ящика». Сначала мы исследуем систему атрибуции исходного принтера на основе ИИ, которая определяет принтер, использованный для печати документа. Эта задача особенно сложна, поскольку процесс печати и сканирования (P&S) повторно вводит специфические особенности принтера, потенциально сводя атаку на нет. Для решения этой проблемы мы применяем подход «Ожидание вместо преобразования», включающий реалистичную симуляцию процесса P&S с использованием двух моделей генеративно-состязательной сети, специально обученных для этой цели. Чтобы продемонстрировать общность нашего подхода, мы также применяем его для атаки на детектор номерных знаков. Созданные вредоносные образцы остаются эффективными даже после печати и повторной съемки с помощью камеры мобильного телефона. Экспериментальные результаты подтверждают, что наш метод значительно повышает вероятность успеха атак в обоих приложениях, превосходя базовые подходы. Эти результаты подтверждают осуществимость и эффективность мощных вредоносных атак в физической области для различных задач компьютерного зрения. - Print and Scan Simulation for Adversarial Attacks on Printed Images

См. также другие публикации по теме физические атаки

Thursday, August 07, 2025

Публикации по теме Искусственный интеллект в кибербезопасности

Вопросы безопасности систем ИИ рассматриваются в двух магистерских программах факультета ВМК МГУ имени М.В. Ломоносова: Искусственный интеллект в кибербезопасности и Кибербезопасность. Ниже приведен список публикаций, подготовленных в процессе реализации этих программ по состоянию на 07.08.2025

Ильюшин Е. А., Намиот Д. Е. An approach to the automatic enhancement of the robustness of ml models to external influences on the example of the problem of biometric speaker identification by voice // International Journal of Open Information Technologies. — 2021. — Vol. 9, no. 6. — P. 11–19.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Текущие академические и индустриальные проекты, посвященные устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 10. — С. 35–46.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Основания для работ по устойчивому машинному обучению // International Journal of Open Information Technologies. — 2021. — Т. 9, № 11. — С. 68–74.

Намиот Д. Е., Ильшин Е. А., Чижов И. В. Военные применения машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 1. — С. 69–76.

Ильюшин Е. А., Намиот Д. Е., Чижов И. В. Атаки на системы машинного обучения – общие проблемы и методы // International Journal of Open Information Technologies. — 2022. — Т. 10, № 3. — С. 17–22.

Namiot D., Ilyushin E. On monitoring of machine learning models // Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN-2022) : материалы XXV международной научной конференции: Москва, 26–30 сентября 2022 года / под общ. ред. В. М. Вишневского и К. Е. Самуйлова. — РУДН Москва: 2022. — P. 150–157.

Namiot D., Ilyushin E., Chizhov I. On a formal verification of machine learning systems // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 30–34.

Huayu L., Namiot D. A survey of adversarial attacks and defenses for image data on deep learning // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 5. — P. 9–16.

Намиот Д., Ильюшин Е., Пилипенко О. Доверенные платформы искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 119–127.

Намиот Д., Ильюшин Е. Порождающие модели в машинном обучении // International Journal of Open Information Technologies. — 2022. — Т. 10, № 7. — С. 101–118.

Биджиев Т. М., Намиот Д. Е. Исследование существующих подходов к встраиванию вредоносного программного обеспечения в искусственные нейронные сети // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 21–31.

Намиот Д. Е., Ильюшин Е. А. Об устойчивости и безопасности систем искусственного интеллекта // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 126–134.

Намиот Д. Е., Ильюшин Е. А., Чижов И. В. Искусственный интеллект и кибербезопасность // International Journal of Open Information Technologies. — 2022. — Т. 10, № 9. — С. 135–147.

Stroeva E., Tonkikh A. Methods for formal verification of artificial neural networks: A review of existing approaches // International Journal of Open Information Technologies. — 2022. — Vol. 10, no. 10. — P. 3.

Намиот Д., Ильюшин Е. Мониторинг сдвига данных в моделях машинного обучения // International Journal of Open Information Technologies. — 2022. — Т. 10, № 12. — С. 84–93.

Костюмов, Василий Владимирович. "Обзор и систематизация атак уклонением на модели компьютерного зрения." International Journal of Open Information Technologies 10.10 (2022): 11-20.

Намиот Д. Е., Ильюшин Е. А. О причинах неудач проектов машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 1. — С. 60–69.

Намиот Д. Е. Введение в атаки отравлением на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 3. — С. 58–68.

Namiot D. E., Ilyushin E., Chizhov I. On the practical generation of counterfactual examples // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 73–81.

Junzhe S., Namiot D. E. A survey of model inversion attacks and countermeasures // Труды Института системного анализа Российской академии наук. — 2023. — Vol. 73, no. 1. — P. 82–93.

Junzhe S., Namiot D. A survey of the implementations of model inversion attacks // Communications in Computer and Information Science. — 2023. — Vol. 1748. — P. 3–16.

Намиот Д. Е. Схемы атак на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 5. — С. 68–86.

On the evasion attack detector / L. Huayui, V. Kostyumov, O. Pilipenko, D. Namiot // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 183–188.

Junzhe S., Namiot D. On the machine learning models inversion attack detector // DCCN 2023. Материалы конференции. — ИПУ РАН Москва: 2023. — P. 194.

Lozinskii I., Kostyumov V., Stroeva E. Extraction of trigger and mask from poisoned data using modified activation clustering and neural cleanse methods // International Journal of Open Information Technologies. — 2023. — Vol. 11, no. 7. — P. 1

Чехонина, Екатерина Андреевна, and Василий Владимирович Костюмов. "ОБЗОР СОСТЯЗАТЕЛЬНЫХ АТАК И МЕТОДОВ ЗАЩИТЫ ДЛЯ ДЕТЕКТОРОВ ОБЪЕКТОВ." International Journal of Open Information Technologies 11.7 (2023): 11-20.

Пришлецов Д. Е., Пришлецов С. Е., Намиот Д. Е. Камуфляж как состязательные атаки на модели машинного обучения // International Journal of Open Information Technologies. — 2023. — Т. 11, № 9. — С. 41–49.

Намиот Д. Е., Зубарева Е. В. О работе ai red team // International Journal of Open Information Technologies. — 2023. — Т. 11, № 10. — С. 130–139.

Намиот Д. Е., Ильюшин Е. А. Доверенные платформы искусственного интеллекта: сертификация и аудит // International Journal of Open Information Technologies. — 2024. — Т. 12, № 1. — С. 43–60.

Киржинов Д. А., Ильюшин Е. А. Сравнительный анализ алгоритмов атак и защиты на графовые архитектуры ИНС // International Journal of Open Information Technologies. — 2024. — Т. 12, № 2.

Намиот Д. Е., Романов В. Ю. Об улучшении робастности моделей машинного обучения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 3. — С. 88–98.

Junzhe S., Namiot D. On real-time model inversion attacks detection // Lecture Notes in Computer Science. — 2024. — Vol. 14123. — P. 56–67.

Мударова Р. М., Намиот Д. Е. Противодействие атакам типа инъекция подсказок на большие языковые модели // International Journal of Open Information Technologies. — 2024. — Т. 12, № 5. — С. 39–48.

Намиот Д. Е., Ильюшин Е. А. Искусственный интеллект в кибербезопасности: поиск вредоносного программного обеспечения // International Journal of Open Information Technologies. — 2024. — Т. 12, № 6. — С. 143–149.

Lebed, S. V., et al. "Large Language Models in Cyberattacks." Doklady Mathematics. Vol. 110. No. Suppl 2. Moscow: Pleiades Publishing, 2024.

Селевенко Р. М., Строева Е. Н. Исследование и разработка алгоритма формальной верификации и метрики оценки качества на основе методов понижения размерности ИНС // INJOIT. — 2024. — Т. 12, № 6. — С. 2.

Биджиев Т. М., Намиот Д. Е. Атаки на модели машинного обучения, основанные на фреймворке pytorch // Автоматика и телемеханика. — 2024. — № 3. — С. 38–50.

Намиот Д. Е., Ильюшин Е. А. О сертификации систем искусственного интеллекта // Физика элементарных частиц и атомного ядра. — 2024. — Т. 55, № 3. — С. 530–536.

Намиот Д. Е., Куприяновский В. П., Пичугов А. А. Состязательные атаки для автономных транспортных средств // International Journal of Open Information Technologies. — 2024. — Т. 12, № 7. — С. 139–149.

Намиот Д. Е. О кибератаках с помощью систем Искусственного интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 9. — С. 132–141.

Воробьев, Егор Александрович. "Анализ состязательных атак на системы сегментации изображений." International Journal of Open Information Technologies 12.10 (2024): 1-25.

Намиот Д. Е., Ильюшин Е. А. О киберрисках генеративного Искусственного Интеллекта // International Journal of Open Information Technologies. — 2024. — Т. 12, № 10. — С. 109–119.

Порывай, Максим Викторович. "Сравнительное исследование методов естественной аугментации изображений." International Journal of Open Information Technologies 12.10 (2024): 26-33.

Герасименко, Денис Валерьевич, and Дмитрий Евгеньевич Намиот. "Извлечение тренировочных данных: Риски и решения в контексте безопасности LLM." International Journal of Open Information Technologies 12.11 (2024): 9-19.

Костиков, Егор Вячеславович. "Методы анализа логов Sysmon для обнаружения киберугроз." International Journal of Open Information Technologies 12.11 (2024): 25-34.

Намиот Д. Е., Ильюшин Е. А. Архитектура LLM агентов //International Journal of Open Information Technologies. – 2025. – Т. 13. – №. 1. – С. 67-74.

Воробьев Е. А., Намиот Д. Е. Состязательное тестирование моделей сегментации изображений // Программная инженерия. — 2025. — Т. 16, № 4. — С. 190–198.

Намиот, Д. Е., and Е. А. Ильюшин. "Об оценке доверия к системам Искусственного интеллекта." International Journal of Open Information Technologies 13.3 (2025): 75-90.

Хамзаева, М. А., and О. Р. Лапонина. "Повышение устойчивости к состязательным атакам моделей машинного обучения для обнаружения межсайтового выполнения сценариев." International Journal of Open Information Technologies 13.6 (2025): 25-33.

Бербер, Д. В., and О. Р. Лапонина. "Разработка подходов к увеличению устойчивости моделей машинного обучения для обнаружения распределенных атак отказа обслуживания." International Journal of Open Information Technologies 13.6 (2025): 16-24.

Егорова, Е. С., and О. Р. Лапонина. "Состязательное тестирование моделей машинного обучения, предназначенных для обнаружения SQL-инъекций." International Journal of Open Information Technologies 13.6 (2025): 34-41.

Лапонина, О. Р., and Р. Н. Костин. "Разработка программного обеспечения моделирования угроз для систем на базе LLM-агентов." International Journal of Open Information Technologies 13.6 (2025): 132-146.

Намиот, Д. Е. "Что LLM знает о кибербезопасности." International Journal of Open Information Technologies 13.7 (2025): 37-46.

А судьи кто?

Если вы разрабатываете приложения с участием LLM, вы, вероятно, сталкивались с этой проблемой: как оценить качество вывода системы искусственного интеллекта?

Скажем, вы хотите проверить, имеет ли ответ правильный тон. Или безопасен ли он, соответствует ли бренду, полезен или имеет ли смысл в контексте вопроса пользователя. Всё это примеры качественных сигналов, которые непросто измерить.

Проблема в том, что эти качества часто субъективны. Не существует единственно «правильного» ответа. И хотя люди хорошо оценивают их, они не масштабируются. Если вы тестируете или поставляете функции, основанные на LLM, вам рано или поздно понадобится способ автоматизировать эту оценку.

LLM-as-a-judge — популярный метод для этого: вы предлагаете LLM оценить результаты другого LLM. Это гибкий, быстрый в создании прототипа и простой в интеграции в ваш рабочий процесс.

Но есть одна загвоздка: ваш LLM-судья также не является детерминированным. На практике это похоже на запуск небольшого проекта машинного обучения, целью которого является воспроизведение экспертных оценок и решений. - How to Create an LLM Judge That Aligns with Human Labels

См. также другие публикации, посвященные LLM

Wednesday, August 06, 2025

Инцидентики

База данных ИИ инцидентов

Автоматизация аудита моделей

Мы разрабатываем три агента, которые автономно выполняют задачи аудита выравнивания (согласованности). При тестировании на моделях с намеренно внесёнными проблемами согласованности наши агенты успешно выявляют скрытую цель LLM, проводят поведенческие оценки и выявляют проблемы с поведением LLM. Мы используем этих агентов для аудита согласованности передовых моделей, таких как Claude 4. - Building and evaluating alignment auditing agents

См. также другие публикации, посвященные агентам

Tuesday, August 05, 2025

Что же они знают за кибербезопасность?

Статья посвящена тестированию больших языковых моделей (LLM). В качестве предмета тестирования выбраны знания в области кибербезопасности. В работе приводится обзор тестовых датасетов (бенчмарков), которые могут использованы для проверки знаний LLM в области кибербезопасности. Технически – это десятки тысяч вопросов, охватывающих самые разнообразные области: мониторинг компьютерных сетей и планирование их топологии, проведение анализа сетей, создания отчетов и быстрого поиска и устранения сетевых неисправностей для обеспечения стабильности сети, управление сетевыми устройствами, тестирование сетевого оборудования (такого как коммутаторы, маршрутизаторы, межсетевые экраны и т. д.), устранение неполадок в сети, оптимизация производительности сети, безопасность сетей, резервное копирование и восстановление, управление идентификацией и доступом, безопасность IoT, криптография, безопасность беспроводных сетей, безопасность облачных технологий, тестирование на проникновение и аудит, уязвимости в программном коде. Рассматривается также вопрос о построении подобных тестов. - Что LLM знает о кибербезопасности

Monday, August 04, 2025

Точность уже не та

Точность — это метрика, которую мы, специалисты по данным, часто используем, но она же и самая обманчивая.

Мы давно поняли, что модели разрабатываются не только для прогнозирования. Мы создаём модели для принятия решений, а это требует доверия. Просто полагаться на точность недостаточно.

В этой статье мы разберёмся, почему так происходит, и рассмотрим другие альтернативы, более продвинутые и адаптированные под наши потребности. Как всегда, мы будем придерживаться практического подхода, стремясь к глубокому анализу, выходящему за рамки стандартных метрик. - Accuracy Is Dead: Calibration, Discrimination, and Other Metrics You Actually Need

Тестирование ИИ-агентов

Бенчмарки для ИИ-агентов

Sunday, August 03, 2025

Курсы по MCP

Anthropic запустили бесплатные курсы, которые охватывают все от использования API до MCP

См. другие публикации, посвященные MCP