Sunday, September 12, 2021

Обобщение в нейронных сетях

Люди понимают мир с помощью абстракции: если вы усвоите концепцию схватывания палки, вы также поймете, как схватить мяч. Новая работа исследует способность систем глубокого обучения делать то же самое - важный аспект их способности делать обобщения.

Что нового: психологи называют такое мышление систематическим рассуждением. Исследователи из DeepMind, Стэнфордского университета и Университетского колледжа Лондона изучали эту способность в моделях глубокого обучения с подкреплением, обученных взаимодействовать с окружающей средой и выполнять задачу.

Ключевой вывод: Феликс Хилл и его коллеги обучили модель помещать объект 1 в точку 1 с примером выполняемого действия. Во время тестирования они попросили модель поместить объект 2 в позицию 2. Объекта 2 и позиции 2 не было в обучающей выборке, поэтому способность модели выполнять задачу указывает на общее понимание того, как положить.

Как это работает: модель получает представление об окружающей среде вместе с описанием задачи (инструкцией по размещению или поиску данного объекта). Модель обрабатывает эти элементы по отдельности, а затем объединяет свое понимание каждого из них, чтобы определить серию действий для выполнения задачи.
Модель состоит из трех компонентов (обычный выбор для обработки изображений, понимания текста и решений последовательности): CNN обрабатывает представление среды, LSTM интерпретирует описание задачи, а выходы CNN и LSTM объединяются в скрытом слое LSTM для отслеживания прогресса. к выполнению задачи.
Модель учится связывать различные объекты с их именами, выполняя задачи put [object] или find [object]. Исследователи разделяют объекты на тестовые и обучающие наборы. Затем они обучают модель ставить или поднимать предметы в обучающую выборку. Чтобы измерить систематичность рассуждений, они просят его поднять или положить предметы в набор для тестирования.

Результаты: исследователи обучили копии модели в смоделированных 2D и 3D средах. В любом случае более 91% удалось поднять новые объекты. Однако успешность размещения новых объектов упала примерно до 50 процентов в обеих средах.

Да, но: удаление описания задачи и компонента LSTM не сильно повлияло на производительность. То есть, хотя такие слова, как положить и найти, могут помочь людям понять, как нейронные сети работают систематически, язык, по-видимому, не имеет решающего значения для их работы.

Почему это важно: нейронные сети могут делать обобщения, но наше понимание того, как они это делают, неполно. Это исследование предлагает способ оценить роль систематических рассуждений. Результаты предполагают, что модели, которые рассуждают систематически, с большей вероятностью будут обобщать.

Вывод: недавняя серия предварительно обученных языковых моделей приобретает знания, которые позволяют им выполнять различные задачи без переобучения с нуля. Понимание систематических рассуждений в нейронных сетях может привести к повышению производительности в областях, отличных от естественного языка.

Отсюда

No comments: