Sunday, November 23, 2025

Как же это работает?

Это пока ранняя стадия исследований. Новая модель, называемая «трансформером с разреженным весом», гораздо компактнее и гораздо менее функциональна, чем топовые массовые модели, такие как GPT-5 компании, Claude от Anthropic и Gemini от Google DeepMind. Её возможности не превышают возможностей GPT-1, модели, разработанной OpenAI ещё в 2018 году (хотя он и его коллеги не проводили прямого сравнения). Но цель не в том, чтобы конкурировать с лучшими в своём классе (по крайней мере, пока). Вместо этого, изучая работу этой экспериментальной модели, OpenAI надеется узнать о скрытых механизмах, которые лежат в основе этих более крупных и улучшенных версий технологии. - Understanding neural networks through sparse circuits

См. также другие публикации, посвященные LLM

No comments: