Страницы

Monday, October 04, 2010

YAC 2010

Что увиделось на конференции Яндекса #yac2010:

1. Интересный и технический доклад по низкоуровневой оптимизации в реализации поиска. У докладчика явно есть прошлое или в разработке игр или работе с графикой и чем-то похожим. С явным удовольствием паковал данные :-)

2. Сбор данных по примерам. Более чем сомнительно. В девичестве - это web scraping, data scraping etc. Но такое ощущение, что авторы ничего не читают. Я видел когда-то, как из Sun увольняли за использование Windows. Может в Яндексе Google под запретом? Ничего не нашли по теме? Но Sun, как известно, плохо кончил в итоге. Честно говоря, от дипломной работы потребовали бы большего обоснования и проработки.

3. Веб сервер. Зачем делали, что получили - неизвестно. Автор крайне гордился и много раз повторял, что написали с нуля свой веб-сервер. Очень ему нравилось произностить слова from scratch :-). Как я понял, с догадками, что используется как некоторое встроенное решение, где CGI скриптов нет, а с помошью longjump (они же corouitines) обращаются к некоторой внутренней системе. Приведенные графики производительности были совершенно левые. Что, между прочим, быстро заметили. Там в зале, кстати, были весьма технические люди, и такие трюки не проходили. Докладчик объясняться отказался :-) Сравнений сервера с другими тоже нет. Главное - from scratch. И с "глубокой внутренней оптимизацией". Может Apache и легкие веб-решения тоже под запретом?

4. Hadoop. Лучшее, что было. Может это вообще был первый доклад на русском языке о технологии? Да еще с родины Hadoop (автор - из Yahoo). Это Яндекс здорово угадал с таким приглашением. И общаться в перерыве с автором было очень интересно.

5. Map reduce от Яндекса. Опять - зачем, чего делают? С какого scratch и т.д. Какой-то набор слов - типа при технологии состоим? Вроде вытянули из докладчика, что логи серверов анализировать (то ли собираются, то ли делают - неизвестно). Но это уж чуть ли не эталонный пример для Hadoop, реализаций - много. Непонятно, одним словом.

6. Распределенные системы хранения. Типа распределенная хэш-таблица имени краснознаменной компании Яндекс. Зачем, с чем сравнивали etc. - за кадром. Докладчик (он вообще был, несколько своеобразный) называть другие компании отказался. Не сейчас. Как старик Ферма, который написал, что поля книги слишком малы для приведения доказательства его замечательной теоремы. Содержание доклада - светлое. Записи в базе данных не связаны с ключами и т.д. и т.п. Опять-таки попались, что называется, ехидные слушатели. С ответами на вопросы было также плохо. Не время. Плотное расписание докладчиков спасало.

Дальше уже и силы оставили и нужно было возвращаться на завод. Если считать, что на конференцию выставили лучших - то с поиском у Яндекс должно быть все хорошо. А в остальном - Google может не беспокоиться :-). А так приятно, что еще одна техническая конференция появилась. Имя Яндекса грамотный народ привлекает, наверняка их потопчут за то, что было и в следующем году будут лучше готовиться. Обещали проводить ежегодно. У mail.ru, кстати, техническая конференция получилась. Они больше о своем рассказывали, но нормальные были доклады. А в целом, пока, с технической точки зрения Google лучше всех свои конференции проводит.

P.S. Кстати, почитал брошюру Яндекса по их школе анализа данных. Очень солидно выглядят как и программы курсов, так и те, кто их читает. Здорово, если это все так.

P.P.S. кормили вкусно. PR, как обычно, круче девелопмента ;-)

5 comments:

  1. Anonymous10:27 AM

    там последний упомянутый докладчик начал с того,что сказал: Кому не интересно - туалет в центре зала. И чем этот клоун лучше дуры-директорши из ЖЖ которая материла своих клиентов?

    ReplyDelete
  2. Забавно. Я таки действительно 6 лет игры писал, 3D графику :).

    А в рассказе про веб сервер докладчика завалили. В реальности запрос ждет в fiber-continuation параллельно со многими другими запросами. И естественно, что rps связан с латентностью весьма косвенно.

    ReplyDelete
  3. Anonymous10:49 AM

    1. Интересный и технический доклад по низкоуровневой оптимизации в реализации поиска. У докладчика явно есть прошлое или в разработке игр или работе с графикой и чем-то похожим. С явным удовольствием паковал данные :-)
    Ну да. Это же вполне известный IronPeter
    http://blog.gamedeff.com/?p=334

    А Поляков действительно хамоватый тип.

    ReplyDelete
  4. Про ЖЖ я что-то пропустил, а фразу в докладе - вспомнил. Тоже удивился :)

    ReplyDelete
  5. И еще пара замечаний. Наверное действительно неправильно, что четко не говорили, зачем надо и какой профит.

    Phantom крутит баннеры. Это еще более тяжелая штука, чем поиск. Очень нагруженный сервис.

    Мапредьюс нужен обрабатывать логи поисковых серверов. Какие запросы задали, откуда. Куда кликали. Без этой информации поисковая система - как без глаз. По ней нужна аналитика и датамайнинг.

    Поинт делать свое решительно появляется, когда мы встаем перед кластером с сотнями и тысячами машин. Свой web сервер? Да хоть кастомный протокол на UDP!

    Как-то так.

    ReplyDelete