Sophia: новый способ обучения больших языковых моделей
Команда из Стэнфордского университета создала новый способ предварительного обучения больших языковых моделей — программное обеспечение под названием Sophia, которое работает вдвое быстрее, чем существующие решения.
ChatGPT и другие приложения, использующие большие языковые модели (LLM), становятся все более популярными и привлекают много внимания со стороны СМИ. На текущий момент крупные технологические компании сильно преобладают над малыми на рынке LLM, и все это связано с дороговизной предварительного обучения языковых моделей. Стоимость может составлять от 10 миллионов долларов, а в некоторых случаях данная сумма увеличивается в десятки и сотни раз. Соответственно, для малых организаций или академических групп большие языковые модели на данный момент практически недоступны
Чтобы решить эту проблему, ученые решили улучшить существующие методы оптимизации LLM. Результатом стала разработка под названием Sophia, которая сокращает время предварительного обучения вдвое.
Чтобы оптимизировать предварительную подготовку LLM, разработчики использовали два метода.
Первый из них, известный как оценка кривизны, уже давно известен, но команда из Стэнфордского университета нашла способ сделать этот подход более эффективным. Суть метода заключается в оптимизации количества шагов, которые требуются для предварительного обучения, а также в правильном распределении нагрузки на каждом из этапов.

Такой шаг кажется очевидным в контексте рассматриваемого процесса, но, как ни странно, от него отказываются большинство компаний, занимающихся разработкой LLM. Дело в том, что оценка кривизны в техническом плане является дорогостоящей и сложной. Обычно оценка производится на каждом шаге оптимизации. Команда из Стэнфордского университета задалась вопросом: а можно ли сделать процесс более эффективным, уменьшив количество обновлений? Разработав оптимизатор Sophia, ученые добились своей цели — кривизна параметров стала оцениваться примерно каждые 10 шагов.
Второй метод команды, называемый отсечением, решает проблему, возникающую при использовании первого — неточную оценку кривизны. При отсечении устанавливается ограничение или пороговое значение для параметров модели. Если параметры превышают этот порог, их сложность считается неприемлемой, и модель не будет обрабатывать их. Таким образом предотвращаются ошибки или проблемы, возникающие из-за сложности, и улучшается эффективность обучения.
Разработчики использовали Sophia для предварительного обучения относительно небольшой модели LLM, используя те же размеры модели и конфигурацию, которые применялись при создании GPT-2.
В дальнейшем команда планирует разработать более крупную модель LLM с использованием Sophia. Ученые также надеются, что Sophia будет применяться и в других областях машинного обучения, таких как модели компьютерного зрения или мультимодальные модели.
— Гон Лю, аспирант компьютерных наук Стэнфордского университета.
ChatGPT и другие приложения, использующие большие языковые модели (LLM), становятся все более популярными и привлекают много внимания со стороны СМИ. На текущий момент крупные технологические компании сильно преобладают над малыми на рынке LLM, и все это связано с дороговизной предварительного обучения языковых моделей. Стоимость может составлять от 10 миллионов долларов, а в некоторых случаях данная сумма увеличивается в десятки и сотни раз. Соответственно, для малых организаций или академических групп большие языковые модели на данный момент практически недоступны
Чтобы решить эту проблему, ученые решили улучшить существующие методы оптимизации LLM. Результатом стала разработка под названием Sophia, которая сокращает время предварительного обучения вдвое.
Оптимизируя оптимизацию
Чтобы оптимизировать предварительную подготовку LLM, разработчики использовали два метода.
Первый из них, известный как оценка кривизны, уже давно известен, но команда из Стэнфордского университета нашла способ сделать этот подход более эффективным. Суть метода заключается в оптимизации количества шагов, которые требуются для предварительного обучения, а также в правильном распределении нагрузки на каждом из этапов.

Такой шаг кажется очевидным в контексте рассматриваемого процесса, но, как ни странно, от него отказываются большинство компаний, занимающихся разработкой LLM. Дело в том, что оценка кривизны в техническом плане является дорогостоящей и сложной. Обычно оценка производится на каждом шаге оптимизации. Команда из Стэнфордского университета задалась вопросом: а можно ли сделать процесс более эффективным, уменьшив количество обновлений? Разработав оптимизатор Sophia, ученые добились своей цели — кривизна параметров стала оцениваться примерно каждые 10 шагов.
Второй метод команды, называемый отсечением, решает проблему, возникающую при использовании первого — неточную оценку кривизны. При отсечении устанавливается ограничение или пороговое значение для параметров модели. Если параметры превышают этот порог, их сложность считается неприемлемой, и модель не будет обрабатывать их. Таким образом предотвращаются ошибки или проблемы, возникающие из-за сложности, и улучшается эффективность обучения.
Тестирование и масштабирование
Разработчики использовали Sophia для предварительного обучения относительно небольшой модели LLM, используя те же размеры модели и конфигурацию, которые применялись при создании GPT-2.
В дальнейшем команда планирует разработать более крупную модель LLM с использованием Sophia. Ученые также надеются, что Sophia будет применяться и в других областях машинного обучения, таких как модели компьютерного зрения или мультимодальные модели.
Использование Sophia для разработки новой большой языковой модели займет определенное время и достаточно много ресурсов, но так как она является программным обеспечением с открытым исходным кодом, сообщество, безусловно, может брать ее на вооружение
— Гон Лю, аспирант компьютерных наук Стэнфордского университета.
- Алексей Павлов
- arXiv preprint server
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Раскрыта главная тайна антарктического льда: ученые узнали, как и кем была взломана природная защита Шестого континента
Похоже, той Антарктиде, которую мы знаем, приходит конец. Впрочем, это не точно...
Древнеримский артефакт переписывает историю Америки: Колумб был не первым?
Почему находка из индейской могилы почти 100 лет вызывает ожесточенные споры среди археологов и историков?...
Тайна гибели сибирского «Титаника»: почему некоторые детали катастрофы 1921 года неизвестны даже сейчас?
Поразительно, но тогда судьи единогласно оправдали капитана парохода. Так кто же тогда был виновником этого страшного происшествия?...
Еще раз об убийстве Андрея Боголюбского: что рассказали кости погибшего князя?
Профессор судебной медицины поправил историков и выявил неточности древних летописей...
Японец 26 лет ждал, пока раскроют убийство его жены. Часть 2. Расплата
Как наука отменила срок давности у преступления? И какая тайна осталась не раскрытой?...
Японец 26 лет ждал, пока раскроют убийство его жены
Как новейшие технологии помогли сдвинуть с места нераскрываемое дело...
Главный секрет человеческого дыхания: ученые рассказали, почему мы дышим «вахтовым методом»
Эксперты предупреждают: из-за особенности организма многие люди не смогут попасть в космос. Но решение все-таки есть...
Жители Анд переписали свою ДНК: почему горные индейцы пьют ядовитую воду, но чувствуют себя при этом хорошо?
По словам ученых, эволюция сделала красивый и хитрый ход. И это не иммунитет к токсинам, а нечто другое, более интересное...
43 000 черепков открыли тысячелетние тайны Древнего Египта
Почему глиняная библиотека Атрибиса потрясла весь археологический мир?...
Ядерный взрыв на Луне: для чего советские ученые хотели провести такой грандиозный эксперимент?
Зачем России атомный реактор на Луне и как он поможет нам добраться до Венеры?...
Почему эти меры не спасут Антарктиду: пять проектов по спасению ледников оказались провалом
Эксперт жестко проанализировал самые популярные программы по сохранению льда на Шестом континенте. Увы, они оказались невыполнимой фантастикой, причем опасно...