Владелец TikTok раскрыл подробности своей альтернативы GPT

Китайский технологический гигант ByteDance, владеющий TikTok, планирует запустить большую языковую модель (LLM) под названием LEGO.

В исследовании ArXiv ученые описали модель, способную улавливать мелкие детали в тексте, видео, аудио и изображениях.

Конструкция LEGO включает в себя различные кодеры и адаптеры для различных типов информации, как видео, изображения и аудио. Каждый тип информации проходит через собственный кодер и адаптер.

Исследователи утверждают, что обучаемая ими модель демонстрирует точную идентификацию и локализацию конкретных регионов на изображениях или моментах видео.

«Благодаря обучению на различных мультимодальных и детализированных наборах данных LEGO достигает лучшего восприятия мультимодальных входных данных и демонстрирует улучшенную производительность в задачах, требующих глубокого понимания. В будущем мы стремимся расширить LEGO, чтобы включить дополнительные модальности ввода и вывода, исследуя более сложные методы», — говорится в выводах исследователей.