Екип на платформата за разработване на AI Hugging Face пусна най-малките модели с изкуствен интелект, които могат да анализират изображения, кратки видеоклипове и текст.

SmolVLM-256M и SmolVLM-500M са проектирани да работят добре на „ограничени устройства“ като лаптопи с по-малко от около 1 GB RAM.

Според създателите им, те са идеални и за разработчици, които се опитват да обработват големи количества данни много евтино, пише techcrunch.

SmolVLM-256M и SmolVLM-500M са с размер само от 256 милиона параметри и 500 милиона параметри. (параметрите приблизително съответстват на способностите на модела за решаване на проблеми, като например представянето му на математически тестове).

И двата модела могат да изпълняват задачи като описване на изображения или видеоклипове и отговаряне на въпроси за PDF файлове и елементите в тях, включително сканиран текст и диаграми.

За да обучи SmolVLM-256M и SmolVLM-500M, екипът на Hugging Face използва The Cauldron, колекция от 50 „висококачествени“ набори от данни за изображения и текст, и Docmatix, набор от сканирани файлове, съчетани с подробни надписи. И двете са създадени от екипа M4, който разработва мултимодални AI технологии.

Екипът твърди, че SmolVLM-256M и SmolVLM-500M превъзхождат много по-голям модел, Idefics 80B, при сравнителни тестове, включително AI2D, който тества способността на моделите да анализират научни диаграми на ниво начално училище.

SmolVLM-256M и SmolVLM-500M са достъпни онлайн, както и за изтегляне от Hugging Face под лиценз Apache 2.0, което означава, че могат да се използват без ограничения.

Малките модели като SmolVLM-256M и SmolVLM-500M може да са евтини и универсални, но могат да съдържат и недостатъци, които не са толкова присъщи в по-големите модели.

Скорошно проучване на Google DeepMind, Microsoft Research и изследователския институт Mila в Квебек установи, че много малки модели се представят по-зле от очакваното при сложни задачи за разсъждение.

Изследователите предполагат, че това може да се дължи на факта, че разпознават модели на повърхностно ниво в данните, но се затрудняват да приложат тези знания в нови контексти допълва techcrunch.