Стоимость Разработки Искусственного Интеллекта

Обновлено 27.06.2024

Искусственный интеллект становится незаменимой частью мобильных приложений, программного обеспечения и CRM систем разного типа. Оплата труда – существенная статья бюджета компании, поскольку колеблется в пределах от 20–30 до 60 % затрат, составляя в среднем 40 %. Внедрение алгоритмов ИИ в технологические процессы – это отказ от сотрудников с низкой квалификацией и среднего уровня, сокращение затрат на оплату труда и прогрессивный рост прибыли. Рассмотрим на примерах, как внедрение и адаптация ИИ в структуру бизнес-процессов подтверждают эффективность и сколько стоит разработать ИИ-приложение.

Симбиоз GPT-4 Vision и Jupyter Notebook

Недавно выпущенная 4 версия GPT Vision хорошо взаимодействует с интерактивным блокнотом Jupyter Notebook. При дополнении ИИ кодом, написанным на Python, пользователь в ответ на рисунок, выполненный движением руки, получает сгенерированные чёткие графики в виде парабол или синусоид, круговых многоцентричных изображений. При введении описания с цифрами и примерных кривых выходит детальная визуализация заданного формата. Многомодальность и относительно точная визуальная оценка применяются в ситуациях, когда нужно определить локации, проанализировать и интерпретировать картинки «на листе», рассчитать модель по заданным математическим параметрам.

Такое решение пригодится инженерам и конструкторам, строителям и аналитикам. Достаточно от руки набросать чертеж и дополнить текстовыми уточнениями, как ПО за считанные секунды выдаст готовый график, схему или план с четкими линиями и размерностями. Простой код, написанный на Python, со встраиванием в ИИ-сервисы обеспечивает чёткое воспроизводство заданного линейного формата. Для решения сложных задач импортируют модули и пакеты, загружают и компилируют дистрибутивы, устанавливают другие библиотеки.

В проекте Jupyter предусмотрены такие варианты для внедрения и разработки ИИ: веб-среда, приложение для расчета аналитики и цифровых данных, упрощенная версия статических страниц, виджеты и информационные панели с многосторонним взаимодействием. В зависимости от того, какая задача стоит перед разработчиками, можно использовать один или несколько элементов функционала, адаптируя ИИ к запросам.

Приложение Labelme и библиотеки Deepface

Аннотирование визуальной информации – новый шаг в программировании и внедрении ИИ. Открытый исходный код Python и упрощенная для программирования форма обеспечивает аннотирование визуала с последующей переработкой в строгую логическую структуру. Компьютерное зрение – сегмент ИИ. Оно распознает и обрабатывает визуальную информацию, делает анализ видео в реальном времени для стриминговых сервисов, контента и других изображений, используя данные ранее сформированной базы.

Пример классического графического приложения — Labelme, созданного на open-source платформе LabelMe, разработанной специалистами из Массачусетса в 2008 году. Сегментация и классификация, настраиваемый UI-формат гарантируют удобную ручную работу по разметке онлайн или офлайн. Графическим инструментом интерфейса является Qt.

Распознавание лиц в режиме реального времени с помощью библиотеки Deepface, созданной на Python, обеспечивает идентификацию людей с точностью до 98–99 %. Аналогично ИИ-модели на её базе определяют возраст и эмоции, пол человека, мгновенно сравнивая с сотнями изображений. Библиотека представляет собой экстракт проверенных решений моделей типа VGG-Face и OpenFace, ArcFace с Dlib, GhostFaceNet и других, выполняя задачи распознавания в качестве детектора в течение 5 секунд. Это важно для обеспечения безопасности в местах с высокой концентрацией и проходимостью людей – в аэропортах, станциях, торговых центрах.

Внедрение ИИ-модулей и сравнение на базе Mistral 7B

GPT-сектор достиг такого уровня, что нейронные модели LLM работают по решению половины задач в бизнесе. Внедрение AI-функций и инструментов AI Tool в BPM продлевает жизненный цикл, упрощая идентификацию и первичный анализ. ИИ-инструментарий также выполняет перепроектирование с внедрением новых решений и мониторингом последующей работы. Бенчмарк встроенных ИИ-модулей для бизнес-кейсов включает:
  • оценку работы с базами и данными;
  • CRM для каталогов и автоматизации работы с маркетплейсами;
  • интеграцию с другими APIи плагинами;
  • выполнение маркетинговых задач (как помощник маркетолога);
  • оценку логики действий и успешности работы кода.

Разработка таких решений чаще осуществляется на закрытом коде для обеспечения безопасности пользователей и владельцев. Тестирование и написание промптов – базис, «сердце» идеи. Модель Mistral 7B в общедоступной лицензии Apache 2.0 на сегодня – в числе лучших. Правильно выбрать, разработать и запустить нужную модель может только опытная команда специалистов, которая оценит объем задач, наличие ресурсов и мощностей, используемый язык программирования.

ML: пример обучения на основе языковой модели

Машинное обучение ML характеризуется множеством направлений – обычные протоколы и глубокие, с подкреплением, языковые модели, матричные либо тензорные методы. Приложения ML входят в промышленность и наукоемкие технологии, науки об окружающем мире, в нейробиологию и климатологию, для улучшения действий роботов и автономизацию личного транспорта. Например, языковая модель будет точнее прогнозировать 4–8 последующих токенов после обучения на глобальных шаблонах, показав лучший результат в сравнении с тренировками на локальных протоколах.

Многозадачное декодирование основано на взаимодействии нескольких целевых переменных и выявленных регрессионных связей, оценки данных по шкале потерь и последующей их балансировки для достижения нужного эффекта. Это задачи высокого уровня, поэтому стоимость разработки таких кроссплатформенных ИИ-приложений стартует от $100-150 тысяч. Продолжительность обучения нескольких моделей по сложной многофакторной архитектуре с внедрением алгоритмического рассуждения колеблется от 300 до 500 тысяч часов, что объясняет высокую стоимость подобных проектов.

Расширение спектра использования языковых моделей наглядно видно на примере Gemma (продукт Gemini API), которая работает в тестах формата 2B и 7B. Встроенная в модель библиотека Keras 3.0 отвечает за совместимость с фреймворками JAX и PyTorch, открытой тренировочной библиотекой TensorFlow, с сохранением высокой производительности операций и гибкости предлагаемых решений. Расширить имеющийся функционал под бизнес-задачи помогают интерполяция переменных, настройка параметров интерпретатора, модульное тестирование и отладка с профилированием.

Wegic создает и публикует сайты

Успешное внедрение ИИ наглядно видно на примере платформы Wegic, заменяющей программиста и UI/UX-дизайнера в одном лице. Достаточно грамотно написать промпт, внести уточнения, указать желаемую цветовую гамму и расположение элементов, чтобы был готов сайт без написания кода. Сложные версии сайтов на сотни страниц и категорий, с развертывающимся меню и маркетплейсом, который поддерживает тысячи операций, имея защищенные финансовые шлюзы, Wegic не сделает.

Но технических и программных возможностей платформы хватает, чтобы сгенерировать сайт-визитку, страницу личного бренда с портфолио, простой интернет магазин с небольшим количеством позиций. Такую платформу можно разработать и для других целей – допустим, с целью AI-моделирования интерьера зданий и домов, проектирования дорог, создания комплексов жизнеобеспечения и производства продуктов питания. Первые три сайта на Wegic бесплатные – дается 120 кредитов. Когда они заканчиваются, оплата недорогих тарифов стартует с $10 за месяц. После создания сайта платформа через короткое время публикует его в Интернете.

iPhone со встроенным OpenAI и «личная память» ИИ

В начале 2024 года в мире насчитывалось более 1,5 миллиардов владельцев iPhone. Примерно каждый пятый житель планеты – пользователь мобильного Apple. Стало известно, что для улучшения работы Siri в 18 версию iOS будет внедрен ChatGPT. Владельцы OpenAI еще не полностью согласовали условия, но тот факт, что чат-бот Gemini станет элементом обновления, указывает на готовность к очередным технологическим сдвигам в области ИИ. О подробностях этого станет известно в июне 2024 года.

Данная информация подтверждает, что решения OpenAI и других разработок в области нейронных сетей набирают оборотов. Мгновенный анализ данных по покупателям, сегментация запросов и финансовых активов, поддержание личного контакта, исходя из предыдущих транзакций – малый перечень возможностей ИИ, которые стоит внедрить в бизнес-проект для повышения прибыльности.

База данных запомнит, что конкретный человек делал заказ беспилотного такси с креслом для ребенка. В следующий раз при обращении приложение со встроенным ИИ уточнит, нужно ли автокресло. Покупателю ноутбука через год или два предложат обновить модель на новую, лучше и мощнее предыдущего варианта. Если известно, что в определенные периоды года люди покупают только рыбу и морепродукты, отказываясь от мяса, яиц и молока, ИИ будет присылать выгодное предложение с корзиной из предпочитаемого набора.

Нейронным сетям нужны четкие протоколы

Пенсильванцы разработали платформу DrEureka, где языковые модели ИИ учат роботов. На примере робопса ИИ показал, как можно сгенерировать код и поэтапно, в результате каждой успешно выполненной симуляции, с учетом балансирования, исходя из массы и смещения машины в пространстве, награждать или наказывать робота. Особенность – создание и выполнение нескольких сценариев одновременно, что считается возможным только для человека.

Как пример: женщина может одновременно говорить по телефону с беспроводным девайсом, жарить стейки и наливать ребенку йогурт, переключаясь затем на другие вопросы. Теперь и нейросеть генерирует и выполняет параллельно до десятка алгоритмов действий. Но нужен контроль и грамотно прописанные запрещающие протоколы, так как для достижения надпороговой эффективности и энергосбережения ИИ может допустить опасные действия.

Предположим, посчитать, что автомобиль-беспилотник быстрее поедет на трех колесах. Или счесть, что приехавшие в гости незнакомые родственники во время отсутствия хозяев – грабители, поэтому нужно заблокировать окна и двери, вызвать охрану. Для этого нужен контроль с указанием строгого запрета на выполнение определенных операций.

ZeST как основа для графического дизайна

Недорогие приложения ценой в границах $20–50 тысяч могут основываться на методах типа ZeST, когда пилотный образец меняет внешний вид и фактуру, исходя из материала. Несмотря на 2D-формат, зафиксированный ориентир на свойства материала-донора полностью переносит нюансы на исходный объект, подстраивая масштаб и освещенность. Глубину и оттенки цветов кодирует IP-Adaptor, сохраняя при этом другие визуальные отличия объекта. Метод частично похож на B-LoRA и принципы стилизации в InstantStyle.

Изменяемая при помощи ИИ текстура будет полезна производителям мебели и тканей, фарфоровых изделий и других вещей, где необходимо обыграть цветовую гамму. Для графического дизайна, проектирования экстерьера и интерьера зданий метод воплощает незаменимую «волшебную палочку». Допустим, заказчик хочет отделку гостиной и спальни в стиле рококо или барокко, классицизм либо luxury. Подбираем нужные элементы и приложение с ИИ генерирует их заново в нужной палитре, мгновенно представляя ряд прототипов.

DALL-E, VQGAN и CLIP для мультимодальной генерации

Мультимодальное творчество признано инструментом психотерапии, способом улучшения пространственного мышления и разработки проектов с несколькими картинками. Токеинизация в DALL-E такова, что половина картинки формируется на основе рисунка, вторая – текстом. Нейронные сети после обучения часто генерируют виральное изображение с учётом пространственных параметров, событий и эмоций, делают NFT-токены. Netflix, генератор сайтов Jekyll и сайт для поиска Yelp, соцсети Facebook и Twitter используют его ресурсы для увеличения численности целевой аудитории.

Такие функции подходят и для создания игр, дизайна, визуального сопровождения проекта, поэтому их можно считать компонентом социума с возрастающим значением. Аналог закрытого DALL-E – CLIP, функционал которого обрезан наполовину в сравнении с оригиналом. Продолжение двух нейронных сетей – адверсиальная VQGAN, работающая в формате состязательной генерации, где соревнуются генератор с дискриминатором. VQGAN и CLIP отлично взаимодействуют, так как первый генерирует изображение, а второй в качестве ранжировщика проводит анализ соответствия задаче.

Больше всего затрат для обучения нейросетей приходится на сбор данных и последующую разработку моделей. Чтобы картинки получались в высоком разрешении, квантованного кодировщика и декодера учат реконструировать образцы, исходя из семантики. Для этого нужна кодовая книга и векторное квантование с распределением. Существует проблема в ограниченности объемов свёрточных слоев и архитектуры трансформера с учетом квадратичной масштабируемости. Поэтому уход от пикселей к кодовым словам с последовательностью индексов, использование сервиса Colab – выход из проблемы дефицита ресурсов.

AI-помощник Verba и Trillium обучают ИИ-модели

Приложения типа Verba – универсальные AI-помощники. Verba работает с локальными данными и облачными ресурсами, отвечает на запросы, извлекает нужную информацию, формирует отчёты. Приложение функционирует по методу RAG, задействует векторную базу данных Weaviate и их репозитарий. ПО взаимодействует с такими LLM, как HuggingFace или языковой моделью Ollama, базой OpenAI, платформой Cohere.

Trillium, TPU 6 поколения, которое скоро будет массово выпускать Google, скомбинированные с оптическими коммутаторами, готовы обучать ИИ-модели малой и средней сложности. Trillium в 5 раз быстрее предыдущей версии, содержит 256 работающих чипов в одном блоке. TPU способен использовать 4096 чипов в кластере, функционирующем по методу Multislice. В самом кластере насчитываются сотни «подов».

Если учесть, что средняя годовая зарплата сотрудника в США и развитых странах ЕС равна $50–60 тысяч, а разработка ИИ-приложения заменит от одного до трех-пяти человек, экономическая выгода налицо. Обучение нейронной модели, создание и внедрение ИИ-приложения в CRM среднего уровня сложности окупит себя за 3–12 месяцев. Разработка структуры подачи данных, алгоритмов задействования обновленных модулей и анализа реляционных баз требуют применения параллельного программирования и сокетов, тестирования операций в процессе запуска, поэтому цена заказа может быть выше.

Self-Discover решает задачи методом самопознания

То, что языковые модели постоянно улучшают собственный функционал, наглядно демонстрирует новинка Self-Discover с ядром, где в процессе самопознания LLM выбирает атомарные модули рассуждения с критическими и пошаговыми операциями во время декодирования. Это лучше цепочечного пути мышления, так как каждый этап сопровождается выводами, характерными для человеческого образа мыслей с программой рассуждений, мета- и прямыми подсказками.

В основу Self-Discover положен принцип самосогласованности и парадоксального размышления, когда ИИ-модель создает логически верный алгоритм на базе задействованного стека. Универсальность рассуждения проходит этапы выбора способа решения задачи, адаптации применительно к конкретным условиям и прямого выполнения. Среда подходит для решения сложных тестов, структуры рассуждений внедряют и переносят в различные LLM.

Визуализация Gaussian Splatting и усовершенствование SLAM

Трехмерные изображения 3DGS, получаемые при помощи принципа распределения Гаусса (Splatting) ускорили процессы обучения моделей и повысили скорость рендеринга реалистичных визуализаций. Способ Deblur-GS восстанавливает размытые элементы и удаляет артефакты, изменяя матрицу ковариации, определяющую цвет и плотность объектов. Такой прием лучше некогда ранее востребованного NeRF, который основывается на принципе формирования «сияющего поля».

Обучение ИИ-моделей, обеспечивающее получение картин и рисунков с разрешением 1080p, незаменимо для бизнеса, занимающегося производством качественного и реалистичного фото и видео либо в целях разработки AR-приложений. Также этот способ важен для SLAM в ситуациях, когда применяется роботизированное картографирование и производится навигация, исходя из сенсорных наблюдений, одометрии. На практике его внедряют в процессы тренировки ИИ для безопасного движения беспилотных автомобилей, подводных и летающих устройств типа дронов, визуализации органов тела при медицинском осмотре.

Дополнение для выбора цепляющих моментов из подкастов, видео, конференций недавно написали на Python, таким образом, чтобы ПО взаимодействовало с CrewAI и 4 версией GPT-o (к последнему ИИ-сервису нужен ключ). Приложение после вырезания кадров по заложенному алгоритму добавляет к новому видео субтитры. Сокращение и умная вытяжка ключевых моментов информации уменьшает время анализа объема: работает принцип «Не заставляй клиента много думать».

Путь ИИ – как корабля из гавани в океан

Количество бизнес-ситуаций внедрения ИИ в приложения и CRM настолько огромно, что невозможно описать все проекты использования обучаемых нейронных сетей. На примере взаимодействия GPT-4 и Jupyter, оценки людей при помощи Labelme и Deepface, встраивания модулей и написания закрытых кодов наглядно видна реализация решения задач предпринимательства.

Обучение языковых моделей предоставляет широкое поле для бизнесменов, занимающихся созданием сайтов и графическим дизайном, выполняющих мультимодальную генерацию. В основу разрабатываемых ИИ-приложений положены принцип Гаусса и метод самопознания. AI-помощники помогают с тренировкой ИИ-моделей. Главное – четкое изложение протоколов и алгоритмов: от сложности зависит цена разработки ИИ-приложений, не превышая ценового порога в $150.000.

Оценить статью
64 оценки (4.4 из 5)
Мы приняли вашу оценку
Чем мы можем вам помочь?
Отправить
Юрий Мусиенко
Бизнес аналитик
Эксперт по развитию криптовалютных и финтех-стартапов: криптобиржи, бинарные опционы, P2P-платформы, криптовалютные платёжные шлюзы, токенизация активов и т.п. С 2018 года консультирует компании по вопросам стратегического планировани и масштабирования. Подробнее