Ціна Розробки Штучного Інтелекту (ШІ)

Оновлено 27.06.2024

Штучний інтелект стає незамінною частиною мобільних додатків, програмного забезпечення та CRM систем різного типу. Оплата праці – суттєва стаття бюджету підприємства, оскільки коливається не більше від 20–30 до 60 % витрат, становлячи середньому 40 %. Впровадження алгоритмів ШІ у технологічні процеси – це відмова від співробітників з низькою кваліфікацією та середнього рівня, скорочення витрат на оплату праці та прогресивне зростання прибутку. Розглянемо на прикладах, як впровадження та адаптація ШІ в структуру бізнес-процесів підтверджують ефективність та скільки коштує розробити ШІ-додаток.

Симбіоз GPT-4 Vision та Jupyter Notebook

Нещодавно випущена 4 версія GPT Vision добре взаємодіє з інтерактивним блокнотом Jupyter Notebook. При доповненні ШІ кодом, написаним на Python, користувач у відповідь на малюнок, виконаний рухом руки, отримує точні графіки, що згенерували, у вигляді парабол або синусоїд, кругових багатоцентричних зображень. При введенні опису з цифрами та зразкових кривих виходить детальна візуалізація заданого формату. Багатомодальність та відносно точна візуальна оцінка застосовуються в ситуаціях, коли потрібно визначити локації, проаналізувати та інтерпретувати картинки «на аркуші», розрахувати модель за заданими математичними параметрами.

Таке рішення стане в нагоді інженерам і конструкторам, будівельникам та аналітикам. Достатньо від руки накидати креслення та доповнити текстовими уточненнями, як ПЗ за лічені секунди видасть готовий графік, схему чи план із чіткими лініями та розмірностями. Простий код, написаний на Python, із вбудовуванням у ШІ-сервіси забезпечує чітке відтворення заданого лінійного формату. Для вирішення складних завдань імпортують модулі та пакети, завантажують та компілюють дистрибутиви, встановлюють інші бібліотеки.

У проекті Jupyter передбачені такі варіанти для впровадження розробки ШІ: веб-середовище, додаток для розрахунку аналітики та цифрових даних, спрощена версія статичних сторінок, віджети та інформаційні панелі з багатосторонньою взаємодією. Залежно від того, яке завдання стоїть перед розробниками, можна використовувати один або кілька елементів функціоналу, адаптуючи ШІ до запитів.

Програма Labelme та бібліотеки Deepface

Анотування візуальної інформації – новий крок у програмуванні та впровадженні ШІ. Відкритий вихідний код Python та спрощена для програмування форма забезпечує анотування візуалу з подальшою переробкою у строгу логічну структуру. Комп'ютерний зір – сегмент ШІ. Воно розпізнає та обробляє візуальну інформацію, робить аналіз відео в реальному часі для соціальних мереж, контенту та інших зображень, використовуючи дані раніше сформованої бази.

Приклад класичного графічного застосування - Labelme, створеного на open-source платформі LabelMe, розробленої фахівцями з Массачусетса в 2008 році. Сегментація і класифікація, UI-формат, що настроюється, гарантують зручну ручну роботу з розмітки онлайн або офлайн. Графічним інструментом інтерфейсу є Qt.

Розпізнавання облич у режимі реального часу за допомогою бібліотеки Deepface, створеної на Python, забезпечує ідентифікацію людей з точністю до 98–99 %. Аналогічно ШІ-моделі з урахуванням визначають вік і емоції, стать людини, миттєво порівнюючи з сотнями зображень. Бібліотека є екстрактом перевірених рішень моделей типу VGG-Face і OpenFace, ArcFace з Dlib, GhostFaceNet та інших, виконуючи завдання розпізнавання як детектор протягом 5 секунд. Це важливо для забезпечення безпеки у місцях з високою концентрацією та прохідністю людей – в аеропортах, станціях, торгових центрах.

Впровадження ШІ-модулів та порівняння на базі Mistral 7B

GPT-сектор досяг такого рівня, що нейронні моделі LLM працюють у вирішенні половини завдань у бізнесі. Впровадження AI-функцій та інструментів AI Tool у BPM продовжує життєвий цикл, спрощуючи ідентифікацію та первинний аналіз. ШІ-інструментарій також виконує перепроектування з впровадженням нових рішень та моніторингом подальшої роботи. Бенчмарк вбудованих ШІ-модулів для бізнес-кейсів включає:
  • оцінку роботи з базами та даними;
  • CRM для каталогів та автоматизації роботи з маркетплейсами;
  • інтеграцію з іншими API та плагінами;
  • виконання маркетингових завдань (як помічник маркетолога);
  • оцінку логіки дій та успішності роботи коду.

Розробка таких рішень найчастіше здійснюється на закритому коді для забезпечення безпеки користувачів та власників. Тестування та написання промптів – базис, «серце» ідеї. Модель Mistral 7B у загальнодоступній ліцензії Apache 2.0 на сьогодні – серед кращих. Правильно вибрати, розробити і запустити потрібну модель може лише досвідчена команда фахівців, яка оцінить обсяг завдань, наявність ресурсів та потужностей, що використовується мовою програмування.

ML: приклад навчання на основі мовної моделі

Машинне навчання ML характеризується безліччю напрямів – стандартні протоколи і глибокі, з підкріпленням, мовні моделі, матричні чи тензорні способи. Додатки ML входять у промисловість та наукомісткі технології, науки про навколишній світ, в нейробіологію та кліматологію, для покращення дій роботів та автономізації особистого транспорту. Наприклад, мовна модель буде точніше прогнозувати 4–8 наступних токенів після навчання на глобальних шаблонах, показавши найкращий результат у порівнянні із тренуваннями на локальних протоколах.

Багатозадачне декодування засноване на взаємодії кількох цільових змінних та виявлених регресійних зв'язків, оцінки даних за шкалою втрат та подальшого їх балансування для досягнення потрібного ефекту. Це завдання високого рівня, тому вартість розробки таких кроссплатформенных ШІ-додатків стартує від $100-150 тисяч. Тривалість навчання кількох моделей за складною багатофакторною архітектурою із впровадженням алгоритмічного міркування коливається від 300 до 500 тисяч годин, що пояснює високу вартість подібних проектів.

Розширення спектра використання мовних моделей наочно видно з прикладу Gemma (продукт Gemini API), яка працює у тестах формату 2B і 7B. Вбудована в модель бібліотека Keras 3.0 відповідає за сумісність із фреймворками JAX та PyTorch, відкритою тренувальною бібліотекою TensorFlow, зі збереженням високої продуктивності операцій та гнучкості запропонованих рішень. Розширити наявний функціонал під бізнес-завдання допомагають інтерполяція змінних, налаштування параметрів інтерпретатора, модульне тестування та налагодження з профільуванням.

Wegic створює та публікує сайти

Успішне використання ШІ наочно видно на прикладі платформи Wegic, яка замінює програміста та UI/UX-дизайнера в одній особі. Достатньо грамотно написати промпт, внести уточнення, вказати бажану колірну гаму та розташування елементів, щоб був готовий сайт без написання коду. Складні версії сайтів на сотні сторінок і категорій, з меню, що розгортається, і маркетплейсом, який підтримує тисячі операцій, маючи захищені фінансові шлюзи, Wegic не зробить.

Але технічних і програмних можливостей платформи вистачає, щоб згенерувати сайт-візитку, сторінку особистого бренду з портфоліо простий інтернет магазин з невеликою кількістю позицій. Таку платформу можна розробити і для інших цілей – припустимо, з метою AI-моделювання інтер'єру будівель та будинків, проектування доріг, створення комплексів життєзабезпечення та виробництва продуктів харчування. Перші три сайти на Wegic безкоштовні – надається 120 кредитів. Коли вони закінчуються, оплата недорогих тарифів стартує із $10 за місяць. Після створення сайту платформа за короткий час публікує його в Інтернеті.

iPhone з вбудованим OpenAI та «особиста пам'ять» ШІ

На початку 2024 року у світі налічувалося понад 1,5 мільярда власників iPhone. Приблизно кожен п'ятий мешканець планети – користувач мобільного Apple. Стало відомо, що для покращення роботи Siri у 18 версію iOS буде впроваджено ChatGPT. Власники OpenAI ще не повністю узгодили умови, але той факт, що чат-бот Gemini стане елементом оновлення, вказує на готовність до чергових технологічних зрушень у галузі ШІ. Про подробиці цього стане відомо у червні 2024 року.

Ця інформація підтверджує, що рішення OpenAI та інших розробок у галузі нейронних мереж набирають обертів. Миттєвий аналіз даних щодо покупців, сегментація запитів та фінансових активів, підтримка особистого контакту, виходячи з попередніх транзакцій – малий перелік можливостей ШІ, які варто впровадити у бізнес-проект для підвищення прибутковості.

База даних запам'ятає, що конкретна людина робила замовлення безпілотного таксі із кріслом для дитини. Наступного разу при зверненні додаток із вбудованим ШІ уточнить, чи потрібне автокрісло. Покупцеві ноутбука через рік або два запропонують оновити модель на нову, кращу і потужнішу за попередній варіант. Якщо відомо, що в певні періоди року люди купують тільки рибу і морепродукти, відмовляючись від м'яса, яєць і молока, ШІ надсилатиме вигідну пропозицію з кошиком з набору.

Нейронним мережам потрібні чіткі протоколи

Пенсільванці розробили платформу DrEureka, де мовні моделі ШІ навчають роботів. На прикладі робопса ШІ показав, як можна згенерувати код та поетапно, в результаті кожної успішно виконаної симуляції, з урахуванням балансування, виходячи з маси та зміщення машини у просторі, нагороджувати або карати робота. Особливість - створення та виконання кількох сценаріїв одночасно, що вважається можливим тільки для людини.

Як приклад: жінка може одночасно говорити по телефону з бездротовим девайсом, смажити стейки і наливати дитині йогурт, потім переключаючись на інші питання. Тепер і нейромережа генерує та виконує паралельно до десятка алгоритмів дій. Але потрібен контроль і грамотно прописані протоколи, що забороняють, оскільки для досягнення надпорогової ефективності та енергозбереження ШІ може допустити небезпечні дії.

Припустимо, вважати, що автомобіль-безпілотник швидше поїде на трьох колесах. Або вважати, що незнайомі родичі, які приїхали в гості, під час відсутності господарів – грабіжники, тому потрібно заблокувати вікна та двері, викликати охорону. Для цього необхідний контроль із зазначенням суворої заборони на виконання певних операцій.

ZeST як основа для графічного дизайну

Недорогі програми ціною в межах $20–50 тисяч можуть ґрунтуватися на методах типу ZeST, коли пілотний зразок змінює зовнішній вигляд та фактуру, виходячи з матеріалу. Незважаючи на 2D-формат, зафіксований орієнтир на властивості матеріалу-донора повністю переносить нюанси на вихідний об'єкт, підлаштовуючи масштаб та освітленість. Глибину та відтінки кольорів кодує IP-Adaptor, зберігаючи при цьому інші візуальні відмінності об'єкта. Метод частково схожий на B-LoRA та принципи стилізації в InstantStyle.

Текстура, що змінюється за допомогою ШІ, буде корисна виробникам меблів і тканин, фарфорових виробів та інших речей, де необхідно обіграти колірну гаму. Для графічного дизайну, проектування інтер'єру та інтер'єру будівель спосіб втілює незамінну «чарівну паличку». Припустимо, замовник хоче оздоблення вітальні та спальні в стилі рококо чи бароко, класицизм чи luxury. Підбираємо потрібні елементи та додаток з ШІ генерує їх заново у потрібній палітрі, миттєво представляючи ряд прототипів.

DALL-E, VQGAN та CLIP для мультимодальної генерації

Мультимодальна творчість визнана інструментом психотерапії, способом поліпшення просторового мислення та розробки проектів із кількома картинками. Токеїнізація в DALL-E така, що половина картинки формується на основі малюнка, друга – текстом. Нейронні мережі після навчання часто генерують віральне зображення з урахуванням просторових параметрів, подій та емоцій, роблять влісні токени. Netflix, генератор сайтів Jekyll та сайт для пошуку Yelp, соцмережі Facebook та Twitter використовують його ресурси для збільшення чисельності цільової аудиторії.

Такі функції підходять і для створення ігор, дизайну, візуального супроводу проекту, тому їх можна вважати компонентом соціуму зі зростаючим значенням. Аналог закритого DALL-E – CLIP, функціонал якого обрізаний наполовину проти оригіналом. Продовження двох нейронних мереж – адверсіальна VQGAN, що працює у форматі генерації змагань, де змагаються генератор з дискримінатором. VQGAN і CLIP відмінно взаємодіють, оскільки перший генерує зображення, а другий як ранжувальник проводить аналіз відповідності задачі.

Найбільше витрат на навчання нейромереж посідає збір даних і подальшу розробку моделей. Щоб картинки виходили у високій роздільній здатності, квантованого кодувальника та декодера вчать реконструювати зразки, виходячи з семантики. Для цього потрібна кодова книга та векторне квантування з розподілом. Існує проблема в обмеженості обсягів згорткових шарів та архітектури трансформера з урахуванням квадратичної масштабованості. Тому уникнення пікселів до кодових слів з послідовністю індексів, використання сервісу Colab – вихід із проблеми дефіциту ресурсів.

AI-помічник Verba та Trillium навчають ШІ-моделі

Програми типу Verba – універсальні AI-помічники. Verba працює з локальними даними та хмарними ресурсами, відповідає на запити, отримує потрібну інформацію, формує звіти. Додаток функціонує методом RAG, задіює векторну базу даних Weaviate та його репозитарій. ПЗ взаємодіє з такими LLM, як HuggingFace або мовною моделлю Ollama, базою OpenAI, платформою Cohere.

Trillium, TPU 6 покоління, яке скоро масово випускатиме Google, скомбіновані з оптичними комутаторами, готові навчати ШІ-моделі малої та середньої складності. Trillium в 5 разів швидше за попередню версію, містить 256 працюючих чіпів в одному блоці. TPU здатний використовувати 4096 чіпів у кластері, що функціонує методом Multislice. У самому кластері налічуються сотні «подів».

Якщо врахувати, що середня річна зарплата співробітника в США та розвинених країнах ЄС дорівнює $50–60 тисяч, а розробка ШІ-додатку замінить від одного до трьох-п'яти осіб, економічна вигода є. Навчання нейронної моделі, створення та впровадження ШІ-додатку в CRM середнього рівня складності окупить себе за 3-12 місяців. Розробка структури подачі даних, алгоритмів залучення оновлених модулів та аналізу реляційних баз вимагають застосування паралельного програмування та сокетів, тестування операцій у процесі запуску, тому ціна замовлення може бути вищою.

Self-Discover вирішує завдання методом самопізнання

Те, що мовні моделі постійно покращують власний функціонал, наочно демонструє новинка Self-Discover з ядром, де в процесі самопізнання LLM вибирає атомарні модулі міркування з критичними та покроковими операціями під час декодування. Це краще за ланцюжковий шлях мислення, тому що кожен етап супроводжується висновками, характерними для людського способу мислення з програмою міркувань, мета-і прямими підказками.

В основу Self-Discover покладено принцип самоузгодженості та парадоксального роздуму, коли ШІ-модель створює логічно правильний алгоритм на основі задіяного стека. Універсальність міркування проходить етапи вибору способу вирішення завдання, адаптації стосовно конкретних умов і прямого виконання. Середовище підходить для вирішення складних тестів, структури міркувань впроваджують та переносять у різні LLM.

Візуалізація Gaussian Splatting та вдосконалення SLAM

Тривимірні зображення 3DGS, отримані за допомогою принципу розподілу Гауса (Splatting), прискорили процеси навчання моделей і підвищили швидкість рендерингу реалістичних візуалізацій. Спосіб Deblur-GS відновлює розмиті елементи та видаляє артефакти, змінюючи матрицю коваріації, що визначає колір та щільність об'єктів. Такий прийом кращий за раніше затребуваний NeRF, який ґрунтується на принципі формування «сяючого поля».

Навчання ШІ-моделей, що забезпечує отримання картин і малюнків з роздільною здатністю 1080p, є незамінним для бізнесу, що займається виробництвом якісного та реалістичного фото та відео або з метою розробки AR-додатків. Також цей спосіб важливий для SLAM у ситуаціях, коли застосовується роботизоване картографування та проводиться навігація, виходячи із сенсорних спостережень, одометрії. На практиці його впроваджують у процеси тренування ШІ для безпечного руху безпілотних автомобілів, підводних та літаючих пристроїв типу дронів, візуалізації органів тіла при медичному огляді.

Додаток для вибору моментів, що чіпляють з подкастів, відео, конференцій нещодавно написали на Python, таким чином, щоб ПЗ взаємодіяло з CrewAI і 4 версією GPT-o (до останнього ШІ-сервісу потрібен ключ). Додаток після вирізування кадрів за закладеним алгоритмом додає до нового відео субтитри. Скорочення та розумна витяжка ключових моментів інформації зменшує час аналізу обсягу: працює принцип «Не змушуй клієнта багато думати».

Шлях ШІ - як корабля з гавані в океан

Кількість бізнес-ситуацій впровадження ШІ в додатки та CRM настільки величезна, що неможливо описати всі проекти використання нейронних мереж, що навчаються. На прикладі взаємодії GPT-4 та Jupyter, оцінки людей за допомогою Labelme та Deepface, вбудовування модулів та написання закритих кодів наочно видно реалізація вирішення завдань підприємництва.

Навчання мовних моделей надає широке поле для бізнесменів, які займаються створенням сайтів та графічним дизайном, що виконують мультимодальну генерацію. В основу розроблюваних ШІ-додатків покладено принцип Гаусса та метод самопізнання. AI-помічники допомагають із тренуванням ШІ-моделей. Головне – чіткий виклад протоколів та алгоритмів: від складності залежить ціна розробки ШІ-додатків, не перевищуючи цінового порога $150.000.

Оцінити статтю
32 оцінки (4.3 з 5)
Ми прийняли вашу оцінку
Чим ми можемо допомогти вам?
Надіслати
Юрій Мусієнко
Бізнес аналітик
Експерт з розвитку криптовалютних та фінтех-стартапів: криптобіржі, бінарні опціони, P2P-платформи, криптовалютні платіжні шлюзи, токенізація активів тощо. З 2018 року консультує компанії з питань стратегічного планування та масштабування. Докладніше