Сучасна розробка ШІ охоплює кілька рівнів:
Вартість розробки ШІ-рішення залежить від типу: fine-tuning готової LLM на власних даних — від $500–2000, розробка AI-агента з інтеграцією в бізнес-процеси — від $15 000, власне тренування великої моделі — від $50 000+. Ключові технологічні стеки: Python, PyTorch, TensorFlow, LangChain, Hugging Face, OpenAI API, AWS SageMaker, Google Vertex AI.
Більшість бізнесів недооцінюють практичний діапазон сучасного ШІ. Він давно вийшов за межі генерації текстів і чат-ботів. Сьогоднішній штучний інтелект у виробничих середовищах виконує KYC-верифікацію документів із похибкою нижче 1–5%, будує персоналізовані рекомендаційні системи, прогнозує попит у рітейлі, діагностує захворювання за знімками і автоматизує фінансові операції в режимі реального часу.
Ключова відмінність від класичного програмного забезпечення: ШІ-система не виконує жорстко прописаний сценарій — вона вчиться на даних і адаптується. Це означає, що банківська система на основі ML може виявляти шахрайство за патернами, яких ніхто заздалегідь не описував. Медична нейронна мережа здатна виявити на рентгені відхилення, які пропустив лікар. Торговий алгоритм реагує на комбінацію ринкових сигналів за мілісекунди.
Перед тим як обирати архітектуру, потрібно відповісти на три питання: яка задача (класифікація, генерація, регресія, кластеризація)? які дані є в наявності та яка їхня якість? яка прийнятна похибка для бізнесу? Від відповідей залежить все — від вибору фреймворку до обчислювальних витрат.
Машинне навчання (ML) — це не монолітна технологія, а набір різних підходів, кожен із яких вирішує певний клас задач. Для структурованих табличних даних ефективно працюють градієнтний бустинг (XGBoost, LightGBM), лінійна та логістична регресія, SVM та дерева рішень. Для неструктурованих даних — текст, зображення, аудіо — домінують глибокі нейронні мережі.
Основні архітектури нейронних мереж у виробничих системах:
Навчання з підкріпленням (Reinforcement Learning) застосовується для задач, де агент взаємодіє із середовищем: торгові роботи, управління роботизованими системами, ігрові AI. Це принципово інша парадигма порівняно із supervised learning — модель вчиться через reward-сигнал, а не через розмічені приклади.
NLP (Natural Language Processing) — обробка природньої мови — охоплює задачі від токенізації тексту до генерації цілих документів. Практичні застосування в бізнесі: розпізнавання документів (паспорти, контракти, рахунки), класифікація звернень у службу підтримки, автоматичне реферування, sentiment analysis відгуків клієнтів, інтеграція ШІ в готові додатки через API.
Сучасний пайплайн OCR + NLP для розпізнавання документів будується так: на першому шарі — комп'ютерний зір для локалізації полів (CNN або YOLO-based детектор), на другому — OCR-движок (Tesseract, AWS Textract, Google Document AI) для екстракції тексту, на третьому — NLP-модель для структуризації та валідації даних. Похибка якісно налаштованого пайплайну на структурованих документах (паспорти, водійські посвідчення) — менше 2%.
Верифікація через нейронні мережі доповнює OCR: face matching (порівняння фото в документі з селфі в реальному часі), liveness detection (захист від спуфінгу фотографією), перевірка цілісності документа (виявлення ознак підробки через аналіз текстур і шрифтів).
Центральна задача Data Science — не побудувати базу даних, а навчити систему вирішувати задачі, де немає однозначної відповіді на рівні SQL-запиту. Аналітики Data Science визначають математичну модель: які ознаки (features) значущі, яка функція втрат оптимальна, при яких умовах модель готова до production.
Типові задачі для DS-команди в бізнес-проєкті:
Якість ML-моделі вимірюється не в абстракції, а конкретними метриками під задачу: accuracy, precision/recall, F1-score для класифікації; MAE, RMSE для регресії; NDCG для рекомендацій. Прийнятне значення похибки — це бізнес-рішення, а не технічне: модель з accuracy 85% може бути чудовим рішенням для рекомендацій і неприйнятним для медичної діагностики.
AI-агент — це система, де LLM виступає «мізками», а зовнішні інструменти (API, бази даних, браузер, код-інтерпретатор) — «руками». Агент отримує задачу в довільній текстовій формі, розбиває її на кроки, викликає потрібні інструменти і повертає результат. Це якісний стрибок порівняно зі звичайним чат-ботом: агент не просто відповідає — він виконує.
З нашого досвіду розробки AI-агента для торгової платформи: технічне завдання виглядало компактно — агент має розпізнавати команди природньою мовою та транслювати їх у конкретні API-виклики: конвертація активів, виставлення лімітних і ринкових ордерів, запит балансу та транзакційної історії, ініціювання виводу коштів на верифікований whitelist-адрес, відповіді на питання про ринкові тренди.
Найскладнішим виявився не NLP-рівень, а шар між «наміром користувача» та «валідним торговим запитом». Агент повинен розрізняти «продай трохи ETH» (некоректний запит — немає суми) та «конвертуй 0.1 ETH у USDT» (валідна команда з повним контекстом). Для цього ми реалізували багатокроковий сценарій уточнення через додаткові запитання — замість того щоб генерувати помилку API, агент запитує відсутній параметр. Такий підхід суттєво знизив відсоток некоректних транзакційних запитів у виробничому середовищі.
Технічний стек для агентів у 2026: LangChain або LlamaIndex як оркестратори, OpenAI Function Calling або Anthropic Tool Use для структурованих викликів інструментів, RAG (Retrieval-Augmented Generation) для доступу до актуальної knowledge base, векторні бази даних (Pinecone, Weaviate, pgvector) для семантичного пошуку.
Machine learning у фінансовому секторі — одна з найвимогливіших production-задач із точки зору архітектурних рішень. Помилка першого роду (false positive) блокує легітимного клієнта; помилка другого роду (false negative) пропускає шахрайство. Баланс між ними — це бізнес-рішення із регуляторними наслідками.
З нашого досвіду впровадження ML-скорингу транзакцій у фінтех-продукт: кожна вхідна транзакція ще до кредитування балансу отримує AML risk score через зовнішній KYT API. Якщо score перевищує пороговий рівень — баланс не зараховується, а транзакція переходить у статус pending review з автоматичним створенням задачі для compliance-офіцера.
Додатково: threshold для скорингу не є фіксованим числом — він конфігурується адміністратором окремо для різних типів транзакцій і сум. Дрібні депозити можуть мати вищий поріг толерантності, великі — нижчий.
Для побудови власного AML ML-пайплайну потрібні: якісна розмітка historical транзакцій (позначені шахрайські та легітимні), feature engineering (час доби, сума, географія IP, частота транзакцій за 24г, відхилення від середнього по акаунту), вибір моделі (Gradient Boosting добре справляється з табличними фінансовими даними), система моніторингу дрейфу моделі (model drift detection) — бо патерни шахрайства змінюються.
Вибір між "взяти готову модель" і "тренувати свою" — центральне архітектурне рішення в будь-якому LLM-проєкті. У 95% бізнес-кейсів відповідь — "взяти готову і адаптувати". Власне тренування великої моделі з нуля виправдане лише для компаній із специфічними вимогами до даних, регуляторними обмеженнями або потребою у принципово нових можливостях.
Три основні підходи до адаптації LLM під конкретне завдання:
1. Prompt Engineering + RAG — найшвидший і найдешевший варіант. Готова модель (GPT-4, Claude, Llama) отримує контекст через систему векторного пошуку по власній базі знань. Не змінює ваги моделі. Підходить для: корпоративних чат-ботів, пошуку по документації, Q&A по внутрішнім матеріалам. Вартість впровадження: від $500. Обмеження: модель не "знає" вашу специфіку без контексту — лише те, що потрапляє у prompt.
2. Fine-tuning (повне або часткове) — донавчання всіх або частини ваг моделі на власному датасеті. Результат: модель "засвоює" стиль, термінологію, специфічні патерни відповідей. Вартість: від $2000 залежно від розміру моделі та обсягу датасету. Потребує якісного датасету пар запит-відповідь (мінімум 1000–5000 прикладів для відчутного ефекту).
3. PEFT (Parameter-Efficient Fine-Tuning) — LoRA, QLoRA — часткове навчання підмножини параметрів при "замороженому" основному тілі моделі. Метод LoRA (Low-Rank Adaptation) додає адаптерні матриці малого рангу до вагів Transformer-блоків. Результат: 70–90% ефекту повного fine-tuning при 10–30% обчислювальних витрат. Модель 7B параметрів можна донавчити на GPU 24 ГБ за кілька годин. Це стандартний вибір для більшості production fine-tuning задач у 2026.
Стандартний ML-development протокол у хмарі: JupyterHub для експериментів та відтворюваності, MLflow для відстеження версій моделей та метаданих експериментів, MLflow Deploy або BentoML для пакування та розгортання, Kubernetes HPA для масштабування під навантаження. Моніторинг якості моделі в production — обов'язковий компонент: дрейф вхідних даних і деградація метрик мають виявлятися автоматично, а не при скарзі клієнта.
Основні фреймворки для розробки та навчання нейронних мереж: PyTorch (де-факто стандарт у дослідницькій спільноті та production-розробці), TensorFlow/Keras (ширша екосистема інструментів для deployment, TFLite для мобільних пристроїв), JAX (Google, для високопродуктивних обчислень та TPU), Hugging Face Transformers (стандартна бібліотека для роботи з LLM та NLP-моделями).
Scikit-learn залишається незамінним для класичного ML: лінійні моделі, ансамблеві методи, preprocessing. Для навчання LLM та великих моделей типовий production-стек: DeepSpeed або FSDP для розподіленого навчання на кількох GPU, Accelerate від Hugging Face для спрощеної multi-GPU/TPU конфігурації, Weights & Biases або MLflow для логування метрик.
Хмарна інфраструктура навчання: AWS SageMaker, Google Vertex AI та Azure ML пропонують managed середовища, де весь пайплайн — від завантаження датасету до розгортання endpoint — налаштовується без ручного управління кластером. Для команд без досвіду DevOps це скорочує time-to-production на 2–4 тижні. Для команд із strong DevOps — Kubernetes + Helm charts дають більший контроль.
Компанії, які займаються навчанням моделей від середнього розміру, мають у розпорядженні від 50 до кількох сотень GPU. Час навчання: від кількох годин (fine-tuning 7B моделі на LoRA) до 10–30 днів (pre-training великої моделі). Вартість навчання визначається: розміром моделі (кількість параметрів), обсягом датасету, типом GPU (A100 vs H100 vs RTX 4090), часом оренди та хмарним провайдером.
Мультимодальні моделі — наступний еволюційний рівень після спеціалізованих моделей під один тип даних. GPT-4V, Gemini Ultra, Claude 3 Opus обробляють текст і зображення в одному контексті. Нові покоління моделей додають аудіо та відео. Для бізнесу це відкриває нові класи задач: системи, які одночасно аналізують документ, коментар клієнта та зображення продукту — і формують комплексний висновок.
Практичні мультимодальні застосування:
Технічний виклик мультимодальних систем — вирівнювання ембедингів різних модальностей у спільному векторному просторі. CLIP (OpenAI) вирішував цю задачу для пари текст-зображення. Сучасні Gemini та GPT-4o навчаються на мультимодальних даних end-to-end, що дає кращу якість cross-modal reasoning.
З практики виробничих AI-проєктів виділяємо три системних блокери, які найчастіше призводять до затримок:
Якість та обсяг датасету. Правило garbage in — garbage out у ML виконується залізно. 80% часу в реальних проєктах займає не розробка моделі, а збір, очищення та розмітка даних. Мінімальний датасет для fine-tuning LLM — 1000–5000 якісних пар. Для класифікатора зображень — від 500 прикладів на клас (і це нижня межа). Синтетичні дані, згенеровані LLM або Diffusion моделями, стали практичним рішенням для розширення малих датасетів.
Нестабільність результатів при зміні умов. Модель, що показує 94% accuracy на тестовій вибірці, може деградувати до 70% на production-даних через distribution shift. Причини: тестова вибірка не репрезентує реальні дані, сезонні зміни в поведінці, зміна формату вхідних даних. Рішення: регулярне перенавчання (retraining pipeline), моніторинг метрик у production, A/B тестування оновлень моделі.
Latency vs якість. Велика модель дає кращі відповіді, але повільніший inference. GPT-4 якісніший за GPT-3.5, але коштує ~10× дорожче і повільніший. Для production потрібен explicit latency budget: якщо відповідь агента допустима за 3–5 секунд — одні рішення; якщо потрібно під 500ms — зовсім інші.
(1) кількісна оцінка (quantization) моделі — 4-bit або 8-bit знижує розмір і час інференсу при прийнятній втраті якості;
(2) speculative decoding — паралельна генерація з маленькою моделлю-чернеткою та верифікація великою;
(3) caching повторюваних запитів на рівні semantic similarity;
(4) streaming response — відправляти відповідь токен за токеном, не чекаючи генерації всього тексту.
Для чат-інтерфейсів streaming підвищує сприйману швидкість незалежно від реального часу генерації.
Одне з найчастіших питань на старті проєкту — скільки коштує розробка ШІ. Відповідь залежить від типу рішення. Детальний аналіз бюджетів по різних типах AI-проєктів наведено у нашому матеріалі про ціну розробки штучного інтелекту. Тут — практичні орієнтири:
| Тип AI-рішення | Орієнтовна вартість | Терміни | Ключові витрати |
|---|---|---|---|
| RAG-чат-бот на базі готової LLM | $500 – $3 000 | 1–3 тижні | Розробка пайплайну, векторна БД |
| Fine-tuning LLM (LoRA/QLoRA) | $2 000 – $10 000 | 2–6 тижнів | Датасет, GPU-час, оцінка якості |
| AI-агент із інтеграцією в бізнес | $15 000 – $50 000 | 2–4 місяці | Архітектура, інтеграції API, тестування |
| ML-модель під специфічну задачу (фрод, churn) | $10 000 – $30 000 | 6–16 тижнів | Data Engineering, feature engineering, MLOps |
| Комп'ютерний зір (OCR, детекція) | $15 000 – $60 000 | 2–5 місяців | Розмітка даних, навчання, оптимізація |
| Pre-training власної LLM | $50 000+ | 3–12 місяців | GPU-кластер, датасет, команда ML-engineers |
Спрощені моделі з відкритим кодом (LLaMA, Mistral, Phi-3) суттєво знизили вхідний поріг. Fine-tuning Mistral 7B або Llama 3 8B на власних даних дає результати, що конкурують із GPT-3.5-turbo, при значно нижчій вартості inference — особливо актуально при великому обсязі запитів.
Фінансовий сектор використовує ML найінтенсивніше: алгоритмічна торгівля, скоринг позичальників, фрод-детекція, автоматизація розрахунків. Торгові боти для трейдингу — один із найпоширеніших комерційних застосунків ML у фінансах: вони аналізують ринкові дані в реальному часі та виконують угоди за заданою стратегією без участі людини.
HR-автоматизація: первинний скринінг резюме (NLP-класифікатор), ранжування кандидатів за профілем вакансії, аналіз sentiment корпоративних комунікацій для виявлення ризиків відтоку.
Медицина: діагностика за медичними зображеннями (рентген, МРТ, КТ) за допомогою CNN, прогнозування ускладнень на основі даних пацієнта, оптимізація схем лікування. Точність провідних моделей на окремих задачах перевищує середньостатистичного лікаря.
Рітейл та e-commerce: рекомендаційні системи (collaborative filtering), динамічне ціноутворення, прогнозування попиту для управління запасами, персоналізація контенту. Системи на кшталт персоналізації Netflix і TikTok — це production-рівень рекомендаційних алгоритмів, доступних для бізнесу через хмарні AI-сервіси.
Промисловість та IoT: predictive maintenance — прогнозування відмов обладнання за даними датчиків до настання поломки. Foxconn, наприклад, заощаджує сотні тисяч доларів щорічно на окремих виробничих лініях завдяки AI-прогнозуванню на базі Amazon Forecast.
OpenAI: GPT-4o (мультимодальний), DALL-E 3 (генерація зображень), Whisper (розпізнавання мови), Codex/GPT-4 для генерації коду. API з Function Calling — стандарт для інтеграції LLM в продукти.
Google: Gemini Ultra/Pro (мультимодальні LLM), Vertex AI (managed ML platform), Document AI (розпізнавання документів), Dialogflow CX (enterprise-рівень чат-ботів), Imagen 3 (генерація зображень).
Anthropic: Claude 3.5/4 (сильні аналітичні можливості, великий context window до 200k токенів), Tool Use API для агентних систем.
Meta (Open Source): LLaMA 3 (відкрита модель для fine-tuning та локального deployment без API-залежності).
Microsoft: Azure OpenAI Service (enterprise-hosted GPT з compliance-гарантіями), Copilot Studio (no-code конструктор AI-агентів), GitHub Copilot (AI-асистент для коду).
Open Source екосистема: Hugging Face Hub — репозиторій 500k+ моделей, Ollama — локальний запуск LLM, vLLM — high-throughput inference сервер, LangChain/LlamaIndex — оркестрація агентів і RAG-пайплайнів.
Штучний інтелект — широке поняття, що охоплює будь-які системи, які імітують людські когнітивні функції. Machine Learning — підмножина ШІ, де система вчиться на даних без явного програмування правил. Deep Learning — підмножина ML, що використовує багатошарові нейронні мережі. Усі LLM (GPT, Claude, Gemini) — це Deep Learning моделі, що є частиною ML, що є частиною AI.
Залежить від підходу. Якщо ви використовуєте RAG поверх готової LLM — кілька сотень документів достатньо. Для fine-tuning LLM — потрібно 1000–10 000 якісних пар запит-відповідь. Для навчання кастомного класифікатора зображень — від 500 прикладів на клас. Для pre-training великої моделі з нуля — мільярди токенів тексту. У 90% бізнес-кейсів підходить перший або другий варіант.
RAG-чат-бот на готовій LLM — 1–3 тижні. Fine-tuning моделі під конкретну задачу — 4–8 тижнів з урахуванням підготовки датасету. Повноцінний AI-агент із інтеграцією в бізнес-систему — 2–4 місяці. ML-пайплайн з нуля (збір даних, розмітка, навчання, deployment) — 3–6 місяців. Найбільший часовий ризик — підготовка якісного датасету, яку часто недооцінюють.
RAG (Retrieval-Augmented Generation) — підхід, при якому LLM перед генерацією відповіді отримує релевантні фрагменти з бази знань через векторний пошук. Використовувати RAG варто коли: потрібна відповідь на основі актуальних або приватних даних (документація, внутрішня база знань, свіжі новини); контекст перевищує context window моделі; потрібна верифікована відповідь із посиланнями на джерела. RAG не змінює ваги моделі — це архітектурне рішення на рівні inference.
GPT-4o — оптимальний вибір для мультимодальних задач і широкої екосистеми інструментів. Claude 3.5/4 — перевагу має при задачах, що потребують довгого context window, аналізу великих документів і високої точності інструкцій. Open-source (LLaMA 3, Mistral) — якщо критична data privacy (локальний deployment), висока частота запитів (вартість API стає значущою) або потрібне глибоке fine-tuning. Для першого MVP рекомендуємо починати з API-моделей і переходити на self-hosted при досягненні $2000+/міс витрат на API.
Так, це стандартний сценарій. ШІ-функціональність додається через API-виклики до зовнішніх LLM (OpenAI, Anthropic) або до self-hosted моделі. З точки зору архітектури, додаток взаємодіє з AI-сервісом як з будь-яким іншим мікросервісом. Час інтеграції простого AI-функціоналу (наприклад, summarization або класифікація) — від кількох днів. Складний AI-агент із доступом до внутрішніх систем — 4–8 тижнів.