Was Kostet die Entwicklung einer Künstlichen Intelligenz (KI)

Lesen

wörter

Yuri Musienko

Lesezeit: 6 min Aktualisiert 27.06.2024

Yuri – CBDO bei Merehead, mit über 10 Jahren Erfahrung in der Kryptounterwicklung und Business-Design. Entwickelte 20+ Kryptobörsen, 10+ DeFi/P2P-Plattformen und 3 Tokenisierungsprojekte. Mehr lesen

Künstliche Intelligenz wird zunehmend zu einem unersetzlichen Bestandteil mobiler Anwendungen, Software und CRM-Systeme unterschiedlicher Art. Die Lohn- und Gehaltsabrechnung ist ein bedeutender Posten im Budget eines Unternehmens, da sie 20-30 bis 60 % der Kosten ausmacht, im Durchschnitt also 40 %. Die Implementierung von KI-Algorithmen in technologische Prozesse bedeutet, dass auf gering qualifizierte und mittelqualifizierte Mitarbeiter verzichtet wird, die Arbeitskosten gesenkt und die Gewinne schrittweise gesteigert werden. Schauen wir uns Beispiele an, die zeigen, wie sich die Einführung und Anpassung von KI in die Geschäftsprozessstruktur als effektiv erweist und wie viel die Entwicklung einer KI-Anwendung kostet.

GPT-4 Vision und Jupyter Notebook-Symbiose

Die kürzlich veröffentlichte Version 4 von GPT Vision interagiert gut mit dem interaktiven Jupyter Notebook. Durch die Erweiterung der KI mit in Python geschriebenem Code erhält der Benutzer als Reaktion auf eine mit der Handbewegung erstellte Zeichnung klare Grafiken in Form von Parabeln oder Sinuskurven, kreisförmigen Multicenter-Bildern. Durch die Eingabe einer Beschreibung mit Zahlen und ungefähren Kurven wird eine detaillierte Visualisierung eines bestimmten Formats erstellt. Multimodalität und relativ genaue visuelle Schätzung werden in Situationen verwendet, in denen es notwendig ist, Standorte zu bestimmen, Bilder „auf dem Blatt“ zu analysieren und zu interpretieren und das Modell gemäß angegebenen mathematischen Parametern zu berechnen.

Diese Lösung ist nützlich für Ingenieure und Designer, Bauherren und Analysten. Skizzieren Sie einfach eine Zeichnung von Hand und ergänzen Sie sie mit Texterklärungen, und die Software erstellt in Sekundenschnelle ein fertiges Diagramm, eine Grafik oder einen Plan mit klaren Linien und Abmessungen. Einfacher, in Python geschriebener und in KI-Dienste eingebetteter Code bietet eine klare Reproduktion eines bestimmten linearen Formats. Um komplexe Probleme zu lösen, importieren Sie Module und Pakete, laden Sie Distributionen herunter und kompilieren Sie sie und installieren Sie andere Bibliotheken.

Das Jupyter-Projekt bietet folgende Optionen zur Implementierung und Entwicklung von KI-Algorithmen: Webumgebung, Anwendung zur Berechnung von Analysen und digitalen Daten, vereinfachte Version statischer Seiten, Widgets und Dashboards mit multilateraler Interaktion. Je nach Aufgabe der Entwickler können ein oder mehrere Elemente der Funktionalität verwendet werden, um die KI an die Anforderungen anzupassen.

Labelme-Anwendung und Deepface-Bibliotheken

Visuelle Annotation ist ein neuer Schritt in der KI-Programmierung und -Implementierung. Der Open-Source-Code und die vereinfachte Programmierform von Python ermöglichen visuelle Annotation, gefolgt von der Verarbeitung in eine strenge logische Struktur. Computer Vision ist ein Segment der KI. Es erkennt und verarbeitet visuelle Informationen, analysiert Videos, Inhalte und andere Bilder mithilfe von Daten aus einer zuvor generierten Datenbank.

Labelme ist ein Beispiel für eine klassische grafische Anwendung, die auf der Open-Source-Plattform LabelMe erstellt wurde, die 2008 von Spezialisten aus Massachusetts entwickelt wurde. Segmentierung und Klassifizierung sowie anpassbares UI-Format garantieren bequeme manuelle Markup-Arbeit online oder offline. Qt ist das grafische Tool seiner Schnittstelle.

Gesichtserkennung in Echtzeit mithilfe der in Python erstellten Deepface-Bibliothek ermöglicht die Identifizierung von Menschen mit einer Genauigkeit von 98-99 %. Ebenso identifizieren darauf basierende KI-Modelle das Alter und die Emotionen einer Person sowie das Geschlecht und vergleichen sie sofort mit Hunderten von Bildern. Die Bibliothek ist der Auszug aus getesteten Modelllösungen wie VGG-Face und OpenFace, ArcFace mit Dlib, GhostFaceNet und anderen, die Erkennungsaufgaben als Detektor innerhalb von 5 Sekunden ausführen. Dies ist wichtig für die Sicherheit an Orten mit hoher Konzentration und Passierbarkeit von Menschen – Flughäfen, Bahnhöfen, Einkaufszentren.

Implementierung von KI-Modulen und Vergleich basierend auf Mistral 7B

Der GPT-Sektor hat einen Punkt erreicht, an dem LLM-Neuralmodelle die Hälfte der Aufgaben im Unternehmen erledigen. Die Implementierung von KI-Funktionen und KI-Tools in BPM verlängert den Lebenszyklus, indem sie die Identifizierung und Erstanalyse vereinfacht. KI-Tools führen auch Neugestaltungen mit Implementierung neuer Lösungen und anschließender Überwachung durch. Benchmark-eingebettete KI-Module für Geschäftsfälle umfassen:

Auswertung von Datenbank- und Datenoperationen;
CRM für Kataloge und Marktplatzautomatisierung;
Integration mit anderen APIs und Plugins;
Erfüllung von Marketingaufgaben (als Assistent eines Vermarkters);
Auswertung von Aktionslogik und Codeerfolg.

Solche Lösungen werden häufiger auf geschlossenem Code entwickelt, um die Sicherheit von Benutzern und Eigentümern zu gewährleisten. Das Testen und Schreiben von Eingabeaufforderungen ist die Grundlage, das „Herz“ der Idee. Das Mistral 7B-Modell in der öffentlichen Apache 2.0-Lizenz gehört zu den besten, die heute verfügbar sind. Das richtige Modell kann nur von einem erfahrenen Team von Spezialisten ausgewählt, entwickelt und gestartet werden, das den Aufgabenumfang, die Verfügbarkeit von Ressourcen und Einrichtungen sowie die verwendete Programmiersprache bewertet.

ML: ein Beispiel für modellbasiertes Sprachenlernen

ML-Maschinenlernen ist durch viele Richtungen gekennzeichnet – konventionelle Protokolle und tiefes Verstärkungslernen, Sprachmodelle, Matrix- oder Tensormethoden. ML-Anwendungen finden sich in der Industrie und wissensintensiven Technologien, in den Umweltwissenschaften, der Neurobiologie und Klimatologie, zur Verbesserung von Roboteraktionen und autonomem Personentransport. Beispielsweise kann ein Sprachmodell 4-8 aufeinanderfolgende Token genauer vorhersagen, wenn es anhand globaler Muster trainiert wurde, und so eine bessere Leistung im Vergleich zum Training anhand lokaler Protokolle zeigen.

Multitasking-Dekodierung basiert auf der Interaktion mehrerer Zielvariablen und erkannter Regressionsbeziehungen, der Datenauswertung auf einer Verlustskala und deren anschließendem Ausgleich, um den gewünschten Effekt zu erzielen. Dies sind anspruchsvolle Aufgaben, sodass die Kosten für die Entwicklung solcher plattformübergreifender KI-Anwendungen bei 100.000 bis 150.000 US-Dollar beginnen. Die Trainingsdauer mehrerer Modelle auf einer komplexen Multifaktorarchitektur mit Einführung algorithmischer Argumentation beträgt 300.000 bis 500.000 Stunden, was die hohen Kosten solcher Projekte erklärt.

Die Erweiterung des Anwendungsbereichs von Sprachmodellen wird deutlich durch Gemma (ein Gemini API-Produkt) veranschaulicht, das in 2B- und 7B-Tests ausgeführt wird. Die in das Modell eingebettete Keras 3.0-Bibliothek ist für die Kompatibilität mit JAX- und PyTorch-Frameworks sowie die offene Trainingsbibliothek TensorFlow verantwortlich und sorgt für die Beibehaltung einer hohen Betriebsleistung und Flexibilität der vorgeschlagenen Lösungen. Die Erweiterung der vorhandenen Funktionalität zur Erfüllung von Geschäftsanforderungen wird durch Interpolation von Variablen, Anpassung von Interpreterparametern, Unit-Tests und Debugging mit Profilerstellung unterstützt.

Wegic erstellt und veröffentlicht Websites

Die erfolgreiche Implementierung von KI lässt sich deutlich am Beispiel der Wegic-Plattform erkennen, die Programmierer und UI/UX-Designer in einer Person ersetzt. Es genügt, eine kompetente Eingabeaufforderung zu schreiben, Klarstellungen vorzunehmen, das gewünschte Farbschema und die Position der Elemente anzugeben, sodass die Site ohne das Schreiben von Code fertig ist. Es ist nicht möglich, komplexe Versionen von Sites mit Hunderten von Seiten und Kategorien, mit einsetzbaren Menüs und einem Marktplatz zu erstellen, der Tausende von Transaktionen mit sicheren Finanz-Gateways unterstützt.

Die technischen und Software-Funktionen der Plattform reichen jedoch aus, um eine Visitenkarten-Site, eine persönliche Markenseite mit einem Portfolio, einen einfachen online shop mit einer kleinen Anzahl von Positionen zu erstellen. Eine solche Plattform kann auch für andere Zwecke entwickelt werden – beispielsweise für die KI-Modellierung von Gebäuden und Innenräumen, Straßendesign, Lebenserhaltungskomplexen und Lebensmittelproduktion. Die ersten drei Websites auf Wegic sind kostenlos – es werden 120 Credits vergeben. Wenn diese aufgebraucht sind, beginnt die Zahlung für kostengünstige Pläne bei 10 USD pro Monat. Sobald eine Website erstellt ist, veröffentlicht die Plattform sie nach kurzer Zeit online.

Ein iPhone mit integrierter OpenAI und „persönlicher Speicher“-KI

Anfang 2024 wird es weltweit mehr als 1,5 Milliarden iPhone-Besitzer geben. Etwa jeder fünfte Einwohner der Welt ist ein mobiler Apple-Benutzer. Um die Arbeit von Siri zu verbessern, wurde bekannt, dass ChatGPT in der 18. Version von iOS implementiert wird. Die OpenAI-Besitzer haben sich noch nicht vollständig auf die Bedingungen geeinigt, aber die Tatsache, dass der Chatbot Gemini ein Element des Updates sein wird, deutet auf die Bereitschaft für den nächsten technologischen Wandel im Bereich der KI hin. Die Einzelheiten hierzu werden im Juni 2024 bekannt gegeben.

Die gegebenen Informationen bestätigen die Tatsache, dass die Lösungen von OpenAI und andere Entwicklungen im Bereich der neuronalen Netze an Dynamik gewinnen. Sofortige Analyse von Kundendaten, Segmentierung von Anfragen und Finanzanlagen, Aufrechterhaltung des persönlichen Kontakts auf Basis früherer Transaktionen – eine kleine Liste von KI-Funktionen, deren Implementierung in ein Geschäftsprojekt zur Steigerung der Rentabilität lohnenswert ist.

Die Datenbank merkt sich, dass eine bestimmte Person ein unbemanntes Taxi mit Kindersitz bestellt hat. Beim nächsten Mal gibt die Anwendung mit integrierter KI an, ob ein Autositz benötigt wird. Einem Laptop-Käufer wird in ein oder zwei Jahren ein Upgrade auf ein neues Modell angeboten, das besser und leistungsstärker ist als die vorherige Version. Die KI sendet ein günstiges Angebot mit einem Korb der bevorzugten Auswahl, wenn bekannt ist, dass die Menschen in bestimmten Jahreszeiten nur Fisch und Meeresfrüchte kaufen und Fleisch, Eier und Milch ablehnen.

Neuronale Netzwerke benötigen klare Protokolle

Als Ergebnis haben die Pennsylvanianer die Plattform DrEureka entwickelt, auf der KI-Sprachmodelle Robotern beibringen. Am Beispiel eines Roboterhundes zeigte die KI, wie sie Code generieren und den Roboter Schritt für Schritt als Ergebnis jeder erfolgreich ausgeführten Simulation belohnen oder bestrafen kann, wobei ein Ausgleich basierend auf der Masse und der Verschiebung der Maschine im Raum berücksichtigt wird. Die Besonderheit ist die Erstellung und Ausführung mehrerer Szenarien gleichzeitig, was nur für Menschen möglich ist.

Hier ein Beispiel: Eine Frau kann mit einem drahtlosen Gerät telefonieren, Steaks braten und gleichzeitig Joghurt für ihr Kind einschenken und sich dann anderen Dingen zuwenden. Heutzutage generiert und führt ein neuronales Netzwerk bis zu einem Dutzend Aktionsalgorithmen parallel aus. Aber wir brauchen Kontrolle und klar definierte Verbotsprotokolle, denn um eine über dem Schwellenwert liegende Effizienz und Energieeinsparung zu erreichen, könnte die KI gefährliche Aktionen zulassen.

Vermutlich, um zu berechnen, dass ein Drohnenauto auf drei Rädern schneller fährt. Man könnte davon ausgehen, dass unbekannte Verwandte, die während der Abwesenheit der Besitzer zu Besuch kommen, Einbrecher sind, sodass es notwendig ist, Fenster und Türen zu blockieren und den Wachmann zu rufen. Zu diesem Zweck braucht man eine Kontrolle mit der Angabe eines absoluten Verbots, bestimmte Aktionen auszuführen.

ZeST als Grundlage für Grafikdesign

Kostengünstige Anwendungen im Bereich von 20.000 bis 50.000 US-Dollar können auf Methoden vom Typ ZeST basieren, bei denen ein Pilotmuster sein Aussehen und seine Textur je nach Material ändert. Trotz des 2D-Formats überträgt ein fester Bezugspunkt auf die Eigenschaften des Spendermaterials Nuancen vollständig auf das Originalobjekt und passt Maßstab und Beleuchtung an. Tiefe und Farbtöne werden vom IP-Adapter codiert, während andere visuelle Unterschiede des Objekts erhalten bleiben. Die Methode ähnelt teilweise B-LoRA und den Styling-Prinzipien in InstantStyle.

KI-modifizierte Texturen sind für Möbel- und Stoffhersteller, Porzellanhersteller und andere Hersteller nützlich, bei denen das Farbschema angepasst werden muss. Die Methode verkörpert einen unverzichtbaren „Zauberstab“ für Grafikdesign, Außen- und Innenarchitektur. Angenommen, der Kunde möchte das Wohnzimmer und das Schlafzimmer im Stil von Rokoko oder Barock, Klassizismus oder Luxus gestalten. Wählen Sie die richtigen Elemente aus und die KI-Anwendung generiert sie neu in der richtigen Palette und präsentiert sofort eine Reihe von Prototypen.

DALL-E, VQGAN und CLIP für multimodale Generierung

Multimodale Kreativität wird als Werkzeug für die Psychotherapie anerkannt, als Möglichkeit, das räumliche Denken zu verbessern und Projekte mit mehreren Bildern zu entwickeln. Die Tokenisierung in DALL-E ist so, dass die Hälfte des Bildes auf der Grundlage der Zeichnung und die andere Hälfte durch Text gebildet wird. Einmal trainierte neuronale Netzwerke generieren oft ein virales Bild unter Berücksichtigung räumlicher Parameter, Ereignisse und Emotionen, eigene kryptowährung erstellen. Netflix, der Website-Generator Jekyll und die Suchseite Yelp sowie die sozialen Netzwerke Facebook und Twitter nutzen ihre Ressourcen, um die Anzahl der Zielgruppen zu erhöhen.

Diese Funktionen eignen sich auch für die Erstellung von Spielen, das Design und die visuelle Unterstützung des Projekts, sodass sie als Bestandteil der Gesellschaft mit zunehmender Bedeutung betrachtet werden können. Das Analogon des geschlossenen DALL-E ist CLIP, dessen Funktionalität im Vergleich zum Original um die Hälfte reduziert wurde. Eine Erweiterung der beiden neuronalen Netzwerke ist das kontroverse VQGAN, das in einem kontroversen Generierungsformat arbeitet, in dem Generator und Diskriminator miteinander konkurrieren. VQGAN und CLIP interagieren perfekt, da ersteres das Bild generiert und letzteres als Rangliste die Relevanz für die Aufgabe analysiert.

Die größten Kosten für das Training neuronaler Netze entstehen durch die Datenerfassung und die anschließende KI-Entwicklung. Um hochauflösende Bilder zu erzeugen, werden der quantisierte Encoder und Decoder gelehrt, Muster basierend auf Semantik zu rekonstruieren. Dazu sind ein Codebuch und eine Vektorquantisierung mit Verteilung erforderlich. Ein Problem besteht in dem begrenzten Volumen der Faltungsschichten und der Transformatorarchitektur im Hinblick auf die quadratische Skalierbarkeit. Deshalb ist die Abkehr von Pixeln hin zu Codewörtern mit Indexsequenzen unter Verwendung des Colab-Dienstes ein Ausweg aus dem Problem der Ressourcenknappheit.

Die KI-Assistenten Verba und Trillium trainieren KI-Modelle

Verba-Anwendungen sind universelle KI-Assistenten. Sie arbeiten mit lokalen Daten und Cloud-Ressourcen, beantworten Anfragen, rufen notwendige Informationen ab und erstellen Berichte. Die Anwendung arbeitet mit der RAG-Methode und nutzt die Weaviate-Vektordatenbank und deren Repository. Die Software interagiert mit LLMs wie HuggingFace oder dem Ollama-Sprachmodell, dem OpenAI-Framework und der Cohere-Plattform.

Trillium, die TPU der 6. Generation, die Google bald in großem Maßstab herausbringen wird, ist in Kombination mit optischen Schaltern bereit, KI-Modelle mit geringer bis mittlerer Komplexität zu trainieren. Trillium ist 5-mal schneller als die vorherige Version und enthält 256 Arbeitschips in einer einzigen Einheit. TPU kann 4096 Chips in einem Multislice-funktionierenden Cluster nutzen. Im Cluster selbst gibt es Hunderte von „Pods“.

Wenn wir berücksichtigen, dass das durchschnittliche Jahresgehalt eines Arbeitnehmers in den USA und den entwickelten EU-Ländern 50.000 bis 60.000 US-Dollar beträgt und die Entwicklung einer KI-Anwendung ein bis drei bis fünf Personen ersetzen wird, liegen die wirtschaftlichen Vorteile auf der Hand. Das Training von Neuronenmodellen sowie die Erstellung und Implementierung einer KI-Anwendung in CRM mit mittlerer Komplexität amortisieren sich in 3 bis 12 Monaten. Die Entwicklung der Datenfeedstruktur, Algorithmen zum Einbinden aktualisierter Module und zur Analyse relationaler Grundlagen erfordern die Verwendung paralleler Programmierung und Sockets sowie Testvorgänge während des Startvorgangs, sodass der Bestellpreis höher sein kann.

Self-Discover löst Probleme mit der Methode der Selbstfindung

Dass Sprachmodelle ihre eigene Funktionalität ständig verbessern, wird durch die Neuheit von Self-Discover mit dem Kernel deutlich demonstriert, bei dem das LLM während der Dekodierung in einem Selbstfindungsprozess atomare Denkmodule mit kritischen und schrittweisen Operationen auswählt. Dies ist besser als eine Daisy-Chain-Denkweise, da auf jeden Schritt eine Schlussfolgerung folgt, die spezifisch für die menschliche Denkweise mit einem Denkprogramm, Meta- und direkten Hinweisen ist.

Self-Discover basiert auf dem Prinzip der Selbstkonsistenz und des paradoxen Denkens, wenn ein KI-Modell auf der Grundlage des beteiligten Stapels einen logisch korrekten Algorithmus erstellt. Das universelle Denken durchläuft die Phasen der Auswahl einer Lösungsmethode für das Problem, der Anpassung an bestimmte Bedingungen und der direkten Ausführung. Die Umgebung eignet sich zum Lösen komplexer Tests, Argumentationsstrukturen werden implementiert und auf verschiedene LLMs übertragen.

Gaussian Splatting-Visualisierung und SLAM-Verbesserung

Dreidimensionale 3DGS-Bilder, die mit dem Gaussian Splatting-Prinzip erstellt wurden, beschleunigten die Modelltrainingsprozesse und erhöhten die Rendering-Geschwindigkeit realistischer Visualisierungen. Die Deblur-GS-Methode stellt unscharfe Elemente wieder her und entfernt Artefakte, indem sie die Kovarianzmatrix ändert, die die Farbe und Dichte von Objekten bestimmt. Diese Technik ist besser als das früher beliebte NeRF, das auf dem Prinzip der „Leuchtfeld“-Bildung basiert.

Das Trainieren von KI-Modellen zur Erstellung von 1080p-Bildern und -Zeichnungen ist für Unternehmen, die qualitativ hochwertige und realistische Fotos und Videos erstellen oder AR-Anwendungen entwickeln, unverzichtbar. Diese Methode ist auch für SLAM in Situationen wichtig, in denen Roboterkartierung und -navigation auf der Grundlage von Sensorbeobachtungen und Odometrie verwendet werden. In der Praxis wird sie in KI-Trainingsprozessen für die sichere Bewegung unbemannter Fahrzeuge, Unterwasser- und Fluggeräte wie Drohnen sowie die Visualisierung von Körperorganen bei medizinischen Untersuchungen implementiert.

Ein Add-on zum Auswählen einprägsamer Momente aus Podcasts, Videos und Konferenzen wurde kürzlich in Python geschrieben, sodass die Software mit CrewAI und Version 4 von GPT-o interagiert (letzterer KI-Dienst benötigt einen Schlüssel). Die Anwendung fügt dem neuen Video Untertitel hinzu, nachdem die Frames gemäß dem festgelegten Algorithmus geschnitten wurden. Durch Reduzieren und intelligentes Extrahieren wichtiger Informationspunkte verkürzt sich die Zeit zur Analyse des Volumens: Dies ist das Prinzip „Lassen Sie den Kunden nicht zu viel nachdenken“.

Der Weg der KI ist wie ein Schiff vom Hafen zum Ozean

Die Implementierung von KI in Anwendungen und CRM ist so umfangreich, dass es unmöglich ist, alle Projekte zur Verwendung trainierter neuronaler Netzwerke zu beschreiben. Die Beispiele für die Interaktion zwischen GPT-4 und Jupyter, die Bewertung von Personen mit Labelme und Deepface, das Einbetten von Modulen und das Schreiben geschlossener Codes zeigen deutlich die Realisierung der Lösung von Geschäftsproblemen.

Das Lernen von Sprachmodellen bietet ein weites Feld für Website- und Grafikdesign-Geschäftsleute, die eine multimodale Generierung durchführen. Die entwickelten KI-Anwendungen basieren auf dem Gaußschen Prinzip und der Selbsterkennungsmethode. KI-Assistenten helfen beim Training von KI-Modellen. Das Wichtigste ist eine genaue Beschreibung der Protokolle und Algorithmen: Die Komplexität bestimmt den Preis der Entwicklung einer KI-Anwendung und überschreitet die Preisschwelle von 150.000 USD nicht.

Autor: Yuri Musienko

Geprüft von: Andrew Klimchuk (CTO/Teamleiter mit über 8 Jahren Erfahrung)

Beitrag bewerten

4.4 / 5 (67 stimmen)

Ihre Bewertung wurde übernommen