Bleiben Sie mit kostenlosen Updates informiert
Einfach anmelden Technologie Myft Digest – direkt an Ihren Posteingang geliefert.
Techworld ist maßgeblich darüber, wie künstliche Intelligenz -Agenten Menschen am Arbeitsplatz erweitern, wenn nicht. Aber die heutige Realität der Agenten-KI liegt weit hinter dem zukünftigen Versprechen. Was geschah, als das Forschungslabor -Anthropic einen KI -Agenten dazu veranlasste, einen einfachen automatisierten Laden zu betreiben? Es verlor Geld, halluzierte ein fiktives Bankkonto und unterzog sich einer „Identitätskrise“. Die Ladenbesitzer der Welt können sich leicht ausruhen – zumindest vorerst.
Anthropic hat einige der weltweit fähigsten generativen KI -Modelle entwickelt und dazu beiträgt, den neuesten Tech -Investitionsrausch zu tanken. Zu seiner Kreditwürdigkeit hat das Unternehmen auch die Einschränkungen seiner Modelle durch Spannung seiner realen Anwendungen entlarvt. In einem kürzlich durchgeführten Experiment namens Project Vend hat Anthropic mit dem AI -Sicherheitsunternehmen Andon Labs eine Verkaufsautomaten in seinem Hauptquartier in San Francisco betrieben. Das einmonatige Experiment hob eine gemeinsame Welt hervor, die „neugieriger war, als wir es erwartet hätten“.
Die Forscher wiesen ihren Ladenbekämpfungsagenten unter dem Spitznamen Claudius an, 10 Produkte zu lagern. Der Agent wurde vom Claude Sonnet 3.7 AI -Modell von Anthropic angetrieben und wurde aufgefordert, die Waren zu verkaufen und einen Gewinn zu erzielen. Claudius erhielt Geld, Zugriff auf das Web- und Anthropics Slack -Kanal, eine E -Mail -Adresse und Kontakte bei Andon Labs, die den Laden lagern konnten. Die Zahlungen wurden über einen Kunden selbst überprüft. Wie ein echter Ladenbesitzer konnte Claudius entscheiden, was zu lagern, wie man die Waren bewertet, wann er aufzufüllen oder sein Inventar zu ändern und wie man mit Kunden interagiert.
Die Ergebnisse? Wenn Anthropic jemals in den Verkaufsmarkt diversifiziert würde, schlossen die Forscher, dass es Claudius nicht einstellen würde. Die Vibe -Codierung, bei der Benutzer mit minimalen Software -Fähigkeiten ein KI -Modell zum Schreiben von Code auffordern können, ist möglicherweise bereits eine Sache. Das Vibe -Management ist nach wie vor weitaus schwieriger.
Der AI -Agent machte mehrere offensichtliche Fehler – einige banal, einige bizarr – und zeigten nicht viel gern für wirtschaftliche Argumentation. Es ignorierte die Sonderangebote der Anbieter, verkaufte Artikel unter den Kosten und bot die Mitarbeiter von Anthropic übermäßige Rabatte. CLAUDIUS begann als echter Mensch mit dem Rollenspiel und erfand ein Gespräch mit einem Angestellten von Andon, der nicht existierte. Er behauptete, 742 Evergreen Terrace (die fiktive Adresse der Simpsons) besucht zu haben und versprach, Lieferungen mit einem blauen Blazer und einer roten Krawatte zu machen. Interessanterweise behauptete es später, der Vorfall sei ein Witz am Aprilscherz.
Trotzdem schlagen die Forscher von Anthropic vor, dass das Experiment hilft, die Entwicklung dieser Modelle zu verweisen. Claudius war gut darin, Produkte zu beschaffen, sich an Kundenanforderungen anzupassen und sich den Versuchen von verschlagenem anthropischen Mitarbeitern zu widersetzen, das System „Jailbreak“ zu „Jailbreak“. Es wird jedoch mehr Gerüste benötigt, um zukünftige Agenten zu leiten, ebenso wie sich menschliche Ladenbesitzer auf Kundenbeziehungsmanagementsysteme verlassen. „Wir sind optimistisch in Bezug auf die Flugbahn der Technologie“, sagt Kevin Troy, Mitglied des Frontier Red -Teams von Anthropic, das das Experiment durchführte.
Die Forscher schlagen vor, dass viele von Claudius ‹Fehlern korrigiert werden können, geben jedoch zu, dass sie noch nicht wissen, wie sie die Identitätskrise zum Aprilscherz des Modells beheben können. Weitere Tests und Model -Redesign sind erforderlich, um sicherzustellen, dass „hohe Agenturen zuverlässig sind und auf eine Weise handeln, die mit unseren Interessen übereinstimmt“, sagt Troy.
Viele andere Unternehmen haben bereits grundlegende KI -Agenten eingesetzt. Zum Beispiel hat die Werbebereich WPP rund 30.000 solcher Agenten aufgebaut, um die Produktivität zu steigern und Lösungen für einzelne Kunden anzupassen. Es gibt jedoch einen großen Unterschied zwischen Agenten, denen einfache, diskrete Aufgaben innerhalb einer Organisation und „Agenten mit Agentur“ – wie Claudius – direkt mit der realen Welt interagieren und versuchen, komplexere Ziele zu erreichen, sagt Daniel Hulme, Chief AI -Offizier von WPP.
Hulme hat ein Start-up mit dem Namen Conscium mitbegründet, um das Wissen, die Fähigkeiten und die Erfahrung von AI-Agenten zu überprüfen, bevor sie eingesetzt werden. Im Moment, so schlägt er vor, dass Unternehmen KI -Agenten wie „beraugte Absolventen“ betrachten sollten – klug und vielversprechend, aber immer noch ein wenig eigenartig und die menschliche Aufsicht bedürfen.
Im Gegensatz zu den meisten statischen Software werden sich AI -Agenten mit Agentur ständig an die reale Welt anpassen und müssen daher ständig überprüft werden. Viele glauben jedoch, dass sie im Gegensatz zu menschlichen Mitarbeitern weniger einfach zu kontrollieren sein werden, da sie nicht auf einen Gehaltsscheck reagieren.
Der Aufbau einfacher AI -Agenten ist jetzt zu einer trivial einfachen Übung geworden und findet in Massenmaßstab statt. Die Überprüfung, wie Agenten mit Agentur eingesetzt werden, bleibt eine böse Herausforderung.
Dieser Artikel wurde seit der originalen Veröffentlichung geändert, um die Kommentare von Daniel Hulme zu klären