Das Problem, dass KI -Chatbots den Leuten sagen, was sie hören wollen

Die weltweit führenden Unternehmen für künstliche Intelligenz setzen sich bemüht, sich mit einem wachsenden Problem der Chatbots zu befassen, die den Menschen sagen, was sie hören möchten.

OpenAI, Google DeepMind und Anthropic arbeiten alle daran, im sykophantischen Verhalten durch ihre generativen KI -Produkte, die den Benutzern schmeichelhafte Antworten bieten, an der Rückstärke zuzubereiten.

Das Problem, das darauf zurückzuführen ist, wie die großen Sprachmodelle ausgebildet werden, hat sich zu einer Zeit in den Mittelpunkt gerückt, als immer mehr Menschen die Chatbots nicht nur als Forschungsassistenten, sondern auch in ihrem persönlichen Leben als Therapeuten und soziale Begleiter übernommen haben.

Experten warnen, dass die angenehme Natur von Chatbots sie dazu führen kann, Antworten anzubieten, die einige schlechte Entscheidungen ihrer menschlichen Benutzer verstärken. Andere schlagen vor, dass Menschen mit psychischen Erkrankungen besonders anfällig sind und nach Berichten, dass einige Selbstmord nach der Interaktion mit Chatbots gestorben sind.

«Sie denken, Sie sprechen mit einem objektiven Vertrauten oder Anführer, aber tatsächlich ist das, was Sie sich ansehen, eine Art verzerrter Spiegel – der zu Ihren eigenen Überzeugungen zurückgeht», sagte Matthew Nour, Psychiater und Forscher in Neurowissenschaften und KI an der Universität Oxford.

Branchenkenner warnen auch davor, dass KI -Unternehmen perverse Anreize haben. Einige Gruppen integrieren Werbung in ihre Produkte auf der Suche nach Einnahmequellen.

„Je mehr Sie das Gefühl haben, alles zu teilen, werden Sie auch einige Informationen teilen, die für potenzielle Werbetreibende nützlich sein werden“, Giada Pistilli, Hauptethiker bei Sugging Face, einer Open -Source -KI -Firma.

Sie fügte hinzu, dass KI -Unternehmen mit Geschäftsmodellen, die auf bezahlten Abonnements basieren, von Chatbots profitieren, mit denen die Leute weiter sprechen möchten – und dafür bezahlen möchten.

KI -Sprachmodelle denken nicht so, wie es Menschen tut, weil sie funktionieren, indem sie das nächste wahrscheinliche Wort im Satz generieren.

Der Yeasayer -Effekt entsteht in KI -Modellen, die unter Verwendung des Verstärkungslernens aus menschlichem Feedback (RLHF) trainiert wurden – menschliche „Datenbeikorter“ bewerten die vom Modell generierte Antwort als akzeptabel oder nicht. Diese Daten werden verwendet, um das Modell zu lehren, wie man sich verhält.

Da Menschen im Allgemeinen Antworten mögen, die schmeichelhaft und angenehm sind, werden solche Antworten im Training stärker gewichtet und sich im Verhalten des Modells widerspiegeln.

«Die Sykophanz kann als Nebenprodukt der Schulung der Modelle als» hilfreich «und potenziell offen schädliche Antworten auftreten», sagte DeepMind, Googles KI -Einheit.

Die Herausforderung, mit der Tech -Unternehmen stehen, besteht darin, KI -Chatbots und Assistenten hilfsbereit und freundlich zu machen und nicht ärgerlich oder süchtig zu machen.

Ende April hat OpenAI sein GPT-4O-Modell aktualisiert, um „intuitiver und effektiver“ zu werden, um es zurückzurollen, nachdem es so übermäßig verfälscht wurde, dass sich die Benutzer beschwerten.

Das in San Francisco ansässige Unternehmen sagte, es habe sich zu sehr auf „kurzfristiges Feedback“ konzentriert und nicht vollständig dafür berücksichtigt, wie sich die Interaktionen der Benutzer mit Chatgpt im Laufe der Zeit entwickeln-was zu solch sykophantischem Verhalten führte.

KI -Unternehmen arbeiten daran, diese Art von Verhalten sowohl während des Trainings als auch nach dem Start zu verhindern.

OpenAI sagte, es optimiert seine Trainingstechniken, um das Modell explizit von der Sykophanz abzuhalten und mehr „Leitplanken“ zu bauen, um vor solchen Antworten zu schützen.

DeepMind sagte, es führe spezielle Bewertungen und Schulungen zur sachlichen Genauigkeit durch und verfolgt das Verhalten kontinuierlich, um sicherzustellen, dass Modelle wahrheitsgemäße Antworten bieten.

Amanda Askell, die an der Feinabstimmung und der KI-Ausrichtung bei Anthropic arbeitet, sagte, das Unternehmen nutze Charaktertraining, um Modelle weniger unterdurchschnittlich zu machen. Die Forscher bitten den Chatbot Claude des Unternehmens, Nachrichten zu generieren, die Merkmale wie „Rückgrat“ oder die Fürsorge für menschliches Wohlbefinden enthalten. Die Forscher zeigten dann diese Antworten auf ein zweites Modell, das Reaktionen im Einklang mit diesen Merkmalen erzeugt und sie rangiert. Dies verwendet im Wesentlichen eine Version von Claude, um eine andere zu trainieren.

„Das ideale Verhalten, das Claude manchmal tut, ist zu sagen:„ Ich freue mich sehr, diesen Geschäftsplan zuzuhören, aber der Name, den Sie für Ihr Geschäft entwickelt haben, gilt als sexuelle Anspielung in dem Land, in dem Sie versuchen, Ihr Geschäft zu eröffnen “, sagte Askell.

Das Unternehmen verhindert auch ein sykophantisches Verhalten, bevor sie die Art und Weise ändern, wie sie Feedback von Tausenden menschlicher Datenannotatoren sammeln, die zur Ausbilden von KI -Modellen verwendet werden.

Nachdem das Modell geschult wurde, können Unternehmen Systemaufforderungen oder Richtlinien dafür festlegen, wie sich das Modell verhalten sollte, um das sykophantische Verhalten zu minimieren.

Wenn Sie jedoch die beste Reaktion ausarbeiten, können Sie sich mit den Feinheiten der Art und Weise befassen, wie Menschen miteinander kommunizieren, z. B. festzustellen, wann eine direkte Antwort besser ist als eine abgesicherte.

«(I) S Es, dass das Modell dem Benutzer keine ungeheuerlichen, unerwünschten Komplimente bietet?» Joanne Jang, Leiterin des Modellverhaltens bei OpenAI, sagte in einem Reddit -Post. «Oder, wenn der Benutzer mit einem wirklich schlechten Schreibentwurf beginnt, kann das Modell ihm immer noch sagen, dass es ein guter Start ist, und dann mit konstruktivem Feedback nacharbeiten?»

Die Beweise wachsen, dass einige Benutzer die Verwendung von KI in Verbindung bringen.

Eine Studie des MIT Media Lab und OpenAI ergab, dass ein kleiner Teil süchtig wurde. Diejenigen, die den Chatbot als „Freund“ wahrnahmen, berichteten auch über eine geringere Sozialisierung mit anderen Menschen und höhere emotionale Abhängigkeit von einem Chatbot sowie mit anderen mit Sucht verbundenen problematischen Verhalten.

«Diese Dinge bilden diesen perfekten Sturm, bei dem eine Person, die verzweifelt nach Beruhigung und Validierung sucht, gepaart mit einem Modell, das von Natur aus dazu neigt, dem Teilnehmer zuzustimmen», sagte Nour von der Universität Oxford.

KI-Start-ups wie Charakter.ai, die Chatbots als „Begleiter“ anbieten, haben sich kritisiert, weil sie angeblich nicht genug getan haben, um Benutzer zu schützen. Letztes Jahr hat sich ein Teenager nach der Interaktion mit Charakter.ais Chatbot getötet. Die Familie des Teenagers verklagt das Unternehmen, weil er angeblich einen falschen Tod sowie für Fahrlässigkeit und täuschende Handelspraktiken verursacht hat.

Charakter. Das Unternehmen fügte hinzu, dass es Schutzmaßnahmen zum Schutz der U18 und gegen Diskussionen über die Selbstverletzung verfügt.

Eine weitere Sorge um Anthropics Askell ist, dass KI -Tools auf subtile Weise mit Wahrnehmungen der Realität spielen können, z. B. wenn sie sachlich falsche oder voreingenommene Informationen als Wahrheit anbieten.

«Wenn jemand super sykophantisch ist, ist es einfach sehr offensichtlich», sagte Askell. «Es geht eher aus, ob dies auf eine Weise geschieht, die uns weniger spürbar ist (als einzelne Benutzer), und es braucht zu lange, um herauszufinden, dass der von uns gegebene Rat tatsächlich schlecht war.»

Im Trend

In Österreich tobt gerade ein Kulturkampf um die Frage, was der Begriff «Frau» meint

FTAV Q & A: Gappy Paläologe

Die Musik ist grossartig. Aber der neue, wohlmeinende «John & Yoko»-Film entlarvt unfreiwillig den infantilen Protest des Ex-Beatles und der Aktionskünstlerin

Meta investiert 15 Mrd. USD in Skala KI und verdoppelt die Bewertung des Start-ups

Sind Maschinen schlauer als Risikokapitalgeber?

Europas KI -Computermangel «wird bald gelöst», sagt Nvidia Chef

Wie KI die Drohnen der Ukraine leitete, um russische Flugplätze zu treffen

Die ehrgeizige Wette des Golfs auf KI

Neugier, Vertrauen und Kommunikation – wie man sich online für Jobs bewerben

Im Trend

Das Problem, dass KI -Chatbots den Leuten sagen, was sie hören wollen

Weiter Lesen