Opensourcetechブログ

OpensourcetechによるNGINX/Kubernetes/Zabbix/Neo4j/Linuxなどオープンソース技術に関するブログです。

OpenAI社の"Our approach to AI safety"(日本語訳)

原文は、こちら

Our approach to AI safety
AIの安全性に対する当社のアプローチ


Ensuring that AI systems are built, deployed, and used safely is critical to our mission.
AIシステムが安全に構築、展開、使用されることを保証することは、私たちの使命にとって非常に重要です。


OpenAI is committed to keeping powerful AI safe and broadly beneficial. We know our AI tools provide many benefits to people today. Our users around the world have told us that ChatGPT helps to increase their productivity, enhance their creativity, and offer tailored learning experiences. We also recognize that, like any technology, these tools come with real risks—so we work to ensure safety is built into our system at all levels.

OpenAIは、強力なAIを安全かつ広く有益なものに保つことに取り組んでいます。私たちは、AIツールが今日の人々に多くの利益をもたらすことを知っています。世界中のユーザーから、ChatGPTが生産性を高め、創造性を高め、カスタマイズされた学習体験を提供するのに役立つとの声が寄せられています。また、他のテクノロジーと同様に、これらのツールには実際のリスクが伴うことも認識しています。そのため、すべてのレベルで安全性がシステムに組み込まれるように取り組んでいます。


Building increasingly safe AI systems

Prior to releasing any new system we conduct rigorous testing, engage external experts for feedback, work to improve the model's behavior with techniques like reinforcement learning with human feedback, and build broad safety and monitoring systems.

For example, after our latest model, GPT-4, finished training, we spent more than 6 months working across the organization to make it safer and more aligned prior to releasing it publicly.

We believe that powerful AI systems should be subject to rigorous safety evaluations. Regulation is needed to ensure that such practices are adopted, and we actively engage with governments on the best form such regulation could take.

ますます安全なAIシステムの構築

新しいシステムをリリースする前に、厳密なテストを実施し、外部の専門家にフィードバックを求め、人間のフィードバックによる強化学習などの手法を使用してモデルの動作を改善し、広範な安全および監視システムを構築します。

たとえば、最新のモデルであるGPT-4のトレーニングが終了した後、一般公開する前に、組織全体で6か月以上かけてより安全で整合性のとれたものにする作業を行いました。

私たちは、強力なAIシステムは厳格な安全性評価を受ける必要があると考えています。そのような慣行が確実に採用されるようにするためには規制が必要であり、私たちはそのような規制が取り得る最善の形について政府と積極的に関与しています。


Learning from real-world use to improve safeguards

We work hard to prevent foreseeable risks before deployment, however, there is a limit to what we can learn in a lab. Despite extensive research and testing, we cannot predict all of the beneficial ways people will use our technology, nor all the ways people will abuse it. That’s why we believe that learning from real-world use is a critical component of creating and releasing increasingly safe AI systems over time.

We cautiously and gradually release new AI systems—with substantial safeguards in place—to a steadily broadening group of people and make continuous improvements based on the lessons we learn.

We make our most capable models available through our own services and through an API so developers can build this technology directly into their apps. This allows us to monitor for and take action on misuse, and continually build mitigations that respond to the real ways people misuse our systems—not just theories about what misuse might look like.

Real-world use has also led us to develop increasingly nuanced policies against behavior that represents a genuine risk to people while still allowing for the many beneficial uses of our technology.

Crucially, we believe that society must have time to update and adjust to increasingly capable AI, and that everyone who is affected by this technology should have a significant say in how AI develops further. Iterative deployment has helped us bring various stakeholders into the conversation about the adoption of AI technology more effectively than if they hadn't had firsthand experience with these tools.

セーフガードを改善するために実際の使用から学ぶ

導入前に予見可能なリスクを防ぐために懸命に取り組んでいますが、ラボで学べることには限界があります。大規模な調査とテストにもかかわらず、人々が私たちの技術を使用する有益な方法や悪用する方法をすべて予測することはできません。そのため、実際の使用から学習することは、時間の経過とともに安全性を高めるAIシステムを作成してリリースするための重要な要素であると考えています。

私たちは慎重かつ徐々に新しいAIシステムをリリースし、十分な保護手段を講じて、着実に拡大している人々のグループに提供し、学んだ教訓に基づいて継続的な改善を行っています。

私たちは、開発者がこのテクノロジーをアプリに直接組み込むことができるように、独自のサービスとAPIを通じて最も有能なモデルを利用できるようにします。これにより、不正使用を監視して対策を講じることができ、誤用がどのように見えるかについての理論だけでなく、人々がシステムを不正に使用する実際の方法に対応する緩和策を継続的に構築できます。

また、実世界での使用により、私たちは技術の多くの有益な使用を可能にしながら、人々に対する真のリスクを表す行動に対してますます微妙なポリシーを開発するようになりました.

重要なことは、社会はますます能力を高めるAIを更新して適応するための時間を確保する必要があり、このテクノロジの影響を受けるすべての人が、AIがさらに発展する方法について重要な発言権を持つべきであるということです。反復的な展開により、さまざまな利害関係者がこれらのツールを直接経験していない場合よりも効果的に、AIテクノロジの採用に関する会話に参加することができました。


Protecting children

One critical focus of our safety efforts is protecting children. We require that people must be 18 or older—or 13 or older with parental approval—to use our AI tools and are looking into verification options.

We do not permit our technology to be used to generate hateful, harassing, violent or adult content, among other categories. Our latest model, GPT-4 is 82% less likely to respond to requests for disallowed content compared to GPT-3.5 and we have established a robust system to monitor for abuse. GPT-4 is now available to ChatGPT Plus subscribers and we hope to make it available to even more people over time.

We have made significant effort to minimize the potential for our models to generate content that harms children. For example, when users try to upload Child Sexual Abuse Material to our image tools, we block and report it to the National Center for Missing and Exploited Children.

In addition to our default safety guardrails, we work with developers like the non-profit Khan Academy—which has built an AI-powered assistant that functions as both a virtual tutor for students and a classroom assistant for teachers—on tailored safety mitigations for their use case. We are also working on features that will allow developers to set stricter standards for model outputs to better support developers and users who want such functionality.

子どもを守る

私たちの安全への取り組みの重要な焦点の1つは、子供を守ることです。AIツールを使用するには、18歳以上(または保護者の承認を得た13歳以上)である必要があり、検証オプションを検討しています。

当社のテクノロジーを使用して、憎悪、嫌がらせ、暴力、アダルト コンテンツなどのカテゴリを作成することは許可されていません。我々の最新モデルであるGPT-4は、GPT-3.5と比較して、許可されていないコンテンツのリクエストに応答する可能性が82%低く、悪用を監視するための堅牢なシステムを確立しています。GPT-4はChatGPT Plusサブスクライバーが利用できるようになりました。今後、さらに多くの人が利用できるようにしたいと考えています。

私たちは、私たちのモデルが子供に害を及ぼすコンテンツを生成する可能性を最小限に抑えるために多大な努力を払ってきました。たとえば、ユーザーが児童の性的虐待の素材を画像ツールにアップロードしようとすると、それをブロックし、行方不明および搾取された子供のための国立センターに報告します。

デフォルトの安全ガードレールに加えて、私たちは非営利のKhan Academyのような開発者と協力して、学生のための仮想チューターと教師のための教室アシスタントの両方として機能するAI搭載アシスタントを構築し、彼らのユースケースに合わせてカスタマイズされた安全緩和策を提供しています。


Respecting privacy

Our large language models are trained on a broad corpus of text that includes publicly available content, licensed content, and content generated by human reviewers. We don’t use data for selling our services, advertising, or building profiles of people—we use data to make our models more helpful for people. ChatGPT, for instance, improves by further training on the conversations people have with it.

While some of our training data includes personal information that is available on the public internet, we want our models to learn about the world, not private individuals. So we work to remove personal information from the training dataset where feasible, fine-tune models to reject requests for personal information of private individuals, and respond to requests from individuals to delete their personal information from our systems. These steps minimize the possibility that our models might generate responses that include the personal information of private individuals.

プライバシーの尊重

私たちの大規模な言語モデルは、公開されているコンテンツ、ライセンスされたコンテンツ、および人間のレビュー担当者によって生成されたコンテンツを含む幅広いテキスト コーパスでトレーニングされています。私たちは、サービスの販売、広告、または人々のプロファイルの構築にデータを使用しません。データを使用して、私たちのモデルを人々にとってより役立つものにします。たとえば、ChatGPTは、人々との会話をさらにトレーニングすることで改善されます。

トレーニングデータの一部には公共のインターネットで入手可能な個人情報が含まれていますが、私たちのモデルは個人ではなく世界について学習する必要があります。そのため、可能な場合はトレーニング データセットから個人情報を削除し、モデルを微調整して個人の個人情報の要求を拒否し、個人からの個人情報をシステムから削除する要求に対応します。 これらの手順により、モデルが個人の個人情報を含む応答を生成する可能性が最小限に抑えられます。


Improving factual accuracy

Today’s large language models predict the next series of words based on patterns they have previously seen, including the text input the user provides. In some cases, the next most likely words may not be factually accurate.

Improving factual accuracy is a significant focus for OpenAI and many other AI developers, and we’re making progress. By leveraging user feedback on ChatGPT outputs that were flagged as incorrect as a main source of data—we have improved the factual accuracy of GPT-4. GPT-4 is 40% more likely to produce factual content than GPT-3.5.

When users sign up to use the tool, we strive to be as transparent as possible that ChatGPT may not always be accurate. However, we recognize that there is much more work to do to further reduce the likelihood of hallucinations and to educate the public on the current limitations of these AI tools.

事実の正確性の向上

今日の大規模な言語モデルは、ユーザーが提供するテキスト入力など、以前に見たパターンに基づいて次の一連の単語を予測します。場合によっては、次の最も可能性の高い単語が事実として正確ではない可能性があります。

事実の正確さを向上させることは、OpenAIや他の多くのAI開発者にとって重要な点であり、進歩を遂げています。主なデータソースとして誤っているとフラグ付けされたChatGPT出力に対するユーザー フィードバックを活用することで、GPT-4 の事実の正確性を向上させました。GPT-4は、GPT-3.5よりも事実に基づくコンテンツを生成する可能性が40%高くなります。

ユーザがこのツールを使用するためにサインアップする際には、ChatGPTが常に正確であるとは限らないことを、可能な限り透明にするよう努めています。しかし、幻覚の可能性をさらに減らし、これらのAIツールの現在の限界について一般の人々を教育するためには、さらに多くの作業が必要であることを認識しています。


Continued research and engagement

We believe that a practical approach to solving AI safety concerns is to dedicate more time and resources to researching effective mitigations and alignment techniques and testing them against real-world abuse.

Importantly, we also believe that improving AI safety and capabilities should go hand in hand. Our best safety work to date has come from working with our most capable models because they are better at following users’ instructions and easier to steer or “guide.”

We will be increasingly cautious with the creation and deployment of more capable models, and will continue to enhance safety precautions as our AI systems evolve.

While we waited over 6 months to deploy GPT-4 in order to better understand its capabilities, benefits, and risks, it may sometimes be necessary to take longer than that to improve AI systems' safety. Therefore, policymakers and AI providers will need to ensure that AI development and deployment is governed effectively at a global scale, so no one cuts corners to get ahead. This is a daunting challenge requiring both technical and institutional innovation, but it’s one that we are eager to contribute to.

Addressing safety issues also requires extensive debate, experimentation, and engagement, including on the bounds of AI system behavior. We have and will continue to foster collaboration and open dialogue among stakeholders to create a safe AI ecosystem.

継続的な調査と関与

AIの安全性に関する懸念を解決するための実際的なアプローチは、効果的な軽減策と調整手法を研究し、実際の悪用に対してそれらをテストするために、より多くの時間とリソースを費やすことであると考えています。

重要なことに、私たちはまたAIの安全性と能力を向上させることは、手を携えて進むべきであると信じています。私たちのこれまでの最高の安全作業は、最も有能なモデルと協力することによってもたらされました。なぜなら、それらはユーザーの指示に従うことがより優れており、舵取りや「ガイド」がより容易だからです。

より有能なモデルの作成と展開にはますます慎重になり、AIシステムの進化に合わせて安全対策を強化し続けます。

GPT-4の機能、利点、およびリスクをよりよく理解するために、GPT-4の展開を6か月以上待ちましたが、AIシステムの安全性を向上させるためにそれ以上の時間が必要になる場合があります。したがって、政策立案者とAIプロバイダーは、AI の開発と展開が世界規模で効果的に管理されていることを確認する必要があります。これは、技術革新と制度的革新の両方を必要とする困難な課題ですが、私たちが貢献したいと考えている課題です。

安全性の問題に対処するには、AIシステムの動作の境界を含め、広範な議論、実験、関与も必要です。私たちは、安全なAIエコシステムを作成するために、利害関係者間のコラボレーションとオープンな対話を促進してきました。

Opensourcetech by Takahiro Kujirai