OpenAI、音声、ビジョン、テキストにおけるリアルタイム推論のアップデートを発表
Cointelegraphによると、OpenAIは10月にAIモデルの会話能力を向上させ、画像認識を改善するために4つのアップデートを行いました。最初の大きなアップデートは、開発者が単一のプロンプトを使用してAI生成の音声アプリを作成できるリアルタイムAPIで、ChatGPTの高度な音声パターンに似た自然な会話を可能にします。以前は、開発者はこれらの体験を作成するために複数のモデルを「つなぎ合わせる」必要がありました。音声入力は通常、応答を受け取る前に完全にアップロードされ処理される必要があり、音声対話のようなリアルタイムアプリケーションは高い遅延を伴います。リアルタイムAPIのストリーミング機能により、開発者は音声アシスタントのように即時で自然なインタラクションを実現できます。2024年5月にリリースされるGPT-4で動作するこのAPIは、音声、ビジョン、テキスト全体でリアルタイム推論を可能にします。もう一つのアップデートには、開発者が画像とテキスト入力から生成されたAIの応答を改善できる微調整ツールが含まれています。画像ベースのファインチューナーは、AIが画像をよりよく理解し、視覚検索や物体検出を強化します。このプロセスには、良い応答と悪い応答の例を提供する人間からのフィードバックが含まれています。音声とビジョンのアップデートに加えて、OpenAIは「モデル蒸留」と「キューキャッシング」を導入し、小さなモデルが大きなモデルから学び、処理済みテキストを再利用することで開発コストと時間を削減します。OpenAIは、来年の収益が116億ドルに増加し、2024年の予測37億ドルから増加するとReutersは報じています。
免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。
こちらもいかがですか?
米国の主要株価指数3つがまちまちで取引を終える
連邦準備制度の翌日物リバースレポ取引の利用規模が2021年4月以来の最低水準に低下
Yuga Labs、Meebitsの知的財産を売却、Bored Ape Yacht ClubとOthersideに注力
Google: 暗号化広告主は、関連する要件を満たし、認証を取得すれば、UAEで広告を配信可能
暗号資産価格
もっと見る![Bitcoin](https://img.bgstatic.com/multiLang/coinPriceLogo/bitcoin.png)
![Ethereum](https://img.bgstatic.com/multiLang/coinPriceLogo/ethereum.png)
![XRP](https://img.bgstatic.com/multiLang/coinPriceLogo/ripple.png)
![Tether USDt](https://img.bgstatic.com/multiLang/coinPriceLogo/0208496be4e524857e33ae425e12d4751710262904978.png)
![Solana](https://img.bgstatic.com/multiLang/coinPriceLogo/solana.png)
![BNB](https://img.bgstatic.com/multiLang/coinPriceLogo/binance.png)
![USDC](https://img.bgstatic.com/multiLang/coinPriceLogo/usdc.png)
![Dogecoin](https://img.bgstatic.com/multiLang/coinPriceLogo/dogecoin.png)
![Cardano](https://img.bgstatic.com/multiLang/coinPriceLogo/cardano.png)
![TRON](https://img.bgstatic.com/multiLang/coinPriceLogo/tron.png)