OpenAI のテキストからビデオへのジェネレーターはどれほど「魔法」なのでしょうか?

OpenAI のテキストからビデオへのジェネレーターはどれほど「魔法」なのでしょうか?

ガーディアン紙によると、ChatGPTの新しいツールは、ユーザーのトピックやスタイルに関するテキスト指示に基づいて、最大1分間「物理的な世界の動きをシミュレート」します。

「Sora」(日本語で「空」を意味する)というニックネームが付けられたこのツールは、テーマとスタイルの両方に関するユーザーの指示に従って、最長1分間のリアルなムービーを作成できます。 OpenAIのブログ投稿によると、このモデルは静止画像に基づいてビデオを生成したり、既存の映像を新しい素材で拡張したりすることもできるという。

驚くべきことに、Sora が生成するビデオは驚くほどリアルで、この AI モデルの優れた能力を実証しています。現在、Sora は、より広範囲にリリースされる前に、少数の研究者とクリエイターのみがテストできる状態になっています。ソラの出現は映画業界に大きな影響を与え、ディープフェイク問題をさらに深刻化させる可能性がある。

OpenAI の AI ツールがテキスト プロンプトから作成した先史時代のマンモスのビデオをご覧ください (出典: New York Times)

「私たちは、現実世界でのやりとりを必要とする問題を人間が解決するのに役立つモデルを訓練することを目指して、動いている物理世界を理解しシミュレートすることをAIに教えています」とブログ投稿には書かれている。

上記のマンモスの動画は、Sora が次のテキスト プロンプトから作成しました。「数頭の巨大なマンモスが雪に覆われた草原を歩いています。歩くたびに長い毛が風になびき、遠くには雪に覆われた木々と印象的な雪を頂いた山々、薄い雲と頭上の太陽による午後の光が暖かい輝きを生み出しています。カメラを低い角度から設置し、被写界深度の浅い美しい画像で大型動物を撮影します。

同社は、一部の研究者やビデオ制作者にSoraへのアクセスを開放したと発表したが、一般公開がいつになるかは明らかにしなかった。同社のブログ投稿によると、専門家らはOpenAIの利用規約に準拠しているかどうかをテストする予定で、利用規約では「極端な暴力、ポルノ、憎悪表現、有名人の肖像、または他人の知的財産」を禁止している。

テキストからビデオを作成するだけでなく、Sora では静止画像に基づいてビデオを作成したり、既存のビデオの欠落しているフレームを埋めたり、ビデオを引き伸ばしたりすることもできます。 OpenAI がブログ投稿で共有した Sora 生成ビデオの例には、ゴールドラッシュ時代のカリフォルニアの航空写真や、東京の電車内から撮影されたと思われるビデオなどが含まれています。

Sora が制作したビデオの優れた品質は否定できません。通常、これらのビデオを制作するには、実際のカメラクルーとアニメーターが何時間もかかります。 ChatGPT や AI 画像ジェネレーターが編集やデザインの世界に衝撃を与えたのと同じように、Sora は映画業界に革命を起こす可能性があります。これは、ビデオクリエイターの雇用安定という点では注目に値すると同時に恐ろしい技術です。

以下のビデオは、Sora がいくつかの短い説明だけで作成したものです。「色とりどりの魚や海の生き物でいっぱいの、サンゴ礁の美しく描かれたペーパークラフトの世界。」

OpenAIは、ニューヨークタイムズ紙に対し、リポジトリには著作権者からライセンスを受けた公開ビデオが含まれていると伝えたが、それ以外は、ソラのトレーニングに使用された映像の量や、トレーニングビデオの入手先については明らかにしなかった。

同社は、インターネットから収集した大量の素材を処理し、そのデータセットに含まれる画像やテキストを模倣する能力を持つ合成AIツールのトレーニングにおいて、著作権侵害の疑いで何度も訴えられている。

OpenAIは、ツールが因果関係を理解し​​ていなかったり、空間認識が欠けていたりと、まだ改善の余地があると述べている。左右が混乱したり、人や物体がシーンとどのように相互作用するかを理解できなかったりすることがあります。

しかし、ソラの驚異的なクオリティは、最近AI技術が偽コンテンツの作成に悪用されているという別の懸念も引き起こしている。 OpenAIは、誤解を招くコンテンツの検出に役立つツールを構築し、既存の技術を適用して有害なテキストプロンプトを拒否すると述べた。しかし、多くの人が現在の AI モデルの保護を回避するために使用している方法を考えると、これらの取り組みの成功は疑問が残ります。

OpenAIは2021年にDall-E静止画像ジェネレーターをリリースし、2022年11月には合成AIチャットボットChatGPTをリリースし、急速に1億人のユーザーを獲得しました。

他の AI 企業もビデオ生成ツールをリリースしているが、それらのモデルは数秒の短いクリップしか生成できず、提案とはほとんど関係がないことが多い。

Google と Meta は、合成ビデオツールを開発中であると述べているが、まだ一般には公開していない。 2月14日、同社はChatGPTにさらに深いメモリを追加し、ユーザーの会話をより多く記憶できるようにするテストを発表した。

<<:  OpenAI、テキストから短い動画を生成するツールを発表

>>:  建設における麻の画期的な可能性

推薦する

シンガポール、2025年までに「キャッシュレス学校」モデルを導入へ

CNAによると、シンガポール教育省とDBS銀行は、2025年までにPOSBスマートバディプログラムを...

カンガルー浄水器のよくあるエラーのまとめ

カンガルー浄水器は、高品質のろ過水を製造することから、多くの家庭から信頼されているブランドの 1 つ...

暑い季節に便利な外部給水器機能を内蔵した冷蔵庫5モデル

冷蔵庫の購入をお考えの方は、暑い季節に便利な外付けウォーターディスペンサー機能を備えた以下の5つの冷...

今、最も省エネで優れた冷蔵庫はどのブランドを買うべきでしょうか?

1. 2022年最新冷蔵庫価格表を更新以下は現行冷蔵庫の最新価格表です(2022年5月6日更新)。 ...

画像サイズを縮小し、オンラインで画像を素早く圧縮する 7 つの方法

写真のサイズを小さくすると、携帯電話のストレージ容量を節約でき、容量が限られている Web サイトで...

エジプトで2500年以上前の棺が数十個発見される

発掘現場で、チームは豪華に装飾された石棺の一つを開け、多くの象形文字が刻まれた埋葬布に包まれたミイラ...

LG洗濯機のタブクリーンモードについて学ぶ

洗濯機を何度も使用した後、ドラム内に汚れ、臭い、細菌などの問題が発生したことはありませんか?心配しな...

知的財産の国家管理における新たな方向性

これは科学技術にとって重要なフォーラムです。また、地域、企業、研究機関、大学における知的財産活動の交...

写真・動画コンテスト「ハッピーベトナム2023」入賞作品28点

「ハッピー・ベトナム2023」と呼ばれるベトナムの人権をテーマにした写真とビデオのコンテストは、情報...

ガラスカップを安全かつ効果的に沸騰させる方法

ガラスコップは日常生活でよく使われる家庭用品です。普段からよく使われていますが、ガラスカップを煮沸し...

茶文化交流ナイトのハイライト

これは、タイグエン省協同組合連合会が主催し、28の省と市の代表的な製品を展示、宣伝、紹介する第5週の...

鍋料理をするには鍋を使うべきでしょうか、それとも電磁調理器を買うべきでしょうか?

鍋料理は多くの家庭で人気の料理です。特に大家族の場合、暖かい夜には家族全員が鍋の周りに集まります。多...

ソニー スマートテレビ 2018 のオン/オフ タイマー機能の使用方法

テレビデバイス、特にスマートテレビのユーザーが忘れがちな最も便利な機能の 1 つが、オン/オフ タイ...

インド:着陸船が月面の初画像を公開

インド宇宙研究機関(ISRO)はソーシャルネットワークX(旧Twitter)で次のように共有した。「...

韓国、固体燃料ロケットの打ち上げに成功

同省は詳細は明らかにしなかったが、将来的に本物の衛星を搭載したロケットを打ち上げる計画があると述べた...