概要アリババクラウドのQwenチームは、セマンティックおよび外観編集を精密なバイリンガルテキスト修正と組み合わせた最先端の画像編集モデルQwen-Image-Editを発表しました。これにより、クリエイティブおよび実用的なアプリケーションのための高度な機能が提供されます。アリババクラウドのQwenチームは、20B Qwen-Imageフレームワークから派生した高度な画像編集モデルであるQwen-Image-Editを導入しました。この新しいシステムは、Qwen-Imageの独自のテキストレンダリング機能を画像編集に適用し、テキストの修正における精度に特に重点を置いています。Qwen-Image-Editは、入力画像を2つの並行コンポーネントを通じて処理します:視覚的セマンティックコントロールを管理するQwen2.5-VLと、視覚的外観を管理するVAEエンコーダーです。この二重アプローチにより、モデルはセマンティックレベルと外観レベルの編集タスクの両方を効果的に処理できます。このツールは、「画像編集」機能の下でQwen Chatを通じて利用可能です。Qwen-Image-Editは、複数の編集次元で機能するように設計されています。視覚的要素の追加、削除、または変更などの外観レベルの調整をサポートし、画像の他のすべての領域をそのまま保持します。また、知的財産の創造、オブジェクトの回転、スタイル転送などの意味レベルの編集もサポートしており、より広範なピクセルの変更が許可される一方で、意味的な整合性は維持されます。さらに、中国語と英語の両方で洗練されたテキスト編集機能を提供し、ユーザーは画像内のテキストを追加、削除、または調整でき、フォント、サイズ、およびスタイルの一貫性を保つことができます。広く認識されているいくつかのデータセットにおけるベンチマークテストによれば、Qwen-Image-Editは画像編集において最先端のパフォーマンスを達成しており、この分野での将来のアプリケーションのための強力な基盤モデルとして位置付けられています。## **Qwen-Image-Editの創造的かつ実用的なアプリケーションのための意味的および外観の編集**Qwen-Image-Editの定義的な側面の1つは、セマンティック編集と外観編集の両方における高度な機能です。セマンティック編集は、画像の内容を変更しながら、その基盤となる視覚的意味が保持されることを保証します。この機能をわかりやすく示すために、開発チームはQwenの公式マスコットであるカピバラを実用的な例として挙げています。観察によると、修正された画像の大部分のピクセルは左側の元の入力画像とは異なるものの、カピバラキャラクターの全体的な一貫性は完全に維持されています。これは、元の知的財産コンテンツの柔軟で多様な開発をサポートするQwen-Image-Editの強力な意味編集能力を示しています。さらに、Qwen Chat内では、16のMBTI性格タイプを中心にした専用の編集プロンプトセットが作成されました。これらのプロンプトを使用して、カピバラのマスコットをフィーチャーしたMBTIテーマの絵文字パックの完全なコレクションが成功裏に制作され、キャラクターの表現と可視性を効果的に拡張しました。さらに、新しい視点合成は、セマンティック編集におけるもう一つの重要なユースケースを表しています。Qwen-Image-Editは、オブジェクトを90度回転させたり、完全に180度回転させたりすることができ、オブジェクトの裏側を直接視覚化できます。セマンティック編集のさらなる例はスタイル転送であり、例えば、標準的なポートレートをスタジオジブリを思わせるスタイルを含む複数の芸術的美学に再解釈することができます。意味編集と並んで、外観編集は画像修正において頻繁に必要とされる機能です。このアプローチは、画像の特定の領域をまったく変更せずに、指定された要素を追加、削除、または変更することに焦点を当てています。看板がシーンにシームレスに組み込まれる例で示されるように、外観編集は人物の背景調整や衣類の修正など、幅広い応用に適しています。Qwen-Image-Editのもう一つの特徴的な能力は、テキスト編集の精度です。この機能は、Qwen-Imageの高度なテキストレンダリング技術に由来しています。
アリババがQwen-Image-Editを発表:高度な画像およびテキスト編集のための20Bオープンソースモデル
概要
アリババクラウドのQwenチームは、セマンティックおよび外観編集を精密なバイリンガルテキスト修正と組み合わせた最先端の画像編集モデルQwen-Image-Editを発表しました。これにより、クリエイティブおよび実用的なアプリケーションのための高度な機能が提供されます。
アリババクラウドのQwenチームは、20B Qwen-Imageフレームワークから派生した高度な画像編集モデルであるQwen-Image-Editを導入しました。この新しいシステムは、Qwen-Imageの独自のテキストレンダリング機能を画像編集に適用し、テキストの修正における精度に特に重点を置いています。Qwen-Image-Editは、入力画像を2つの並行コンポーネントを通じて処理します:視覚的セマンティックコントロールを管理するQwen2.5-VLと、視覚的外観を管理するVAEエンコーダーです。この二重アプローチにより、モデルはセマンティックレベルと外観レベルの編集タスクの両方を効果的に処理できます。このツールは、「画像編集」機能の下でQwen Chatを通じて利用可能です。
Qwen-Image-Editは、複数の編集次元で機能するように設計されています。視覚的要素の追加、削除、または変更などの外観レベルの調整をサポートし、画像の他のすべての領域をそのまま保持します。また、知的財産の創造、オブジェクトの回転、スタイル転送などの意味レベルの編集もサポートしており、より広範なピクセルの変更が許可される一方で、意味的な整合性は維持されます。さらに、中国語と英語の両方で洗練されたテキスト編集機能を提供し、ユーザーは画像内のテキストを追加、削除、または調整でき、フォント、サイズ、およびスタイルの一貫性を保つことができます。広く認識されているいくつかのデータセットにおけるベンチマークテストによれば、Qwen-Image-Editは画像編集において最先端のパフォーマンスを達成しており、この分野での将来のアプリケーションのための強力な基盤モデルとして位置付けられています。
Qwen-Image-Editの創造的かつ実用的なアプリケーションのための意味的および外観の編集
Qwen-Image-Editの定義的な側面の1つは、セマンティック編集と外観編集の両方における高度な機能です。セマンティック編集は、画像の内容を変更しながら、その基盤となる視覚的意味が保持されることを保証します。この機能をわかりやすく示すために、開発チームはQwenの公式マスコットであるカピバラを実用的な例として挙げています。
観察によると、修正された画像の大部分のピクセルは左側の元の入力画像とは異なるものの、カピバラキャラクターの全体的な一貫性は完全に維持されています。これは、元の知的財産コンテンツの柔軟で多様な開発をサポートするQwen-Image-Editの強力な意味編集能力を示しています。さらに、Qwen Chat内では、16のMBTI性格タイプを中心にした専用の編集プロンプトセットが作成されました。これらのプロンプトを使用して、カピバラのマスコットをフィーチャーしたMBTIテーマの絵文字パックの完全なコレクションが成功裏に制作され、キャラクターの表現と可視性を効果的に拡張しました。
さらに、新しい視点合成は、セマンティック編集におけるもう一つの重要なユースケースを表しています。Qwen-Image-Editは、オブジェクトを90度回転させたり、完全に180度回転させたりすることができ、オブジェクトの裏側を直接視覚化できます。セマンティック編集のさらなる例はスタイル転送であり、例えば、標準的なポートレートをスタジオジブリを思わせるスタイルを含む複数の芸術的美学に再解釈することができます。
意味編集と並んで、外観編集は画像修正において頻繁に必要とされる機能です。このアプローチは、画像の特定の領域をまったく変更せずに、指定された要素を追加、削除、または変更することに焦点を当てています。看板がシーンにシームレスに組み込まれる例で示されるように、外観編集は人物の背景調整や衣類の修正など、幅広い応用に適しています。Qwen-Image-Editのもう一つの特徴的な能力は、テキスト編集の精度です。この機能は、Qwen-Imageの高度なテキストレンダリング技術に由来しています。