Technology

Google का Lumiere AI वीडियो को अवास्तविक की तुलना में वास्तविक के करीब लाता है


Google का नया वीडियो जेनरेशन AI मॉडल Lumiere ए का उपयोग करता है नया प्रसार मॉडल कहा जाता है स्पेस-टाइम-यू-नेट, या एसटीयूनेट, जो यह पता लगाता है कि वीडियो (स्पेस) में चीजें कहां हैं और वे एक साथ कैसे चलती हैं और बदलती हैं (समय)। आर्स टेक्निका रिपोर्ट में कहा गया है कि यह विधि लुमिएरे को छोटे स्थिर फ़्रेमों को एक साथ रखने के बजाय एक प्रक्रिया में वीडियो बनाने की सुविधा देती है।

ल्यूमियर प्रॉम्प्ट से बेस फ्रेम बनाने से शुरू होता है। फिर, यह अनुमान लगाना शुरू करने के लिए STUnet ढांचे का उपयोग करता है कि उस फ्रेम के भीतर की वस्तुएं अधिक फ्रेम बनाने के लिए कहां चलेंगी जो एक दूसरे में प्रवाहित होती हैं, जिससे निर्बाध गति का आभास होता है। ल्यूमियर स्टेबल वीडियो डिफ्यूजन के 25 फ्रेम की तुलना में 80 फ्रेम भी उत्पन्न करता है।

बेशक, मैं एक वीडियो व्यक्ति से अधिक एक टेक्स्ट रिपोर्टर हूं, लेकिन प्री-प्रिंट वैज्ञानिक पेपर के साथ Google द्वारा प्रकाशित सिज़ल रील से पता चलता है कि एआई वीडियो पीढ़ी और संपादन उपकरण कुछ ही समय में अलौकिक घाटी से लगभग यथार्थवादी हो गए हैं साल। यह रनवे, स्टेबल वीडियो डिफ्यूजन या मेटा जैसे प्रतिस्पर्धियों के कब्जे वाले स्थान पर भी Google की तकनीक को स्थापित करता है। एमु. रनवे, पहले मास-मार्केट टेक्स्ट-टू-वीडियो प्लेटफार्मों में से एक, रनवे जेन-2 जारी किया गया पिछले साल मार्च में और अधिक यथार्थवादी दिखने वाले वीडियो पेश करना शुरू कर दिया है। रनवे वीडियो में गति को चित्रित करने में भी कठिनाई होती है।

Google लुमिएर साइट पर क्लिप और प्रॉम्प्ट डालने के लिए काफी दयालु था, जिसने मुझे तुलना के लिए रनवे के माध्यम से वही प्रॉम्प्ट डालने की अनुमति दी। यहाँ परिणाम हैं:

हां, प्रस्तुत कुछ क्लिप में कृत्रिमता का स्पर्श है, खासकर यदि आप त्वचा की बनावट को करीब से देखते हैं या यदि दृश्य अधिक वायुमंडलीय है। लेकिन उस कछुए को देखो! यह वास्तव में कछुए की तरह पानी में चलता है! यह असली कछुए जैसा दिखता है! मैंने ल्यूमिएर परिचय वीडियो एक मित्र को भेजा जो एक पेशेवर वीडियो संपादक है। जबकि उसने बताया कि “आप स्पष्ट रूप से बता सकते हैं कि यह पूरी तरह से वास्तविक नहीं है,” उसने सोचा कि यह प्रभावशाली था कि अगर मैंने उसे नहीं बताया होता कि यह एआई है, तो वह सोचती कि यह सीजीआई है। (उसने यह भी कहा: “इससे मेरी नौकरी चली जाएगी, है ना?”)

अन्य मॉडल जेनरेट किए गए मुख्य फ़्रेमों से वीडियो को एक साथ जोड़ते हैं जहां आंदोलन पहले ही हो चुका है (फ्लिप बुक में चित्रों के बारे में सोचें), जबकि एसटीयूनेट ल्यूमियर को मूवमेंट पर ध्यान केंद्रित करने देता है, जो इस आधार पर होता है कि वीडियो में किसी दिए गए समय में जेनरेट की गई सामग्री कहां होनी चाहिए।

Google टेक्स्ट-टू-वीडियो श्रेणी में एक बड़ा खिलाड़ी नहीं रहा है, लेकिन इसने धीरे-धीरे अधिक उन्नत AI मॉडल जारी किए हैं और अधिक मल्टीमॉडल फोकस की ओर झुक गया है। इसका मिथुन बड़ा भाषा मॉडल अंततः बार्ड के लिए छवि निर्माण लाएगा। ल्यूमियर अभी तक परीक्षण के लिए उपलब्ध नहीं है, लेकिन यह एक एआई वीडियो प्लेटफॉर्म विकसित करने की Google की क्षमता को दर्शाता है जो रनवे और पिका जैसे आम तौर पर उपलब्ध एआई वीडियो जनरेटर के बराबर है – और यकीनन थोड़ा बेहतर है। और बस एक अनुस्मारक, यही वह जगह थी Google AI वीडियो के साथ था दो वर्ष पहले।

2022 से Google Imagen क्लिप
छवि: गूगल

टेक्स्ट-टू-वीडियो जेनरेशन के अलावा, ल्यूमियर इमेज-टू-वीडियो जेनरेशन, स्टाइलाइज्ड जेनरेशन की भी अनुमति देगा, जो उपयोगकर्ताओं को एक विशिष्ट शैली में वीडियो बनाने की सुविधा देता है, सिनेमोग्राफ जो वीडियो के केवल एक हिस्से को एनिमेट करते हैं, और एक क्षेत्र को छिपाने के लिए इनपेंटिंग की सुविधा देता है। वीडियो का रंग या पैटर्न बदलने के लिए.

हालाँकि, Google के ल्यूमिएर पेपर में कहा गया है कि “हमारी तकनीक के साथ नकली या हानिकारक सामग्री बनाने के लिए दुरुपयोग का जोखिम है, और हमारा मानना ​​​​है कि सुरक्षित और निष्पक्षता सुनिश्चित करने के लिए पूर्वाग्रहों और दुर्भावनापूर्ण उपयोग के मामलों का पता लगाने के लिए उपकरण विकसित करना और लागू करना महत्वपूर्ण है।” उपयोग।” पेपर के लेखकों ने यह नहीं बताया कि इसे कैसे हासिल किया जा सकता है।


CLICK ON IMAGE TO BUY

Leave a Reply

Your email address will not be published. Required fields are marked *

%d