top of page

Google VLOGGER: როგორი ვიდეოც გინდა

VLOGGER Google Research-ის ახალი პროექტის ფარგლებში შექმნილი AI ტექნოლოგიაა, რომლის საშუალებითაც შესაძლებელია ადამიანის სტატიკური ფოტოს გაცოცხლება - ვიდეოდ გარდაქმნა, სადაც ადამიანი საუბრობს და მოძრაობს ხმის სინქრონულად.


სურათის “გაცოცხლებისთვის” მომხმარებელმა მოდელს უნდა მიაწოდოს ფოტო, რომლის ვიდეოდ გარდაქმნაც სურს და აუდიოჩანაწერი - ტექსტური და ხმოვანი მონაცემები, რომლის შესაბამისადაც უნდა ილაპარაკოს ფოტოზე გამოსახულმა ადამიანმა.


რა შეუძლია VLOGGER-ს?


VLOGGER-ს ადამიანის გამოსახულების საფუძველზე ვიდეოს გენერირება მაქსიმალურად ბუნებრივი გამომეტყველებითა და ჟესტიკულაციით შეუძლია. ამ შედეგის მისაღებად VLOGGER-ის ტექნოლოგია იყენებს ორი სახის მოდელს:

  1. Lipreader, რომელიც აუდიოზე დაყრდნობით პროგნოზირებს ფოტოზე გამოსახული ადამიანის მოძრაობებს

  2. Animator, რომელიც ფოტოს და მოძრაობის დეტალების ერთობლიობით აგენერირებს ვიდეოს.


ორი მოდელი ტექნიკურად:

  1. პირველი Human-to-3D მოძრაობის Diffusion სტოქასტური მოდელია: ეს მოდელი იღებს ადამიანის გამოსახულებას, როგორც შემავალ მონაცემს და ქმნის მისი სხეულის მოძრაობის 3D მოდელს, მათ შორის განსაზღვრავს, სად იყურება ადამიანი, რა გამომეტყველება აქვთ სახეზე და როგორ დგას ან ზის.

  2. ახალი არქიტექტურის Diffusion მოდელი, რომელიც Text-to-Image მოდელს როგორც დროით, ისე სივრცით კონტროლს უმატებს: ეს მოდელი შემავალ მონაცემად იღებს სხეულის მოძრაობის 3D მოდელს პირველი მოდელიდან და ტექსტს, რომელსაც ადამიანი ამბობს. ამ Input-ების მიხედვით კი ქმნის მოლაპარაკე ადამიანის ვიდეოს. დროითი კონტროლი საშუალებას აძლევს მოდელს გააკონტროლოს ვიდეოს დრო, ხოლო სივრცითი კონტროლი საშუალებას აძლევს მოდელს გააკონტროლოს ვიდეოს ვიზუალი.


მართალია, VLOGGER-ის დახმარებით შესაძლებელია სტატიკური გამოსახულების ვიდეოდ ტრანსფორმაცია, თუმცა მისი შესაძლებლობები ამით არ ამოიწურება





VLOGGER ვიდეო ედიტორიცაა, რომელსაც შეუძლია: 


ვიდეოს თარგმნა - ერთ ენაზე შექმნილი ვიდეოს თარგმნა სხვა ენაზე ისე, რომ ადამიანის სახის გამომეტყველება, მათ შორის, პირის მოძრაობა ემთხვევა ახალ ენაზე დაგენერირებულ აუდიოჩანაწერს. ამ შემთხვევაში, მომხმარებელი მოდელს აწვდის ვიდეოს და აუდიოჩანაწერს იმ ენაზე, რომელზეც სურს ახალი ვიდეოს მომზადება.




ვიდეოს რედაქტირება - VLOGGER-ის AI მოდელს შეუძლია შეცვალოს ან შექმნას ახალი სახის გამომეტყველება, მათ შორის, ემოციები და მოძრაობები. მაგალითად, VLOGGER იღებს ვიდეოს მომხმარებლისგან და ცვლის ვიდეოში არსებული ადამიანის გამოსახულების კონკრეტულ დეტალს, მაგალითად, თვალების დახუჭვის მომენტს.



რაც ყველაზე შთამბეჭდავია, VLOGGER-ის მიერ გენერირებულ ვიდეოებში ადამიანის პირის მოძრაობა საუბარს ემთხვევა, საუბრისას თავი ბუნებრივად იხრება და მოძრაობს, რაც მისი რეალისტურობას ზრდის.




რა თქმა უნდა, მოდელს ნაკლოვანებებიც აქვს. მაგალთად, გენერირებულ ვიდეოებში შესაძლოა პირის მოძრაობის აუდიოსთან სრულად სინქრონში არ იყოს ან სახის გამომეტყველება და ჟესტები შეიძლება რობოტულად მოგვეჩვენოს. ამ ეტაპზე, მოდელს გამოგონილი პერსონაჟების გენერირება არ შეუძლია. იმისთვის, რომ VLOGGER-ის გამოყენება შეძლოთ, დასაწყებად საჭიროა მომხმარებელმა მოდელს რეალური ადამიანის ფოტო მიაწოდოს.

 

რა სარგებელი მოაქვს VLOGGER-ს?


VLOGGER-ის განვითარებასთან ერთად, მისი შესაძლებლობები გაიზრდება და უფრო რეალისტური ვიდეოების შექმნის შესაძლებლობას მისცემს მომხმარებელს. ყველაზე მეტად VLOGGER საქმეს გაუმარტივებს კონტენტის შემქმნელებს (ვლოგერებს) და იმ მცირე ბიზნესებს, რომლებსაც კონტენტ კრეატორების, მსახიობების თუ სააგენტოების დაქირავების საშუალება არ აქვთ. ამ ადამიანებისთვის VLOGGER და მისი მსგავსი ტექნოლოგიები კონტენტის სხვადასხვა ენაზე მარტივად და სწრაფად მომზადების შესაძლებელობაა. 


  1. VLOGGER-ის გამოყენებით ასევე შესაძლებელია ვიდეოში გამოტოვებული ადგილების შევსებაც, ვიდეოს ახალ აუდიოზე მორგება - რაც შემოქმედებითი სფეროს წარმომადგენლებისთვის ძალიან კარგი შესაძლებლობაა. 

  2. VLOGGER-ით მომხმარებელს შეუძლია შექმნას საკუთარი ავატარი - ვირტუალური შეხვედრებისთვის ან სოციალურ მედიაში გამოყენებისთვის.

  3. VLOGGER-ს სმენადაქვეითებული ადამიანებისთვის ვიდეოების ჟესტურ ენაზე გადათარგმნა და შესაბამისი ვიდეოს გენერირებაც შეუძლია. ეს განსაკუთრებით მნიშვნელოვანია იმის გათვალისწინებით, რომ მსგავს ფორმატში კონტენტის ადაპტირებული ვერსიები ძალიან იშვიათია


ეს კარგია, მაგრამ რისკები?


დადებით მხარეებთან ერთად, VLOGGER-ს Deepfake-ის შექმნის რისკებიც ახლავს. კერძოდ, ამ ტექნოლოგიით ასევე მარტივი ხდება ყალბი ვიდეო კონტენტის გენერირებაც. მაგალითად, ორიგინალი ვიდეოს ცვლილება რეალობასთან შეუსაბამო ტექსტით, ყალბი კონტექსტის მოფიქრებით და მისი გავრცელებით. ტექსტთან და სტატიკურ ფოტოსთან შედარებით კი, მოძრავ კადრებს მეტი დამაჯერებლობის ეფექტი აქვს, რადგან ქმნის შთაბეჭდილებას, რომ მოვლენა რეალურად მოხდა. ამიტომ, VLOGGER-ის, ისევე როგორც ყველა სხვა ტექნოლოგიის, ბოროტად გამოყენებამ დეზინფორმაციის გავრცელებას შეიძლება შეუწყოს ხელი. 


მეორე რისკი ადამიანების პერსონალურ მონაცემთა დაცვაა. შეიძლება ფოტოების გამოყენება ვიდეოს გენერირებისთვის ამ ადამიანის თანხმობის გარეშე მოხდეს. ამ რისკების პრევენციის მექანიზმები გუგლს ჯერ არ გაუსაჯაროებია.



ტომ ჰენკსი გირჩევთ სტომატოლოგიურ პროდუქტებს

VLOGGER და მსგავსი პროდუქტები კონტენტის შექმნას და მათ შორის კინოინდუსტრიას რადიკალურად ცვლის. მეტიც, AI-ის აჩქარებული ტემპით განვითარებამ და აქამდე წარმოუდგენელი შესაძლებლობების გამოჩენამ ჰოლივუდში პროტესტიც გამოიწვია.




ჰოლივუდის კინომსახიობთა გილდია ისტორიაში ყველაზე დიდხანს, 118 დღის განმავლობაში გაფიცული იყო და კინოსტუდიებისგან მოითხოვდა პირობას, რომ მათ ფილმებში მათივე ან სხვა AI ავატარები არ ჩაანაცვლებდნენ. კინოსტუდიები უკვე იყენებენ AI-ის გარდაცვლილი მსახიობების რეალისტური რეპლიკების შესაქმნელად და მასობრივ კადრებში მსახიობების ნაცვლად AI-ის გენერირებულ ადამიანები “მონაწილეობდნენ”. ეს გადაწყვეტა კინოსტუდიებისთვის, რა თქმა უნდა, გაცილებით იაფი გამოსავალია. თუმცა, გილდიამ გაიმარჯვა და კინოსტუდიებმა მსახიობებს პირობა მისცეს, რომ მსახიობის AI ვერსია ფილმში მონაწილეობისთვის იმდენს აიღებს, რამდენსაც ნამდვილი მსახიობი აიღებდა.





ზოგადად, ცნობილი ადამიანების შეშფოთება სამართლიანია. მაგალითად, გასულ წელს ტომ ჰენკსს მოუწია ეთქვა, რომ ნამდვილი არ იყო სოციალურ ქსელებში გავრცელებული ვიდეო, სადაც, AI-ს მიერ გენერირებული მსახიობი სტომატოლოგიურ პროდუქტს არეკლამებდა. როგორც მსახიობმა განმარტა, ეს მისი თანხმობის გარეშე მოხდა. ამ კონტენტს ზიანი არავისთვის მოუტანია. თუმცა, ის მაინც იმ მზარდი შეშფოთების ნაწილია, რომელიც AI-ის არასწორი გზებით გამოყენებით მოტანილ პირად თუ საზოგადო ზიანს მიემართება. 


ამჟამად, კომპანიამ გამოაქვეყნა მოდელის მიმდინარე შედეგები და პროგრესი GitHub-ზე, თუმცა მოდელის საჯარო პრეზენტაცია ჯერ არ მომხდარა. VLOGGER ამ ეტაპზე კვლევის ეტაპზეა და საჯარო გამოყენებისთვის ჯერ ხელმისაწვდომი არ არის. 


მეტი ინფორმაციისთვის: https://enriccorona.github.io/vlogger/

留言


bottom of page