Upravo se desio još jedan značajan događaj, u čitavoj seriji sličnih. AI programi kao ChatGPT su "language models", tj jezički modeli. Jedna od glavnih osnova njihovog uspeha je veliki napredak u razumevanju jezika. Ne samo da je tima olakšana, ubrzana i obogaćena komunikacija čoveka i računara (pa tastature i miševi polako odlaze u istoriju), nego se u jeziku krije i uprošćena logika našeg razmišljanja. On nije samo sredstvo za komunikaciju nego i neka vrsta zamrznutog i pojednostavljenog "snimka" osnovnih pravila našeg mišljenja. Ovo je drastično pomoglo inteligenciji AI programa. Međutim, to se do sada odnosilo samo na verbalni deo senzornih informacija, a za ljude je veoma važan i vizuelni aspekat. Sada je izgleda napravljen veliki prodor i u toj oblasti, što obećava popunjavanje još jedne velike praznine u sposobnostima AI sistema.
Kompanija Meta, koja je vlasnik Facebooka, upravo je objavila novi vizuelni AI model nazvan "
Segment Anything" i skup slika za trening ovakvih modela.
Novi AI model može da uzme bilo koju sliku i prilično uspešno izdvoji sve objekte koji se na njoj nalaze (da napravi vektorske maske za sve objekte), čak i ako su neki objekti za njega novi, tj ako ih nikada do sada nije video, a ipak baš takav objekat zaista postoji u realnosti. Dakle u našem uobičajenom 3D svetu čije se pojednostavljene 2D reprezentacije nalaze na slikama koje AI analizira. Takođe, model omogućuje lako i brzo usavršavanja i preciziranje kroz interaktivni rad sa korinikom. Čovek može programu da ukaže na objekat koji nije prepoznao ili ovlašnim crtanjem njegovih kontura, tj pravljnjem maske (sa brzim interaktivnim preciziranjem konture), ili prostim ukazivanjem na objekat pomoću miša, tačkicama, opisnim tekstom, ili na bilo koji drugi način koji nekako ukazuje na deo slike sa neizdvojenim objektom. Takođe, lako je precizirati koji objekat na slici korisnik želi da izdvoji u nejasnim situacijama. Naprimer ukazivanje korisnika na košulju čoveka na slici nije dovoljno da bi AI mogao znati da li korisnik misli na košulju ili na čoveka, tj šta od toga on treba da izdvoji.
Posledice koje otvara usavršavanje ove tehnologije su ogromne. Naprimer, time postaje moguće praviti autonomne robote koji se dobro snalaze u uobičajenom prostoru u kome žive ljudi bez potrebe da prostor bude specijalno pripremljen za njih i zatim programiran u njihov kod, tj u njihov interni model okoline u kojoj smeju da budu. Kad roboti budu sposobni da prepoznaju (tj izdvoje od pozadine) sve što se oko njih nalazi, bez obzira da li su takve objekte ranije videli ili ne, postaje moguće pustiti ih da se kreću bilo gde. Iako je i do sada bilo moguće programirati izbegavanje prepreka i kretanje u nepoznatoj okolini (lidar, sonar, stereo kamere itd), roboti u takvoj okolini nisu mogli da rade bilo šta korisno sa objektima oko sebe, sem da znaju da u nekoj koordinati 3D prostora ima "nešto" sa nejasnim granicama, i da to "nešto" izbegavaju. Međutim ako mogu da analiziraju okolinu i sve što vide izdvoje u jednu listu svih posebnih 3D objekata koji ih okružuju, to je osnova za mogućnost automatskog pravljenja internog 3D MODELA sveta koji ih okružuje, baš kao što rade ljudi. A to onda omogućuje da postanu korisni i rade razne poslove u nepoznatoj okolini. Do sada je to bilo moguće samo u posebnim, strogo kontrolisanim okruženjima kao što su fabrike gde je izgled prostora u kome će raditi morao biti unapred programiran u njihovu memoriju i gde se zatim ništa nije smelo menjati. Što je bilo i veoma skupo i nepraktično za prostore koje nemaju strogo kontrolisan i redukovan sadržaj. Do sada je u tome najnaprednija bila firma Tesla Elona Maska sa svojim "self driving" automobilima koji su odavno radili baš takav "parsing" i virtualizaciju okoline, doduše samo ulica. On je do sada bio ispred drugih jer je još prošle godine rešio da počne da pravi humanoidne robote opšte namene zasnovane na tom Tesla iskustvu vizuelne analize okoline, što mu je omogućilo ogromno bogatstvo vizuelnih trening podataka za AI sa čitave flote Tesla automobila. Međutim sad u takmičenje ulazi i "Meta" i Mark Zakerberg, mada bez sličnog iskustva, podataka, hardvera i gigantskih proizvodnih sposobnosti kao Tesla. A verovatno i mnogi drugi o kojima manje znamo.
Ipak, od robota je još važnije proširenje domena sa kojim AI sistemi operišu. Najnapredniji, kao Chat GPT, je do sada bio samo "jezički model". Tj radli su samo sa tekstom i analizom onoga što je napisano. Ali za bolje razumevanje onoga što su ljudi napisali, nedostajao mu je vizuelni aspekat. O ČEMU se piše u u većini tih tekstova? O ljudskom iskustvu i viđenju sveta kroz ljudske oči. To je implicitno u ogromnoj većini tekstova kojim je AI treniran. Bez bitno direktnijih informacija kako taj svet vizuelno izgleda (a ne verbalno-opisnih), mnoge relacije u tim tekstovima nemaju previše smisla. Ovaj napredak omogućava da se vizuelna i verbalna sfere integrišu i POVEŽU u jednu nerazdvojnu celinu unutar JEDNOG AI programa gde tekst komentrariše sliku, a slika tekst. To će verovatno omogućiti veliki skok u njihovom razumevanju sveta, pa zbog toga, možda, i u njihovoj inteligenciji.
Naravno, ovim će postati moguć i niz drugih primena, ali ja verujem da su ove dve najvažnije.
Za brzi pregled pogledajte samo video primere njihovoj objavi:
Introducing Segment Anything: Working toward the first foundation model for image segmentation
SAM has learned a general notion of what objects are, and it can generate masks for any object in any image or any video, even including objects and image types that it had not encountered during training. SAM is general enough to cover a broad set of use cases and can be used out of the box on new image “domains” — whether underwater photos or cell microscopy — without requiring additional training (a capability often referred to as zero-shot transfer).
We're releasing the Segment Anything Model (SAM) — a step toward the first foundation model for image segmentation — and the SA-1B dataset.
ai.facebook.com