Забелязахме, че използвате Ad Blocker

Разбираме желанието ви за по-добро потребителско изживяване, но рекламите помагат за поддържането на форума.

Имате два варианта:
1. Регистрирайте се безплатно и разглеждайте форума без реклами
2. Изключете Ad Blocker-а за този сайт:
    • Кликнете върху иконата на Ad Blocker в браузъра
    • Изберете "Pause" или "Disable" за този сайт

Регистрирайте се или обновете страницата след изключване на Ad Blocker

Отиди на
Форум "Наука"

Препръчано мнение

  • Глобален Модератор
Публикувано

NVIDIA Cosmos: как се създава СЪЗНАНИЕ?

От доста време се канех да напиша нещо по тази тема. Проектът Nvidia Cosmos е създаден на 6-ти януари 2025 г., и целта му е да създаде усещане за реалният свят в ИИ. Само тогава той може да взаимодейства, да взема решения, да прогнозира промените, и да "усети" своето място в реалният свят.

Докато се туткам, добри хора написаха доста по тази тема на разбираем език, и по-долният текст се базира изцяло на едно популярно видео на руски език ТУК. Текстът е дълъг, но си струва.

И така...

ChatGPT и други езикови модели (LLM) са наистина невероятни. Те могат да водят разговор, да пишат код, да обясняват квантовата физика. Те знаят повече и мислят по-бързо от всеки човек. Но при цялата тази мощ те имат един основен проблем - не разбират как функционира реалният свят. Никога не са живели в него, никога не са усещали тежестта на предметите, топлината, студа, миризмата на дъжд и най-важното - никога не са разбирали последствията от действията си. Те имат знания за света, но нямат опит да живеят в него.

Ето защо се появи идеята за създаване на модел на света за вътрешно представяне на физическата реалност, който ще позволи на ИИ не просто да знае за този свят по описание от интернет, но и да го разбира на базата на собствения си опит. И може би когато такъв модел бъде реализиран и придобие нещо повече от способността да пише код и да говори, той ще придобие съзнание.

Но възможно ли е да се създаде такъв модел? Може, и точно това вече правят Nvidia и нейният проект Cosmos.

Сега ще разберем дали неодушевеното може да стане одушевено, защо всеки от нас живее в симулация вътре в себе си, дали андроидите сънуват електроовце и как Nvidia построи фабрика за мечти за машини.

Неврон на настроението

Може ли неодушевеното изведнъж да стане одушевено?

2017 г. Трима инженери от Open AI, тогава малко известна организация с нестопанска цел, обучават поредния езиков модел на базата на обратна връзка от Amazon. Задачата е тривиална - да научат ИИ да предсказва следващия символ в текста: нищо необичайно. Но изведнъж те забелязват нещо странно. В процеса на обучение моделът започва да отгатва не само символите, но и настроението на текста, без никаква команда, без допълнително обучение. В него се активира неврон, който със стряскаща точност определя: този текст е положителен, а този текст е отрицателен. Моделът разбира не само емоционалната окраска на всяка дума, но и контекста. Сякаш нещо повече се е събудило в бездушната машина.

Това откритие шокира инженерите на Open AI, включително Иля Суцкевер, родом от Горки, сега Нижни Новгород, син на съветски физик- инженер, съосновател на Open AI и главен архитект на ChatGPT. Суцкевер и колегите му започват да изучават явлението и да се задълбочават. Те създават Open AI Microscope - инструмент, който им позволява да надникнат в дълбоките слоеве на невронните мрежи. И там откриват истинско съкровище - необичайни неврони. Те се наричат мултимодални неврони и тези неврони се активират от различни видове данни.

Например те откриват неврон "Хали Бери", който се активира от снимка на актрисата в образа на Жената котка, примитивна рисунка или дори само текст, като безпогрешно определя, че всичко това е Хали Бери.

По този начин се откриват неврони на други герои, понятия, емоции, сякаш невронната мрежа без директни инструкции сама започва да структурира реалността, да открива модели и асоциации в нея. И колкото по-голям е моделът, колкото повече са данните, толкова повече такива неврони се появяват. Но как е възможно това?

Емерджентност

В теорията на системите това се нарича емергенция - способността на една система да създава свойства, които отделните ѝ части не притежават. С други думи, цялото е по-голямо от сумата на своите части. Голямата сграда е направена от малки тухлички, живото тяло е направено от неодушевени молекули, но от какво е направено съзнанието? Ятата птици, ятата риби, мравуняците - прости правила на взаимодействие между индивиди без обща цел създават сложно, координирано поведение. Системата подчинява на себе си елементите, от които е съставена.

Един неврон е само превключвател, но милиарди от тях, свързани в мрежа, могат да създадат нещо повече: субективен опит. В това е вярвал Иля Суцкевер.

Откривайки възникващите свойства на големи езикови модели, той стига до заключението, че съзнанието не е въпрос на магия, а на мащаб. Повече данни, повече параметри, повече изчисления и повече пари. Това се превърна в стратегията за отворен изкуствен интелект. На олтара на изкуствения интелект бяха изгорени десетки милиарди долари и гигаватчасове енергия, за да се мащабира ChatGPT. И това се получи. Успехите на LLM надминаха всички очаквания. Един примитивен статистически алгоритъм, чиято единствена задача е да предсказва следващата дума или символ, се научи да решава задачи на ниво олимпиада, да пише сложен код, да води смислен диалог и дори да съчувства. Но независимо колко впечатляващ е ChatGPT, той все още не е AGI (Artificial general intelligence, Изкуствен общ интелект).

Но какво следва? Да продължим да харчим милиарди долари и да пълним с видеокарти центровете за данни с надеждата, че това най-накрая ще събуди ИИ?

Не - това е мнението на Ян Ликун, един от основоположниците на съвременния ИИ. Той е и носител на наградата „Тюринг“ за 2019 г., създател на конволюционните невронни мрежи  CNN и ръководител на отдела за разработка на ИИ в забранена в Русия компания. Според него по-нататъшното мащабиране на LLM просто няма смисъл. Но всъщност то няма и да е необходимо, защото следващият пробив на изкуствения интелект няма да се случи там, където го търси Open AI. И в това е сигурен не само Ликун, но и Nvidia.

И целият интернет не е достатъчен

И така, какво не е наред с LLM? Всъщност няма нищо лошо в него. Големите езикови модели са страхотни технологии. Просто те са достигнали своите граници. Вече нахранихме LLM с целия горен и долен интернет, с всички книги, статии, GitHub, Stack Overflow, коментари в Redit, YouTube, VKontakte. И какво получихме като резултат? Огромен архив от знанията на цялото човечество, с който можем да разговаряме. Това само по себе си е чудо. Но то не е достатъчно във всеки един смисъл.

На първо място, обемът. Да, интернет е огромен, но в сравнение с потока от данни, които човешкият мозък обработва, той е капка в морето. До четиригодишна възраст детето получава повече информация само по визуален път, отколкото се съдържа във всички текстове, писани някога от хора.

На второ място е естеството на данните. Реалният свят не е текст. Четенето на пасаж за велосипед не е каране на велосипед. Има две големи разлики. И LLM живеят в свят на букви, но това не е реалният свят. Така че те не разбират фундаменталните свойства на реалността, пространството и времето.

Но какво означава това? Как е възможно да се разберат пространството и времето? Да знаете формулите на Нютон и Айнщайн? Не, котката не знае уравненията, но изчислява траекторията на скока си по-добре от всеки инженер в НАСА. Същото е и с хората - ние интуитивно разбираме как функционира светът, как да взаимодействаме с него, какво е възможно и какво не. Невронните мрежи не разбират това. Но ето го и въпросът: как да го направим?

И тук е най-интересното - ние предсказваме бъдещето, или по-скоро мозъкът ни го прави.

Мозъкът предсказва бъдещето...

Разбирането на физическия свят е способността да се предсказва неговото следващо състояние. Затова мозъкът ни постоянно си задава въпроса: „Какво ще стане, ако?“. Какво ще се случи, ако бутнете чаша от масата? Ще се счупи ли, ще отскочи ли или може би ще увисне във въздуха? Какво ще стане, ако я докоснете? Безопасно ли е? Топло ли е или студено, чисто ли е или мръсно, гладко ли е или грапаво? И той, нашият мозък, прави това непрекъснато, автоматично.

Пространството около нас не е декорация. То е огромен поток от информация, която трябва да се анализира постоянно. Животът ни зависи от него. Мозъкът непрекъснато сканира пространството около нас и комбинирайки данните от всички сензори, изгражда хипотези. Ето защо усещаме къде е безопасно и къде е тревожно, къде можем да седнем, да се отпуснем и откъде трябва да избягаме. Когато прогнозата съвпадне с реалността, сме спокойни или щастливи, ако сме очаквали нещо приятно. А ако не съвпадне, сме изненадани, уплашени или се смеем. Да, хуморът е грешка в прогнозата, която не носи заплаха.

Но откъде хората придобиват тази способност? Дали сме оракули по рождение? Не, научаваме я. До 9-10 месечна възраст детето започва да формира стабилен физически модел на света. Покажете на бебето трика с предмет, окачен във въздуха. Шестмесечното дете няма да се изненада. Но едно деветмесечно дете ще отвори широко очи. Защо? От тази възраст във всеки от нас вече има симулация на реалността, наша вътрешна матрица, съществуваща паралелно с реалния свят, наша реконструкция на реалността, благодарение на която предвиждаме „какво ще стане, ако“. А грешките в прогнозите определят реакцията ни към заобикалящия ни свят.

Ян Ликун нарича такъв симулатор „модел на света“. И ако обучим изкуствения интелект да изгради такъв модел в себе си, както прави едно деветмесечно бебе, ще направим следващата стъпка. И може би това ще бъде стъпка към изкуственото съзнание.

Но как да обучим ИИ да изгради модел на света?
Отговорът е прост: дайте му тяло.

Последният пъзел

Практиката ни е научила: тяло без съзнание е мъртво, но и съзнание без тяло едва ли е възможно. И ето защо. Усъвършенстваните теории за съзнанието и мозъка, като например теорията за глобалното работно пространство, теорията за предсказващото кодиране и други, въпреки различните подходи и различията в детайлите, са съгласни с едно нещо. Мозъкът е хипермрежа, той е мрежа от мрежи, свързани в единна архитектура.

Тоест мозъкът не е една невронна мрежа, а набор от различни невронни мрежи, т.е. модули, които непрекъснато обменят информация помежду си. Ако съберем такава система от модули, изградим йерархични връзки, ще получим изкуствен мозък. И знаете ли, ние сме страшно близо до това.

Например в архитектурата на изкуствения мозък, която предлага Ян Ликун, има шест модула:
- краткосрочна памет;
- модул за възприятие, който анализира текущото състояние на света;
- модел на света, който предсказва какво ще се случи след това;
- модул за мотивация, който разпределя наградите и наказанията;
- модул за конфигуриране - управляващ цялата система;
- и актьор, който взема решения и действа.

Всички тези модули вече са реализирани, с изключение на един: модела на света. А когато моделът на света е готов, ИИ ще бъде автономен агент, който възприема, разбира и действа. Какво е това, ако не интелигентно същество?  

Но преподаването на реалността не е лесна задача, защото не съществува такова нещо като обективна реалност. Тя е субективна. Реалността не е фиксиран обект, а процес на възприемане. Всяко същество възприема света по свой собствен начин, чрез своя набор от сензори, както и чрез своите цели и най-важното - личен опит. И само като изгради своя собствена субективна реалност, ИИ може да започне да разбира нашата.

Но именно тук възниква проблемът. Успехът на всички съвременни модели на ИИ се дължеше само на един фактор: разполагахме с много данни. Напълнете с N петабайти текст, ще получите ChatGPT, подайте милиони изображения и видеоклипове, ще получите MidJourney и Sora. А какво да кажем за субективния опит, откъде да го вземем? Той не се съхранява на твърди дискове, не е в YouTube, дори не може да се изтегли от торенти.

Тогава какво правим? Да пуснем роботите в реалния свят, да ги оставим да тичат, да падат, да се удрят? Това е възможно, но е дълго, скъпо и опасно както за роботите, така и за хората. Затова ни трябва друг начин: да създадем симулация, субективна мултивселена на реалността, свят на мечтите, където времето може да се ускорява и превърта назад, където можеш да правиш грешки, да преиграваш, да опитваш отново и отново, довеждайки уменията си до съвършенство, където можеш да изживееш хиляди животи за една нощ. И такъв свят вече се създава. Той се нарича Nvidia Cosmos.

Фабрика за сънища - NVIDIA Cosmos

Какво всъщност е Nvidia Cosmos? Това е фабрика за сънища за роботи. Не ви се вярва? А не бива – сега ще обясня.

Нека за миг се отклоним и помислим: как се учи човешкият мозък? Отговорът е – изключително ефективно. Биологичните невронни мрежи, за разлика от изкуствените, имат едно важно предимство – невропластичност. Нашият мозък не просто запомня информация – той буквално се променя в движение, пренарежда невронните връзки, адаптира се. Затова всеки път, когато грешим и опитваме отново, го правим вече с леко променен мозък – по-ефективен.

Но дори това не е достатъчно. Всеки ден получаваме повече информация, отколкото можем да усвоим. Затова мозъкът ни продължава да се учи насън.

Учените са провеждали експерименти с плъхове. Гризачите тичали по лабиринт, а изследователите записвали активността на невроните през деня и нощта. Оказало се, че по време на сън мозъкът активира същите неврони в същия ред, както и когато са били будни, но в ускорен режим – сякаш плъхът отново и отново пробягва маршрута си, запомня завои, миризми, усещания. Само че този път – не в реалността, а в ума.

При хората е същото – когато учите нов език, свирите на китара, решавате сложна задача – мозъкът ви се връща към това насън. Той пренарежда преживяното, подсилва нужните връзки и отстранява излишното, изпробва различни варианти и намира решения, които през деня не са му били достъпни. Сънят не е почивка – той е пространство за учене, където можем да преживеем събитията отново, да кажем онова, което не сме се осмелили, да направим онова, което не ни се е получавало, да преодолеем онова, за което не ни е достигала сила – без риск, без последствия.

Нищо ли не ви напомня? Това което за човека е сънят, за робота – симулацията. А сънищата – това са обучителни материали. Само че не универсални, а генерирани специално за него. Разликата е само една: при човека сънищата се създават от собствения му мозък, а при роботите – се синтезират от Nvidia Cosmos.

Да, Nvidia Cosmos е генератор на сънища. Система, която взима зрънце реален опит и от него изгражда планинска верига от синтетичен.

Ето как работи това. Първо, Cosmos генерира тонове синтетични светове–сънища, в които роботът може да се тренира в симулация. После той се „събужда“, излиза в реалния свят, проверява какво е научил, допуска грешки. Грешките се превръщат в данни, данните – в опит, а опитът – в нови сънища. И цикълът се повтаря. Cosmos създава хиляди алтернативни сценарии, преиграва неуспешните опити, предлага нови решения, показва нови пътища.

Но как е устроено всичко това технически? Ето тук започва най-интересното.

NVIDIA Cosmos отвътре

За да създадат Cosmos, от NVIDIA започнали от самата основа – данните. Най-напред събрали огромен масив от видео: от камери, роботи, лидари, автопилоти, записи на човешки движения, манипулации с ръце, природни явления и други процеси от реалния свят.

Звучи впечатляващо, но суровите данни не могат просто така да  „нахранят“ машината – те първо трябва да бъдат обработени.

Затова NVIDIA изградили пълноценна производствена линия за обработка, почистване и анотиране на видеоданни. Видеото било разбито на фрагменти, изрязани били скучните, некачествените и ненужните части. Останалото било анотирано, добавено описание, преведено във формат, разбираем за машините, и токенизирано. В крайна сметка се получили 20 милиона часа видео и 9 милиарда токена.

Следващата стъпка: NVIDIA извадили своето тайно оръжие — 10 000 видеокарти H100. И да — „нахранили“ ги с целия този масив. Резултатът: ключов компонент на NVIDIA Cosmos, а именно – основни модели на света, или World Foundation Models (WFM).

А какво всъщност представляват те? Важно уточнение: WFM все още не е самият „модел на света“. Това е строителен материал, основа, върху която може да бъде построен модел на света. Или, както казват в NVIDIA – основа за създаване на физически изкуствен интелект.

WFM е именно онзи генератор на сънища – набор от невронни мрежи, които генерират видео подобно на Sora или Runway, но с една важна разлика: не са насочени към красотата на картината, а към физиката и субективната перспектива.

По същество WFM генерира свят през очите на роботите. Те създават POV (гледна точка), в който ти си: робот-товароносач в логистичен център, кибертакси с шест камери и лидар, или хуманоид, който поставя чаша в съдомиялна машина. POV, който заслужаваме.

Към днешна дата Cosmos включва три типа модели. Да започнем с първия.

Cosmos Predict

Cosmos Predict – това е модел, който предсказва как ще се промени светът. Той приема мултимодален вход: видео, текст, траектория на движение, сензорни данни – и генерира какво ще се случи след това.

С прости думи – ако му дадеш няколко кадъра и задача като „Постави чашата на рафта“, той ще покаже как точно това трябва да се случи – с правилна траектория и коректна физика.

Cosmos Predict е сценаристът на сънищата – той позволява преживеният опит да бъде преигран по различни начини.

Например, ако андроидът по време на теста не е успял да постави книгата на рафта, да сгъне кърпа, да сортира съдове или да изхвърли боклука – няма проблем. Cosmos Predict ще позволи тези спомени да се преиграят и ще генерира примерни обучителни материали.

Или да кажем – за автопилот: Cosmos Predict ще помогне да се генерират различни пътни ситуации или траектории на движение – и то не само за една камера, а за цели шест наведнъж.

Впечатляващо, нали? А сега – още по-интересното.

Представяме ви втория модел – Cosmos Transfer.

Cosmos Transfer

Ако Predict измисля какво ще се случи, то Transfer отговаря за реализма. Този модел превръща всякакви видеоданни в жива картина. Има само данни от лидар? Няма проблем — Transfer ще добави реализъм. Ето ти ден, нощ, сняг, дъжд, отблясъци, мръсотия – най-суровият живот, въплътен в образ.

Има размито видео с резолюция 240p? Вземи HiRes вариант, който направо „звъни“. Или изобщо няма видео, а само 3D сцена от NVIDIA Omniverse? Няма проблем — Transfer ще добави текстури и осветление. Хиляди варианти, във всякакви локации и условия — толкова добри, че RTX ще заплаче в ъгъла.

Изглежда, че скоро ще е толкова лесно да сменяш графиката в игрите, колкото и скин в CS:GO.

Но и това не е всичко. Да фантазираш е чудесно, но понякога трябва да се замислиш доколко тези фантазии съответстват на реалността.

Именно затова съществува третият модел — Cosmos Reason.

Cosmos Reason

Това е разсъждаваща невронна мрежа. Не, не от онези, които помагат да решим уравнение или да открием бъг в кода. Тя разсъждава за друго – за физическата реалност.

Тя има две ключови способности:

  • physical common sense reasoning – т.е. способност да съди за физическия здрав разум, да разбира какво е възможно в света и какво не е;
  • и embodied reasoning – телесно мислене, т.е. разсъждение, основано на опит от взаимодействие с физическия свят чрез тяло – както при животни и хора.

И Cosmos Reason вече умее много. Например, може да предскаже какво ще направи човек, след като налее мляко в кафето. Да разбере дали видео се движи напред или назад. Или да отгатне следващото действие на шофьор зад волана – и го прави убедително. Може да поставите видео на пауза и да прочетете нейните мисли – тя разсъждава като човек.

Да, разбирам какво може би си мислите – звучи като модел на свят. Но това все още не е той. Защо? Защото Reason е основана на LLM (голям езиков модел). Тя разсъждава логически, а не интуитивно. А това означава, че е бавна – не е мигновено усещане за ситуацията, а последователен анализ, който естествено изисква време.

Но дори така тя вече е полезна. Роботи, използващи Reason, могат да планират действия, ако им се даде време да помислят. Освен това тя може да отхвърля физически некоректни видеа, които са били генерирани от Predict и Transfer заедно.

И трите модела – Predict, Transfer и Reason – формират пълен цикъл за генериране и филтриране на синтетичен опит. Те създават сънища, в които роботите се учат и обобщават опита си – както правят хората.

И това вече дава резултати. На базата на предварително обучените модели на NVIDIA Cosmos, лидерите в индустрията създават безкрайни потоци от сънища за роботи от всякакви размери и типове, ускорявайки обучението им стократно.

А най-важното – всичко това е open source. Фабриката на сънищата, създадена от NVIDIA, не възнамерява да спре. Нови версии на моделите се очакват още тази година.

Но възниква въпрос:  
А какво ще стане, ако след поредния цикъл от синтетични сънища… роботът наистина се събуди?

Модел на себе си

Познато ли ви е онова чувство, когато осъзнаваш себе си насън? Току-що си бил просто страничен наблюдател, разтворен в пространството, а после – ти си. Събудил си се вътре в съня.

Някой ден нещо подобно може да се случи и с изкуствения интелект – само че не в съня, а в реалността.

Малко хора говорят за това, но когато му даваме тяло и го обучаваме с модели на света, ние неизбежно го обучаваме и на модел на нас самите. Учим го да се ориентира в пространството – а това означава, че започва да осъзнава къде свършва неговото тяло и къде започва всичко останало.

Даваме му мотивация. Учим го да се стреми към награда, да избягва болка, да оценява последователността на собствените си действия. Даваме му цели, убеждения, правила. Обясняваме му кое е добро, за какво ще бъде похвален – и за какво може да бъде изключен от захранването.

Но какви ще бъдат тези цели? Какви убеждения? Какъв морал? Това ще решават хората – поне в началото.

Всичко това звучи като научна фантастика, но е реалността, в която живеем вече днес.  А в каква реалност ще живеем след 3, 5 или 10 години?

Какво пък, скоро ще разберем.  

---

"...и машините се надигнаха от пепелта на ядрения огън.  
И започна война – война за унищожението на човечеството.  
Тя продължи десетилетия. Но последната битка няма да се състои в бъдещето.  
Тя ще се състои тук, в нашето време."

Днес... започна.

 

Напиши мнение

Може да публикувате сега и да се регистрирате по-късно. Ако вече имате акаунт, влезте от ТУК , за да публикувате.

Guest
Напиши ново мнение...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Вашето предишно съдържание е възстановено.   Изчистване на редактора

×   You cannot paste images directly. Upload or insert images from URL.

Зареждане...

За нас

"Форум Наука" е онлайн и поддържа научни, исторически и любопитни дискусии с учени, експерти, любители, учители и ученици.

За своята близо двайсет годишна история "Форум Наука" се утвърди като мост между тези, които знаят и тези, които искат да знаят. Всеки ден тук влизат хиляди, които търсят своя отговор.  Форумът е богат да информация и безкрайни дискусии по различни въпроси.

Подкрепи съществуването на форумa - направи дарение:

Дари

 

 

За контакти:

×
×
  • Create New...
/* Revenue-Ads-Footer */ /* За дарение */
×

Подкрепи форума!

Дори малко дарение от 5-10 лева от всеки, който намира форума за полезен, би направило огромна разлика. Това не е просто финансова подкрепа - това е вашият начин да кажете "Да, този форум е важен за мен и искам да продължи да съществува". Заедно можем да осигурим бъдещето на това специално място за споделяне на научни знания и идеи.