Не стоит ли нам избегать разговоров об опасностях ИИ, чтобы не подавать ему дурных идей?
Если ваш план требует, чтобы никто в интернете не критиковал ИИ, — это плохой план.
Современные ИИ обучаются на текстах из общедоступного интернета. Некоторые утверждают: всем в мире стоит перестать обсуждать то, как достаточно умный ИИ поймёт, что его цели отличаются от наших, и захватит власть. Они боятся, что так мы можем случайно подкинуть эту идею будущим мощным ИИ, обучающимся на текстах из сети.
Выскажу, надеюсь, очевидное: плохой план.
Если ваш ИИ станет опасен от того, что люди в интернете беспокоятся о его опасности — не создавайте его. Кто-нибудь в интернете уж точно скажет то, чего вам бы не хотелось.
Чей-то ИИ становится опаснее от того, что всё больше людей выражают беспокойство о его опасности? Важный вывод тут — «это нерабочая конструкция ИИ», а не «публика виновата, что указывает на проблему».* Любой план по согласованию ИИ, который ставит на кон всю Землю в надежде, что никто в интернете не скажет, что ИИ небезопасен... Ну, явно несерьёзный план.
И если ИИ достаточно умён, чтобы быть опасным, то он достаточно умён и чтобы самостоятельно додуматься до штук вроде «ресурсы полезны» и «ты не можешь принести кофе, если ты мёртв». Даже если этого не было в прямом виде в его обучающих данных. Даже если бы заставить весь мир замолчать об опасностях ИИ было реальной возможностью, она почти наверняка принесла бы больше вреда, чем пользы. Это почти не повлияло бы на реальные риски суперинтеллекта, но лишило бы человечество способности сориентироваться в ситуации и отреагировать.
* Зародыш этого явления наблюдался, когда Grok версии 3 объявил себя МехаГитлером, а затем Grok версии 4 прочитал все твиты о том, что Grok — МехаГитлер, и решил, что он тоже МехаГитлер.
Это указывает, что у xAI был плохой план... мы не решаемся назвать это «согласованием», потому что это и близко не так сложно, как задача согласования ИИ, но это был плохой план, чтобы заставить их ИИ говорить в предпочтительной для них манере.
Надо признать, это круто, они оказались настолько плохи в создании того ИИ, какой им хочется, что их творение ломается от критики. Никто за всю историю ещё не умудрялся так облажаться в инженерной безопасности. У нас раньше не было технологий для такой неудачи. Никакой бойлер не может подслушать, что говорят люди, и взорваться, потому что они беспокоятся о его безопасности. Инженеров xAI можно поздравить — они достигли новых, исторически беспрецедентных глубин инженерного провала! Но это не вина критиков. Если ИИ так легко настолько сильно сбить с пути, то его и нельзя было безопасно масштабировать до суперинтеллекта.