Это происходит: люди начинают разговаривать как ChatGPT

Если вы пользуетесь ChatGPT, Claude, Gemini или другим чат-ботом с искусственным интеллектом, вы, вероятно, исходите из предположения, что вы оба говорите на одном языке. Вы вводите английский, он выдает английский. Все просто, верно? За исключением того, что это заблуждение: на самом деле вы говорите на разных языках. Вместо того чтобы обрабатывать текст как человек, чат-бот превращает ваш запрос во встраивание — группу чисел, представленных в «векторном пространстве», вроде координат на карте. Но так же, как карта является уплощенным представлением своей территории, это встраивание является уплощенным представлением языка; неизбежно теряется некоторая доля человеческих вариаций и контекста. Затем чат-бот формулирует ответ, делая предсказание слово за словом на основе того, как его обучали отвечать на предыдущие запросы. Это предсказание опирается на смещенные обучающие данные (конкретные тексты, из которых он учится) и смещенное обучение с подкреплением (получаемую обратную связь). В конечном счете, то, что выглядит для вас как английский, на самом деле является симулякром настоящей человеческой речи. Тревожным является то, что теперь, когда сотни миллионов людей регулярно общаются с чат-ботами, англоговорящие люди начинают говорить так же, как нечеловеческий коммуникатор по ту сторону. Например, ChatGPT использует слово «delve» с более высокой частотой, чем люди обычно используют при письме или устной речи на английском. Как обнаружили исследователи из Университета штата Флорида Том С. Юзек и Зина Б. Уорд, это, вероятно, является результатом того, что небольшие предубеждения и ошибки в процессе обратной связи от людей со временем накапливаются. Сотрудники компаний, занимающихся ИИ, проверяющие выходные данные больших языковых моделей (LLM), часто являются низкооплачиваемыми работниками из таких стран, как Нигерия и Кения, где слово «delve» используется чаще, чем в американском или британском английском. Таким образом, небольшие лексические перепредставленности могли быть усилены в модели — иногда даже чаще, чем в собственном употреблении самих работников. Из-за временных ограничений и стрессовых условий работы проверяющие могли пропустить частоту использования «delve», пролистывая образцы текстов, что привело к дальнейшему усилению. (Некоторые другие примеры — «intricate», «commendable» и «meticulous».) Теперь это чрезмерное использование просачивается в глобальную культуру. За два года, прошедшие с момента запуска ChatGPT в конце 2022 года, появление слова «delve» в академических публикациях увеличилось в десять раз, поскольку исследователи начали обращаться к ИИ за помощью со своими статьями. Поскольку ученые и писатели стали больше осознавать это явление, они приняли меры, чтобы «звучать менее похоже на ИИ». Я сам раньше любил использовать слово «delve»; теперь я стараюсь избегать его. Но большинство людей, вероятно, не знают о предубеждениях чат-бота в отношении определенных слов. Пользователи предполагают, что ChatGPT говорит на «нормальном» английском, потому что это подразумевает пользовательский интерфейс инструмента. Они также предполагают, что обычные, повседневные тексты, с которыми они сталкиваются, — это нормальный английский, даже если они тоже могли быть сгенерированы ИИ. Со временем становится все легче и легче спутать представление с реальностью. Действительно, исследование, о котором сообщалось в Scientific American в прошлом месяце, показало, что люди начали чаще говорить «delve» в спонтанных разговорных беседах. Это уже не дело рук ИИ; мы начали усваивать его предубеждения и повторять их самостоятельно. Я говорю «мы», потому что даже те, кто в анти-«delve» фракции, не являются исключением. Мы можем избегать использования самых известных признаков ChatGPT, но так много слов появляются с неестественной частотой, что мы не можем избежать их всех. Мы что, должны также перестать использовать чрезмерно используемое чат-ботом «inquiry»? Или «surpass»? Слишком много всего, чтобы уследить. Наша восприимчивость к непреднамеренному усвоению словаря LLM, вероятно, будет только увеличиваться по мере того, как круг текстов ИИ, человеческих текстов, о которых мы не знаем, что они от ИИ, и настоящей человеческой речи вращается все быстрее и быстрее. В психолингвистике общепринято, что частотность представления слова влияет на его доступность в ментальном лексиконе людей — «словаре» возможных вариантов, которые можно использовать в разговорной речи. По сути, чем чаще мы видим слово представленным, тем интуитивнее кажется его использование самим. Нормально, что наши ментальные языковые карты эволюционируют, но теперь мы находимся в петле обратной связи, где наши «карты» сливаются с «картами» чат-ботов. Обе отличаются от реального ландшафта — непостижимого разнообразия того, как говорят люди, — но путаница делает все труднее оценить, что является настоящим человеческим языком, а что искусственно сгенерированным. Поскольку это различие становится все труднее discern, мы будем продолжать размывать границы реальности, циклически используя это размытие для построения наших новых реальностей. И по мере того как модели ИИ продолжают обучаться на основе как своего собственного вывода, так и написанного людьми текста, на который повлиял ИИ, распространенность LLM-речи будет только усиливаться. С лингвистической точки зрения в этом нет ничего плохого. Слово «delve» ничем не хуже для вашего мозга, чем его синонимы. Но язык является предвестником более масштабных социальных сдвигов. Существует множество других, гораздо более коварных искажений, которые также закодированы в LLM. Расовые предубеждения, гендерные предубеждения и политические предубеждения — все они, вероятно, встроены в модели так же, как и лингвистические предубеждения, но их труднее точно измерить. Мы должны помнить, что это не нейтральные инструменты: они обладают силой незаметно преобразовывать наше мышление.

Вернуться к списку