
Комментатор Apple Джон Грубер вчера охарактеризовал нынешнюю работу Siri как «несмешную шутку», приведя в качестве примера ее неспособность правильно назвать победителя Суперкубка 13, отметив, что это базовый запрос, на который должен быть способен ответить любой чат-бот в США.
Оказывается, это был не совсем случайный пример: его подсказал его друг Пол Кафасис, который решил протестировать Siri на Суперкубке с 1 по 60 включительно — и результаты оказались не очень хорошими…
Кафасис поделился результатами в своем блоге.
Итак, как справилась Сири? С абсолютно самой благотворительной интерпретацией Siri правильно указала победителя только в 20 из 58 сыгранных Суперкубков. Это абсолютно ужасный процент завершения — 34%. Если бы Siri была защитником, ее бы выгнали из НФЛ.
Однажды Siri удалось дать правильный ответ четыре года подряд (Суперкубки с IX по XII), но только если мы отдадим ей должное за то, что она дала правильный ответ по неправильной причине. Если быть более реалистичным, он трижды правильно ответил на три ответа подряд (Суперкубки с V по VII, с XXXV по XXVII и с LVII по LIX). В худшем случае он ошибся 15 раз подряд (Суперкубки с XVII по XXXII).
Сири, кажется, большая фанатка «Иглз».
Самое забавное, что это приписало команде «Филадельфия Иглз» поразительную результативность. 33 победы в Супербоуле они не заработали, чтобы использовать тот 1, который у них есть.
Часть «правильный ответ по неправильной причине» относится к тому, что Siri попросили назвать победителя Суперкубка X. По неизвестным причинам Siri решила ответить длинным ответом о Суперкубке IX, и по совпадению, победитель оба раза был одним и тем же. .
Иногда Siri полностью выходила за пределы трассы и полностью игнорировала вопрос, цитируя несвязанные записи из Википедии.
«Кто выиграл Суперкубок 23?»
Биллу Беличику принадлежит рекорд по количеству побед в Суперкубке (восемь) и выступлений (двенадцать: девять раз в качестве главного тренера, один раз в качестве помощника главного тренера и дважды в качестве координатора защиты) в одиночку.
Но, может быть, римские цифры вызывают путаницу, и другие системы искусственного интеллекта испытывают такие же трудности? Грубер решил провести несколько выборочных проверок.
Я не проводил комплексного теста с Суперкубка с 1 по 60, потому что я ленив, но выборочная проверка нескольких случайных чисел в этом диапазоне показывает, что любой другой агент, который задает вопрос и получает ответ, я личное использование делает их все правильными.
Я пробовал ChatGPT, Kagi, DuckDuckGo и Google. Все эти четверо даже хорошо справляются с, возможно, хитрыми вопросами о победителях Суперкубков 59 и 60, которые еще не были сыграны. Например, на вопрос победителя Суперкубка 59 Каги начинает «Быстрый ответ»: «Суперкубок 59 запланирован на 9 февраля 2025 года. На данный момент игра еще не состоялась, поэтому нет победителя, о котором можно было бы сообщить. ».
Победители Суперкубка — это не какая-то непонятная тема, например, вопрос «Кто выиграл чемпионат штата по баскетболу среди школьников Северной Дакоты в 2004 году?» — вопрос, который я только что полностью вытащил из задницы, но на который, что удивительно, Каги ответил правильно для класса А, а ChatGPT ответил правильно и для класса А, и для класса Б, и предоставил ссылку на это видео игры чемпионата класса А на Ютуб.
Это потрясающе! Я выбрал малоизвестный штат (не в обиду жителям Дакоты, Северу или Югу), год, который прошел довольно далеко в прошлом, и школьный вид спорта, в котором я лично занимался лучше всего и который меня больше всего волнует. И Kagi, и ChatGPT поняли это правильно. (Я бы поставил Каги пятёрку, а ChatGPT — пятёрку+ за наименование чемпионов обоих классов, а также дополнительную оценку плюс пятёрку за ссылки на YouTube.)
Грубер отмечает, что старая Siri — на macOS 15.1.1 — на самом деле работает лучше. Конечно, он кажется менее эффективным, поскольку давал классический ответ «Вот что я нашел в Интернете», но, по крайней мере, он дает ссылки на правильный ответ. Новая Siri этого не делает.
Новая Siri, работающая на базе Apple Intelligence
с включенной интеграцией ChatGPT, дает совершенно, но вполне неправильный ответ. худший способ ошибиться. Это также непоследовательно неправильно — я попробовал один и тот же вопрос четыре раза и каждый раз получал разные ответы, и все они были неправильными. Это полный провал.
Фото Калеба Вудса на Unsplash
Siri провалила суперлегкий тест Суперкубка, набрав 38 ответов из 58 неправильно