Quantcast
Channel: macOS - Applepro.news
Viewing all articles
Browse latest Browse all 900

Siri провалила суперлегкий тест Суперкубка, набрав 38 ответов из 58 неправильно

$
0
0

Комментатор Apple Джон Грубер вчера охарактеризовал нынешнюю работу Siri как «несмешную шутку», приведя в качестве примера ее неспособность правильно назвать победителя Суперкубка 13, отметив, что это базовый запрос, на который должен быть способен ответить любой чат-бот в США.

Оказывается, это был не совсем случайный пример: его подсказал его друг Пол Кафасис, который решил протестировать Siri на Суперкубке с 1 по 60 включительно — и результаты оказались не очень хорошими…

Кафасис поделился результатами в своем блоге.

Итак, как справилась Сири? С абсолютно самой благотворительной интерпретацией Siri правильно указала победителя только в 20 из 58 сыгранных Суперкубков. Это абсолютно ужасный процент завершения — 34%. Если бы Siri была защитником, ее бы выгнали из НФЛ.

Однажды Siri удалось дать правильный ответ четыре года подряд (Суперкубки с IX по XII), но только если мы отдадим ей должное за то, что она дала правильный ответ по неправильной причине. Если быть более реалистичным, он трижды правильно ответил на три ответа подряд (Суперкубки с V по VII, с XXXV по XXVII и с LVII по LIX). В худшем случае он ошибся 15 раз подряд (Суперкубки с XVII по XXXII).

Сири, кажется, большая фанатка «Иглз».

Самое забавное, что это приписало команде «Филадельфия Иглз» поразительную результативность. 33 победы в Супербоуле они не заработали, чтобы использовать тот 1, который у них есть.

Часть «правильный ответ по неправильной причине» относится к тому, что Siri попросили назвать победителя Суперкубка X. По неизвестным причинам Siri решила ответить длинным ответом о Суперкубке IX, и по совпадению, победитель оба раза был одним и тем же. .

Иногда Siri полностью выходила за пределы трассы и полностью игнорировала вопрос, цитируя несвязанные записи из Википедии.

«Кто выиграл Суперкубок 23?»
Биллу Беличику принадлежит рекорд по количеству побед в Суперкубке (восемь) и выступлений (двенадцать: девять раз в качестве главного тренера, один раз в качестве помощника главного тренера и дважды в качестве координатора защиты) в одиночку.

Но, может быть, римские цифры вызывают путаницу, и другие системы искусственного интеллекта испытывают такие же трудности? Грубер решил провести несколько выборочных проверок.

Я не проводил комплексного теста с Суперкубка с 1 по 60, потому что я ленив, но выборочная проверка нескольких случайных чисел в этом диапазоне показывает, что любой другой агент, который задает вопрос и получает ответ, я личное использование делает их все правильными.

Я пробовал ChatGPT, Kagi, DuckDuckGo и Google. Все эти четверо даже хорошо справляются с, возможно, хитрыми вопросами о победителях Суперкубков 59 и 60, которые еще не были сыграны. Например, на вопрос победителя Суперкубка 59 Каги начинает «Быстрый ответ»: «Суперкубок 59 запланирован на 9 февраля 2025 года. На данный момент игра еще не состоялась, поэтому нет победителя, о котором можно было бы сообщить. ».

Победители Суперкубка — это не какая-то непонятная тема, например, вопрос «Кто выиграл чемпионат штата по баскетболу среди школьников Северной Дакоты в 2004 году?» — вопрос, который я только что полностью вытащил из задницы, но на который, что удивительно, Каги ответил правильно для класса А, а ChatGPT ответил правильно и для класса А, и для класса Б, и предоставил ссылку на это видео игры чемпионата класса А на Ютуб.

Это потрясающе! Я выбрал малоизвестный штат (не в обиду жителям Дакоты, Северу или Югу), год, который прошел довольно далеко в прошлом, и школьный вид спорта, в котором я лично занимался лучше всего и который меня больше всего волнует. И Kagi, и ChatGPT поняли это правильно. (Я бы поставил Каги пятёрку, а ChatGPT — пятёрку+ за наименование чемпионов обоих классов, а также дополнительную оценку плюс пятёрку за ссылки на YouTube.)

Грубер отмечает, что старая Siri — на macOS 15.1.1 — на самом деле работает лучше. Конечно, он кажется менее эффективным, поскольку давал классический ответ «Вот что я нашел в Интернете», но, по крайней мере, он дает ссылки на правильный ответ. Новая Siri этого не делает.

Новая Siri, работающая на базе Apple Intelligence™ с включенной интеграцией ChatGPT, дает совершенно, но вполне неправильный ответ. худший способ ошибиться. Это также непоследовательно неправильно — я попробовал один и тот же вопрос четыре раза и каждый раз получал разные ответы, и все они были неправильными. Это полный провал.

Фото Калеба Вудса на Unsplash

Siri провалила суперлегкий тест Суперкубка, набрав 38 ответов из 58 неправильно


Viewing all articles
Browse latest Browse all 900

Trending Articles