2.10.2024 22:45
Согласно новому исследованию, чем более продвинутой становится большая языковая модель ИИ (LLM), тем меньше вероятность, что она признает, что не может ответить на запрос. Исследователи искусственного интеллекта (ИИ) из Политехнического университета Валенсии в Испании проверили точность последних версий BLOOM от BigScience, Llama от Meta и GPT от OpenAI, задавая каждой модели тысячи вопросов по математике, естествознанию и географии.
Исследователи сравнили качество ответов каждой модели и классифицировали их как правильные, неправильные и избегающие ответы. Исследование, опубликованное в журнале Nature , показало, что точность решения более сложных задач улучшалась с каждой новой моделью. Тем не менее, они были менее прозрачны в отношении того, могут ли они ответить на вопрос правильно.
Ранние модели LLM говорили, что не могут найти ответы или нуждаются в дополнительной информации для ответа, но новые модели с большей вероятностью давали неверные ответы даже на простые вопросы.
LLM — это алгоритмы глубокого обучения, которые используют ИИ для понимания, прогнозирования и создания нового контента на основе наборов данных. Хотя новые модели могли решать более сложные задачи с большей точностью, участвовавшие в исследовании магистры права все равно допускали некоторые ошибки при ответах на базовые вопросы.
«Полная надежность не достигается даже на очень низких уровнях сложности», — говорится в исследовательской работе. Так обстоит дело с моделью GPT-4 компании OpenAI, где количество ответов «избегание» значительно снизилось по сравнению с предыдущей моделью GPT-3.5.
«Это не соответствует ожиданиям, что более поздние LLM-специалисты будут более успешно избегать ответов, выходящих за рамки их рабочего диапазона», — заявили авторы исследования.
Исследователи пришли к выводу, что «не наблюдается явного улучшения» моделей, несмотря на масштабирование технологии.
Понравилась эта новость? Подпишись на нас в соцсетях!