Одна из ведущих компаний в области искусственного интеллекта OpenAI презентовала SimpleQA — бенчмарк для проверки достоверности генерируемой информации.

Новый инструмент, согласно официальному описанию, оценивает способность языковых моделей отвечать на короткие вопросы, требующие точных фактических данных.

Общая проблема, с которой сталкиваются платформы на базе искусственного интеллекта, заключается в обучении чат-ботов и их способности приводить правдивую информацию.

Согласно публикуемым ранее заявлениям представителей OpenAI, на сегодняшний день многие модели ИИ нередко выдают ложные ответы или предоставляют неподтвержденные факты. Данный технический изъян прозвали «галлюцинацией».

Чтобы минимизировать количество информативных неточностей в процессе генерирования ответов, OpenAI запускает бенчмарк SimpleQA для оценки достоверности фактов, выдаваемых на разных языках. Так, новый инструмент направлен на обработку коротких вопросов, требующих конкретных данных.

В процессе разработки инженеры уделили особое внимание высокой точности и актуализации информации в исследовательских отраслях. В отличие от предыдущих решений, таких как TriviaQA, SimpleQA получит поддержку передовых моделей, включая GPT-4o, которая в настоящее время выводит результаты с точностью менее 40%.

«Для окончательной проверки качества мы привлекли сторонний ИИ-продукт, который ответил на случайную выборку из 1000 вопросов на основе набора данных. В ходе исследования ответы совпадали с первоначально согласованными фактами на 94,4%, уровень несоответствия составил 5,6%», — заявили в OpenAI.

Ранее команда исследователей Coinbase представила доклад, в котором говорится, что в будущем ИИ станет работодателем и будет платить людям в крипте.