Счастливые часов не наблюдают?

Хотя модели ИИ могут выполнять сложные задачи, такие как написание эссе и создание произведений искусства, им еще предстоит освоить некоторые навыки, которые люди выполняют с легкостью. Эдинбургская группа показала, что современные модели ИИ не способны надежно интерпретировать положение стрелок часов или правильно отвечать на вопросы о датах в календарях.

В отличие от простого распознавания форм, понимание аналоговых часов и календарей требует сочетания пространственного восприятия, контекста и элементарной математики — что остается сложной задачей для ИИ. Преодоление этого может позволить системам ИИ работать с чувствительными ко времени приложениями, такими как помощники по планированию, автономные роботы и инструменты для людей с нарушениями зрения.

Группа проверила, могут ли системы ИИ, обрабатывающие текст и изображения, известные как многомодальные большие языковые модели (MLLM), отвечать на вопросы, связанные со временем, глядя на изображение часов или календаря.

Исследователи протестировали различные конструкции часов, в том числе с римскими цифрами, с секундными стрелками и без них, а также с циферблатами разных цветов. Их результаты показывают, что системы ИИ в лучшем случае правильно определяли положение стрелок часов менее чем в четверти случаев. Ошибки были более распространены, когда часы имели римские цифры или стилизованные стрелки.

Системы ИИ также не работали лучше, когда секундная стрелка была удалена, что говорит о наличии глубоко укоренившихся проблем с обнаружением стрелок и интерпретацией угла, говорит команда.

Исследователи попросили модели ИИ ответить на ряд вопросов, связанных с календарем, таких как определение праздников и вычисление прошлых и будущих дат. Команда обнаружила, что даже самая эффективная модель ИИ неправильно вычисляла даты в одной пятой случаев.

Результаты исследования изложены в рецензируемой статье, которая будет представлена на семинаре «Рассуждение и планирование для больших языковых моделей» на Тринадцатой международной конференции по представлениям обучения (ICLR) в Сингапуре 28 апреля 2025 года.

Большинство людей умеют определять время и пользоваться календарями с раннего возраста. Наши результаты подчеркивают значительный пробел в способности ИИ выполнять то, что является довольно базовыми навыками для людей. Эти недостатки необходимо устранить, если системы ИИ должны быть успешно интегрированы в чувствительные ко времени приложения реального мира, такие как планирование, автоматизация и вспомогательные технологии.

Сегодняшние исследования ИИ часто подчеркивают сложные задачи рассуждения, но по иронии судьбы многие системы все еще испытывают трудности, когда дело доходит до более простых, повседневных задач. Наши выводы показывают, что пришло время устранить эти фундаментальные пробелы. В противном случае интеграция ИИ в реальные, чувствительные ко времени приложения может застрять на одиннадцатом часу.

Источник