Источник – https://www.ben-evans.com/benedictevans/2025/2/17/the-deep-research-problem
В своей статье «Проблема глубоких исследований» () известный технологический аналитик Бенедикт Эванс критикует возможности новых ИИ-инструментов (таких как OpenAI Deep Research) для профессиональной аналитики.
Вот основные тезисы статьи:
1. Проблема «иллюзии надежности»
Главная претензия Эванса заключается в том, что инструменты «глубокого исследования» выглядят крайне убедительно, но при этом могут содержать фундаментальные фактические ошибки.
- Пример с рынком смартфонов: Эванс проанализировал пример отчета, созданного OpenAI Deep Research. ИИ утверждал, что в Японии доля iOS составляет 69%, а Android — 31%. В реальности (согласно надежным источникам, на которые ИИ сам же ссылался) ситуация была практически зеркальной — Android лидирует.
- Ложные источники: ИИ часто берет данные из сомнительных агрегаторов (вроде Statcounter или Statista), которые сами могут ошибаться, и выдает эти цифры за неоспоримый факт.
2. Проблема проверки (Верификация vs Исследование)
Эванс утверждает, что такие инструменты не экономят время профессионала, а создают новую нагрузку.
- Если аналитик получает отчет от ИИ, он не может просто принять его на веру. Ему приходится проверять каждую цифру и каждый вывод.
- Парадокс: Время, затраченное на проверку того, не ошибся ли ИИ, часто сопоставимо с временем, которое потребовалось бы для самостоятельного проведения исследования с нуля. В итоге ценность инструмента для эксперта стремится к нулю.
3. Вероятностное против Детерминированного
Основной технический конфликт, по мнению автора, в том, что:
- ИИ (LLM) — это вероятностная система. Она хороша в том, чтобы понять, что именно вы хотите найти.
- Но поиск конкретных цифр (например, количество лифтеров в США в 1980 году) — это детерминированная задача. Здесь нужен точный ответ, а не «наиболее вероятное продолжение текста».
- ИИ пытается соединить эти два мира, но результат часто оказывается «галлюцинацией», упакованной в красивый формат.
4. Концепция «Бесконечного стажера»
Эванс сравнивает текущий ИИ с «бесконечным стажером», который работает очень быстро, но за которым нужен глаз да глаз.
- Для простых задач (уровня 80% точности) это подходит.
- Для серьезного бизнеса, где ошибка в цифрах может стоить миллионов, инструмент пока непригоден.
Вывод
Эванс заключает, что пока мы не решим проблему достоверности (accuracy), «глубокие исследования» при помощи ИИ останутся скорее впечатляющими демо-версиями, чем реальными рабочими инструментами для аналитиков. Пока ИИ не гарантирует 100% точности фактов, эксперту все равно придется делать всю черную работу по проверке данных самостоятельно.