Источники
Vectara Hallucination Leaderboard (обновление февраля 2026). Hallucination Leaderboard — GitHub. Бенчмарк на 7 700+ документах с использованием модели оценки HHEM-2.3. Доля галлюцинаций для GPT-4o — около 10%, для моделей послабее — до 20–25%.
Jingyi Sun et al. (NAACL 2025). From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization. Исследование пяти языковых моделей в задаче мультидокументного обобщения. До 75% содержания сгенерированных саммари не подтверждается исходниками.
AP / Science (ACM FAccT 2024). AI Transcription Tools Hallucinate Too. Расследование системы OpenAI Whisper: 13 140 проверенных аудиосегментов, галлюцинации в 187 из них (~1,4%), 40% вставок содержали потенциально вредную информацию. Система используется около 30 000 врачами.