Метод оценки степени доверия к само-объяснениям GPT-моделей

А. Н. Лукьянов, А. М. Трамова

Загрузить полный текст

Аннотация: Со стремительным ростом использования генеративных нейросетевых моделей для решения практических задач все более остро встает проблема объяснения их решений. По мере ввода решений на основе нейросетей в медицинскую практику, государственное управление и сферу обороны требования к таким системам в плане их интерпретируемости однозначно будут расти. В данной работе предложен метод проверки достоверности само-объяснений, которые модели дают постфактум, посредством сравнения распределения внимания модели во время генерации ответа и его объяснения. Авторами предложены и разработаны методы для численной оценки степени достоверности ответов генеративных предобученных трансформеров. Предлагается использовать расхождение Кульбака – Лейблера над распределениями внимания модели во время выдачи ответа и следующего за этим объяснения. Также предлагается вычислять отношение внимания модели между изначальным запросом и сгенерированным объяснением с целью понять, насколько само-объяснение было обусловлено собственным ответом. Для получения данных величин предлагается алгоритм для рекурсивного вычисления внимания модели по шагам генерации. В результате исследования была продемонстрирована работа предложенных методов, найдены значения метрик, соответствующие корректным и некорректным объяснениям и ответам. Был проведен анализ существующих в настоящий момент методов определения достоверности ответов генеративных моделей, причем подавляющее большинство из них сложно интерпретируемые обычным пользователем. В связи с этим мы выдвинули собственные методы, проверив их на наиболее широко используемых на момент написания генеративных моделях, находящихся в открытом доступе. В результате мы получили типичные значения для предложенных метрик, алгоритм их вычисления и визуализации.

Ключевые слова: нейронные сети, метрики, языковые модели, интерпретируемость, LLM, GPT, XAI

Для цитирования. Лукьянов А. Н., Трамова А. М. Метод оценки степени доверия к само-объяснениям GPT-моделей // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 4. С. 54–61. DOI: 10.35330/1991-6639-2024-26-4-54-61

Список литературы

Vaswani A., Shazeer N., Parmar N. et al. Attention is all you need. Advances in neural information processing systems. 2017. No. 3. URL: https://arxiv.org/abs/1706.03762
Dosovitskiy A., Beyer L., Kolesnikov A. et al. An image is worth 16×16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2020. URL: https://arxiv.org/abs/2010.11929
Selvaraju R.R., Cogswell M., Das A. et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization. URL: https://arxiv.org/abs/1610.02391
Ribeiro M.T., Singh S., Guestrin C. «Why should I trust you?»: Explaining the Predictions of Any Classifier. URL: https://arxiv.org/abs/1602.04938
Lundberg S., Lee S. A unified approach to interpreting model predictions. URL: https:// arxiv.org/abs/1705.07874
Jesse Vig. Visualizing attention in transformer-based language representation models. URL: https://arxiv.org/abs/1904.02679
Bereska L., Gavves E. Mechanistic interpretability for AI Safety – A review. URL: https:// arxiv.org/abs/2404.14082
Lewis P., Perez E., Piktus A. et al. Retrieval-augmented generation for knowledgeintensive NLP tasks. URL: https://arxiv.org/abs/2005.11401
Wei J., Wang X., Schuurmans D. et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. URL: https://arxiv.org/abs/2201.11903
Pfau J., Merrill W., Bowman S.R. Let’s think dot by dot: Hidden computation in transformer language models. URL: https://arxiv.org/abs/2404.15758
Abnar S., Zuidema W. Quantifying attention flow in transformers. URL: https://arxiv.org/ abs/2005.00928
Touvron H., Lavril T., Izacard G. et al. LLaMA: Open and efficient foundation language models. URL: https://arxiv.org/abs/2302.13971
Jiang A.Q., Sablayrolles A., Mensch A. et al. Mistral 7B. URL: https://arxiv.org/abs/2310.06825
Tunstall L., Beeching E., Lambert N. et al. Zephyr: Direct distillation of LM alignment. URL: https://arxiv.org/abs/2310.16944
Gu A., Dao T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. URL: https://arxiv.org/abs/2312.00752
Ali A., Zimerman I., Wolf L. The Hidden Attention of Mamba Models. URL: https://arxiv.org/abs/2403.01590

Информация об авторах

Лукьянов Андрей Николаевич, студент, лаборант-исследователь, Центр перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г. В. Плеханова;
117997, Россия, Москва, Стремянный переулок, 36;
andreylukianovai@gmail.com
Трамова Азиза Мухамадияевна, д-р экон. наук, профессор, профессор кафедры информатики, Российский экономический университет им. Г. В. Плеханова;
117997, Россия, Москва, Стремянный переулок, 36;
Tramova.AM@rea.ru, ORCID: https://orcid.org/0000-0002-4089-6580, SPIN-код: 8583-3592

Реферативные базы

Метод оценки степени доверия к само-объяснениям GPT-моделей