11.07.2023 | Руководство LongEval: грандиозный прорыв в области оценки текстов ChatGPT |
В последнее время общественность остро реагирует на выпуск генеративных нейросетей, таких как ChatGPT . Многие считают эту технологию большим шагом вперед в области коммуникации, другие предсказывают ее пагубные последствия. Однако сгенерированный текст известен своими недоработками, и человеческая оценка остается золотым стандартом для гарантирования точности, особенно при генерации длинных резюме (суммирование итогов и тезисов) сложных текстов. Но в то же время сейчас не существует принятых стандартов для человеческой оценки длинных резюме, что вызывает сомнение даже в «золотом стандарте». Чтобы исправить эту ситуацию, команда компьютерных ученых из США представила набор руководящих принципов под названием « LongEval ». Принципы были представлены на Европейском отделении Ассоциации вычислительной лингвистики, где они были награждены премией за лучшую статью. По словам экспертов, в настоящее время нет надежного способа оценить длинные сгенерированные тексты без участия людей, и даже существующие протоколы человеческой оценки являются дорогостоящими, требуют много времени и сильно варьируются. В процессе исследования команда изучила 162 научные работы о длинных резюме. Анализ показал, что 73% работ вообще не проходили человеческую оценку, а к остальным применялись различные методики оценки. В целях продвижения эффективных, воспроизводимых и стандартизированных протоколов для человеческой оценки сгенерированных резюме, авторы исследования разработали список из трех всеобъемлющих рекомендаций, которые охватывают то, как и что должен читать оценщик, чтобы судить о надежности резюме. Руководство LongEval включает в себя следующие рекомендации:
Исследователи применили LongEval к двум наборам данных по резюмированию длинных текстов в разных областях ( SQuALITY и PubMed ) и показали, что более тонкая оценка снижает разброс всех оценок достоверности текста. Эксперты также показали, что оценки из частичной аннотации высоко коррелируют с оценками из полной аннотации.
Специалисты обещают, что LongEval позволит людям «точно и быстро оценивать алгоритмы генерации длинного текста». Эксперты выпустили LongEval в виде библиотеки Python , и сообщество сможет использовать и развивать LongEval в своих исследованиях. |
Проверить безопасность сайта