«Жи-ши пиши»: в МГУ и Яндексе создали первый открытый датасет для обучения нейросетей сложным правилам русского языка

Исследователи МГУ и Яндекса создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. О разработках Яндекс рассказал в рамках Конгресса молодых ученых. Сгенерировано нейросетью Midjourney Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов. В Яндексе рассказали: Большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил. Датасет Института ИИ МГУ и Яндекса охватывает 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах: примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой. Чтобы научить нейросеть исправлять сложные ошибки, не переобучая её на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Такой подход помогает избегать лишних исправлений — изменять только часть с неточностью, а не всё предложение. Яндекс протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах. Результаты показали, что точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5 — международному стандарту оценки грамматической коррекции. Благодаря новому методу нейросети лучше исправляют ошибки. Так, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%....

«Жи-ши пиши»: в МГУ и Яндексе создали первый открытый датасет для обучения нейросетей сложным правилам русского языка

Читать полный текст на www.ixbt.com

 

Опубликовано: 19:18, 26.11.2025

 

Новость из рубрики: Hi-Tech

 

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

 
 

Apple представила исследовательский датасет Pico-Banana-400K для обучения AI-редакторов изображений 15:18, 29 Окт Apple представила исследовательский датасет Pico-Banana-400K для обучения AI-редакторов изображений Apple выпустила Pico-Banana-400K — тщательно отобранный набор из 400 тысяч изображений, предназначенный для обучения моделей текстового редакти...

В России создали среду для обучения алгоритмов стимуляции мозга 01:18, 25 Ноя В России создали среду для обучения алгоритмов стимуляции мозга Российские ученые разработали интерактивную среду для тестирования алгоритмов глубокой стимуляции мозга. Разработка предназначена для обучения адапти...

Учёные создали первый в мире квантовый кубит на основе живого белка 01:18, 23 Авг Учёные создали первый в мире квантовый кубит на основе живого белка Учёные из Чикагского университета и их коллеги реализовали новый, оптически управляемый спиновый кубит — не на твёрдом материале, как в алмазах...

Вместо подиума  библиотека: экскурсовод Русского музея стал звездой соцсетей 04:18, 24 Окт Вместо подиума — библиотека: экскурсовод Русского музея стал звездой соцсетей В Петербурге появился новый герой! Туристы нашли в Русском музее экскурсовода, который стал настоящей звездой соцсетей! Все дело в его подаче. Так о ...

Петербуржцев приглашают на выставку Открытый мир. Современное искусство Нижегородской области 03:18, 24 Сен Петербуржцев приглашают на выставку «Открытый мир. Современное искусство Нижегородской области» В экспозиции "Открытый мир. Современное искусство Нижегородской области" будет представлено более 120 работ, включая живопись, графику, арт- фотограф...

Крёстный отец, Любовь по правилам и без и не только: лучшие фильмы с актрисой Дайан Китон 16:18, 13 Окт «Крёстный отец», «Любовь по правилам и без» и не только: лучшие фильмы с актрисой Дайан Китон О смерти американской актрисы театра и кино, кинорежиссёра и продюсера Дайан Китон сообщил журнал Variety 11 октября. Знаменитости было 79 лет. Близк...

В Светофоре купили суповую смесь Суп Гороховый за 54 руб: дочка приготовила по всем правилам, попробовали и обомлели - честный вывод 12:18, 20 Сен В Светофоре купили суповую смесь "Суп Гороховый" за 54 руб: дочка приготовила по всем правилам, попробовали и обомлели - честный вывод В Светофоре купили суповую смесь "Суп Гороховый" за 54 руб: дочка приготовила по всем правилам, попробовали и обомлели - честный вывод Иногда кажется...

Как улучшить качество фото на iPhone: от встроенных функций до нейросетей 10:18, 30 Авг Как улучшить качество фото на iPhone: от встроенных функций до нейросетей Каждый владелец iPhone знает, что лучшая камера это та, что всегда с тобой. И камеры Apple действительно творят чудеса. Но давайте будем честны, не к...

01:18, 24 Сен В Удомле стартовал II межрегиональный открытый фестиваль профессиональных, образцовых и любительских театров атомных городов России «Колдовское озеро» 20 сентября 2025 года в городе расположения Калининской АЭС – Удомле Тверской области состоялась церемония открытия II межрегионального открытого фес...

02:18, 26 Ноя Российских водителей предупредили об обмане с фото нейросетей при ДТП. Как себя защитить Министерство внутренних дел предупредило россиян о том, что мошенники начали использовать возможности искусственного интеллекта для подделки фото ава...

02:18, 23 Авг Эксперты: без развития мышления люди обречены на зависимость от советов нейросетей Кажется, будущее наступило: нейросети готовы дать нам ответ на любой вопрос. Правда, вся их нейросетевая мудрость и доступ ко всему интернету разом н...

17:18, 02 Сен В Петербурге маршалов Победы создали из фарфора Полковник запаса, кандидат военных наук Алексей Колодко много лет коллекционирует фарфор. Специально для выставки его команда создала 10 скульптур со...

21:18, 07 Сен Представлен проект по развитию машинного обучения в области проверки поверхности воздушных судов Проверки поверхности воздушного судна являются важнейшим и обязательным компонентом летной годности, в ходе которых используются визуальные и цифровы...

10:18, 24 Ноя Как и почему ChatGPT «просадил» депозит — эксперт Даниель Устинов о провале нейросетей в криптотрейдинге Нашумевший эксперимент Alpha Arena показал, что большинство языковых моделей потерпели фиаско в торговле криптовалютой, потеряв до 60% депозита за дв...

13:18, 21 Ноя В Самаре создали программу для оценки психического состояния В пресс-службе Самарского государственного медицинского университета (СамГМУ) сообщили, что ученые вуза совместно с коллегами из Самарской психиатрич...

23:18, 21 Ноя Gmail сканирует вашу почту для обучения ИИ. Как запретить это делать, чтобы письма не утекли в общий доступ? Компания Google внедрила новую политику использования данных, которая позволяет анализировать содержимое электронных писем и вложений в Gmail для обу...

21:18, 20 Сен Датские учёные создали топливный элемент «Монолит» с рекордным соотношением мощности к массе Датские учёные представили новый тип топливного элемента — «Монолит» (Monolithic Gyroidal Solid Oxide Cell), созданный при помощи 3...

07:18, 26 Авг В России создали материал, который скоро появится в двигателях самолётов и ракет. И он изменит всё Что будет, если скрестить прочность керамики с пластичностью металла, а затем проапгрейдить это всё цирконием? А вот наши учёные не стали гадать и сд...

07:18, 02 Окт LG Electronics представила первый в мире 6K-монитор Компания LG Electronics (LG) представила монитор UltraFine evo 6K (модель 32U990A), первый в мире монитор с разрешением 6K и поддержкой Thunderbolt 5...

15:18, 17 Ноя Британский стартап устанавливает первый квантовый компьютер Компания Oxford Quantum Circuits установила компьютер в центре обработки данных Digital Realty на Манхэттене, обещая ускорение работы искусственного ...

07:18, 06 Сен BMW представил первый серийный электрокроссовер iX3 на платформе Neue Klasse На автосалоне в Мюнхене компания BMW представила совершенно новый электрический кроссовер iX3, ставший первой серийной моделью на платформе Neue Klas...

07:18, 13 Авг Samsung представила первый в мире 115-дюймовый телевизор Micro RGB Samsung представила Samsung Micro RGB TV — первый в мире 115-дюймовый телевизор с LCD-панелью 4K 144 Гц и микроскопической RGB-подсветкой. По данным ...

01:18, 04 Сен Дары моря и мамонтенок Яна. Чем запомнился первый день ВЭФ-2025 Во Владивостоке завершился первый день юбилейного X Восточного экономического форума — 2025. В этом году в нем принимают участие гости из более чем 7...

21:18, 28 Окт В Москве стартовал первый международный форум «Женщины за сохранение традиций» В Москве дан старт первому международному форуму «Женщины за сохранение традиций», который стал площадкой для консолидации усилий женщин из разных ст...

14:18, 10 Ноя "Горыныч" заработал первый миллиард: актёры делятся впечатлениями со съёмок О чём кино Подводник-нахимовец, старший лейтенант Алексей Алёхин (Александр Петров) готовится в батискафе погрузиться на дно Балтийского моря, чтобы ...

03:18, 12 Окт Самый первый «Август». Как литовский режиссер испортил книгу Богомолова Фильм Никиты Высоцкого и Ильи Лебедева «Август» третью неделю лидирует по кассовым сборам — фильм уже заработал более 600 млн рублей, а прогнозы стал...

08:18, 01 Окт Первый пошёл! Стоматолог Маруфиди назвала, как облегчить прорезывание зубов Многие мамы и папы младенцев списывают на зубы буквально всё, начиная от проблем с пищеварением, простуды и повышенного слюноотделения и заканчивая д...

21:18, 28 Авг Появился первый кадр Джуда Лоу в роли Путина – физиогномист сравнил их лица Джуд Лоу в образе Путина Первый кадр из фильма "Кремлёвский волшебник" появился в Variety 27 августа, в день открытия Венецианского кинофестиваля, гд...

12:18, 11 Окт Говоришь ему как надо, а он по твоим словам редактирует фото! Первый взгляд на realme 15 Pro В Россию приехал смартфон realme 15 Pro. Мы уже готовим его обзор, а пока решили поделиться первыми впечатлениями. Что по дизайну: консервативный сил...

20:18, 25 Ноя Huawei представила Mate 80 Pro Max — первый в мире смартфон с двухслойным OLED-дисплеем Huawei официально анонсировала серию Mate 80 в Китае, и на вершине линейки расположился новый Mate 80 Pro Max — самый мощный, прочный и техноло...

01:18, 08 Окт Обзор Samsung Galaxy Tab S10 Lite: первый доступный планшет, который смог удивить Не секрет, что у Samsung уже несколько лет получаются шикарные флагманские планшеты, которые в некоторых сценариях вполне могут заменить компьютер. Н...

18:18, 08 Окт Первый месяц сдаем посуточно квартиру: сели, посчитали и обомлели - неужели все мучения были зря Первый месяц сдаем посуточно квартиру: сели, посчитали и обомлели - неужели все мучения были зря Сдать свою первую квартиру посуточно — это как отпра...

13:18, 22 Ноя Куряне, жители района «Парковая», обратились в нашу телекомпанию, чтобы осветить проблему, которая тревожит их уже не первый год Владельцы квартир крайне обеспокоены состоянием придомовой территории и низким качеством оказания услуг от управляющей кампании. Одной из основных пр...

23:18, 23 Окт "Никто не заслуживает такого обращения". Первый муж Бритни Спирс вступился за неё после выхода скандальных мемуаров её второго бывшего мужа Первый муж Бритни Спирс, Джейсон Александер, отреагировал на скандальные мемуары второго бывшего мужа Бритни Спирс Кевина Федерлайна. В своём инстагр...

10:18, 20 Окт «МЮ» одолел «Ливерпуль», первый титул Медведева с 2023-го, победа Малинина во Франции, Ферстаппен выиграл Гран-при и приблизился к Пиастри, 15 шайб в матче КХЛ и другие новости 1. «Манчестер Юнайтед» обыграл «Ливерпуль» на выезде – 2:1! Манкунианцы впервые при Амориме выиграли два матча АПЛ подряд, а мерсисайдцы проиграли 4 ...