Проверить правописание слов в белорусском языке

(Беларуская) Лабараторыя распазнавання і сінтэзу маўлення

(Беларуская) Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

(Беларуская) Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

(Беларуская) Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

(Беларуская) Фільтры

    • па платформе (105)
      • C++ (27)
      • PHP (49)
      • iOS (4)
      • Java (2)
      • C# (1)
      • Python (7)
      • NooJ (1)
      • Android (22)
  • Сінтэз маўлення па тэксце (29)
    • Распрацоўка (21)
    • Пераўтварэнне тэксту на натуральнай мове ў арфаграфічны тэкст (10)
    • Пераўтварэнне арфаграфічнага тэксту ў фанетычную і прасадычную транскрыпцыю (3)
    • Пераўтварэнне транскрыпцыі ў маўленчы сігнал (2)
    • Пасляапрацоўка і мадыфікацыя маўленчага сігналу (1)
    • Лінгвістычныя і акустычныя рэсурсы (11)
  • Распазнаванне маўлення (9)
    • Распрацоўка (3)
      • Вылучэнне маўленчага сігналу з уваходных дадзеных (1)
      • Перадапрацоўка і параметрызацыя маўленчага сігналу (1)
      • Пераўтварэнне маўленчага сігналу ў фанемную і прасадычную транскрыпцыю (0)
      • Пераўтварэнне транскрыпцыі ў тэкст на натуральнай мове (0)
      • Пасляапрацоўка тэксту на натуральнай мове (0)
      • Лінгвістычныя і акустычныя рэсурсы (0)
    • Выкарыстаньне ў рэальных задачах (6)
  • Электронная бібліятэка (16)
  • 2016 (0)
  • 2019 (1)
  • 2021 (2)
  • Проверка правописания

    Сервис “Проверка правописания” предназначен для проверки правильности написания слов. На вход сервиса подается электронный текст, который требует проверки. По нажатию кнопки “Проверить” сервис сравнивает слова текста со словами в подключенных словарях. Найденные в словарях входные слова квалифицирует как написанные правильно и отбрасывает. Не найденные в словаре входные слова (т. е. неизвестные сервису) сервис квалифицирует как написанные неправильно, и выводит в виде списка в алфавитном порядке. Таким образом на выходе пользователь получает список неизвестных сервису слов, соответствий которым не было найдено в словарях, и которые, достоверно, и содержат ошибки.

    Основные термины и понятия

    Орфография, правописание – единообразие передачи слов и грамматических форм письменной речи. Также это сбор правил, который обеспечивает это единообразие.

    Вычитка – проверка написанного текста перед отправкой заказчику, публикацией или другим способом использования.

    Практическая ценность

    Сервис имеет широкий круг применения и чрезвычайную актуальность. Качественно вычитанные тексты – на настоящий момент это неотъемлемый элемент работы требование для многих сфер занятий и коммуникации между людьми и учреждениями. Также орфографически правильный электронный текст – требование к правильному функционированию компьютерных систем человеко-машинных коммуникаций. Актуальность развития данного сервиса обусловливается также осложненным доступом к средствам обработки белорусскоязычного текста. Так, существует любительский пакет проверки правописания для MS Office Word, но он требует специального поиска, скачивания и установки [1]. Вычитка электронного текста машинными средствами остается всегда актуальной, поскольку проверка текстов пользователем вручную почти гарантировано допускает пропуск ошибок.

    Особенности сервиса

    Сервис осуществляет проверку путем сравнения слов во входном тексте со словами в словарной базе. Эта словарная база на настоящий момент включает следующие словари, перечисленные в таблице 1.

    Таблица 1 – Характеристика словарей, которыми пользуется сервис “Проверка правописания”

    Включены по умолчаниюНазвание словаряКомментарииЯзык словаря
    ДаSBM1987Согласно публикации “Слоўнік беларускай мовы. Арфаграфія. Арфаэпія. Акцэнтуацыя. Словазмяненне / пад рэд. М.В. Бірылы. – Мінск, 1987.”белорусский
    ДаSBM2008Словарь белорусского языка согласно Belarusian Grammar Database (bnkorpus.info). Authors: Symon Kakora, Aleś Bułojčyk, Uladź Koščanka. На условиях лицензии CC BY-SA 4.0белорусский
    ДаSBM2012initialНачальные формы согласно публикации “Слоўнік беларускай мовы. / навук. рэд. А.А. Лукашанец, В.П. Русак. – Мінск : Беларус. навука, 2012.”белорусский
    ДаZALIZNIAKСогласно публикации “Грамматический словарь русского языка: Словоизменение / А.А. Зализняк. — Москва : Русский язык, 1980. — 880 c.”русский
    ДаCMUСогласно “Carnegie Mellon University Pronouncing Dictionary“английский
    НетNEWНовые слова для сервиса “Синтезатор речи по тексту”белорусский
    НетS2016_01Словарь доступен по спасылцыбелорусский
    НетS2016_02Словарь доступен по спасылцырусский
    ДаS2016_03Словарь доступен по спасылцыбелорусский

    Некоторые из перечисленных словарей находятся в процессе постоянного пополнения и развития.

    Среди нескольких существующих на данный момент сервисов проверки белорусского правописания только сервис “Проверка правописания” создан на основе проведенной предварительно серьёзной научной работы, поскольку был разработан как один из этапов предварительной обработки и нормализации текста для синтезатора речи.

    Стоит отметить, что данный сервис охватывает орфографический, но не пунктуационный раздел правописания. Правильность согласования слов и расстановки знаков препинания находится вне компетенции данного сервиса и остается за пользователем или другими сервисами, которые также задействованы в Методике вычитки электронных текстов большого размера при помощи сервисов платформы www.corpus.by. Работа данных сервисов и методики опробована во многих проектах Лаборатории распознавания и синтеза речи и находится в состоянии постоянного развития и совершенствования.

    Сервис “Проверка орфографии” способен обрабатывать как небольшие тексты от одного или нескольких слов, так и тексты большого размера. Например, сервисом было успешно проверено правописание законодательных кодексов и литературных произведений объёмом около 470 000 символов с пробелами.

    Первоначально данный сервис был разработан как один из этапов предварительной обработки и нормализации текста для белорусско- и русскоязычного сервиса “Синтезатор речи по тексту”.

    Описание интерфейса пользователя

    Внешний интерфейс сервиса представлен на рисунке 1.

    Рисунок 1 – Графический интерфейс сервиса “Проверка правописания”

    Интерфейс содержит следующие области:

    • поле ввода электронного текста;
    • поле “Игнорировать слова” – поле ввода слов, которые должны игнорироваться при проверке;
    • поле “Максимум контекстов” – задать максимальное количество контекстов неизвестных слов;
    • поле выбора словарей;
    • кнопка “Проверить”, которая запускает обработку и позволяет получить результаты в поле их вывода.

    После обработки текста сервисом в поле вывода результатов пользователь получает следующие списки информации (рисунок 2):

    • “Слова и с кириллическими, и с латинскими символами (количество)” – содержит слова, в которых одновременно применены и кириллические, и латинские символы, что вероятнее всего является ошибочным написанием;
    • “Укажите слова без ошибок и кликните «Перепроверить!»” – содержит неизвестные сервису слова, в которых, вероятно, содержится ошибка, что является основным результатом работы сервиса, необходимым пользователю;
    • “Найдено уникальных написаний слов (количество)” – количество слов в исходном электронном тексте.

    В правой колонке выделены латинские символы в словах с кириллическими и латинскими символами, а также даются предложения по правильному написанию неизвестных сервису слов.

    Пользовательский сценарий работы с сервисом

    Примечание: для большего качества проверки белорусскоязычного текста сервисом “Проверка правописания” рекомендовано в начале проверить текст через сервис “Проверка правописания «Ў»”, прочитав справку по пользованию им.

    1. На странице сервиса ввести в поле ввода текст, который требует проверки.
    2. В поле “Игнорировать слова” по желанию ввести слова, которые не имеют нужды в проверке и будут игнорироваться сервисом. Например, это заранее неизвестные сервису специфические слова, которые часто используются в узкоспециальном тексте: аббревиатуры, терминология и т.д., такие как УДК.
    3. В поле “Максимум контекстов” ввести желательное количество контекстов либо оставить значение 10, которое стоит по умолчанию.
    4. В поле выбора словарей выбрать нужные словари, ставя или снимая значок напротив словаря, либо оставить отметки по умолчанию.
    5. Нажать кнопку “Проверить!” и получить результат в поле вывода, которое появится ниже (рисунок 2).
    6. Просмотреть список “Слова и с кириллическими, и с латинскими символами (количество)”, если такой появился, и при необходимости внести в исходный текст (например, в .doc-файл или страницу) правки, а именно заменить неправильно употребленные латинские символы кириллическими;
    7. Просмотреть список “Отметьте слова без ошибок и кликните «Перепроверить!»”, найти слова с ошибками и внести в исходный текст правки.
    8. Сохранить исходный текст.

    Рисунок 2 – Результат проверки правописания входного электронного текста

    Доступ к сервису через API

    Чтобы получить информацию про принадлежность каждого со слов исходного текста той или иной части речи, необходимо отправить AJAX-запрос типа POST на адрес https://corpus.by/SpellChecker/api.php. Через массив параметров data передаются следующие параметры:

    • text — произвольный исходный текст.
    • ignoreList— список слов, которые не подлежат проверке.
    • maxContexts— ограничение по количеству собираемых контекстов.
    • Маркеры использования словарей:
      • sbm1987 — «Слоўнік беларускай мовы. Арфаграфія. Арфаэпія. Акцэнтуацыя. Словазмяненне / пад рэд. М.В. Бірылы. – Мінск, 1987»;
      • sbm2008 — словарь белорусского языка согласно Belarusian Grammar Database (bnkorpus.info);
      • sbm2012initial — «Слоўнік беларускай мовы. / навук. рэд. А.А. Лукашанец, В.П. Русак. – Мінск : Беларус. навука, 2012»;
      • noun2013 — «Граматычны слоўнік назоўніка / навук. рэд. В.П. Русак. – Мінск : Беларус. навука, 2013»;
      • zalizniak — «Грамматический словарь русского языка: Словоизменение / А.А. Зализняк. — Москва : Русский язык, 1980. — 880 c.»;
      • cmu — «Carnegie Mellon University Pronouncing Dictionary»;
      • tts— словарь системы синтеза речи по тексту;
      • S2016_01, S2016_02, S2016_03, S2017_04, S2017_05 — пользовательские словари;
      • uwp_be— белорусские слова, собранные системой «Апрацоўка невядомых слоў»;
      • uwp_ru— русские слова, собранные системой «Апрацоўка невядомых слоў».

    $.ajax( <
    type: “POST”,
    url: “https://corpus.by/SpellChecker/api.php”,
    data: <
    “text”: “– Ён заслугоўвае сьмерці.
    – Заслугоўвае! Мяркую, гэта так. Многія з тых, хто жыве, заслугоўваюць сьмерці. Некаторыя ж з памерлых заслугоўваюць жыцьця. Ці можаш ты вярнуць яго ім? Тады не сьпяшайся асуджаць і на сьмерць. Нават наймудрэйшы ня можа прадбачыць усіх наступстваў. (Дж.Р.Р. Толкін «Уладар Пярсьцёнкаў»)”,
    “ignoreList”: “Дж Р Толкін”,
    “maxContexts”: 10,
    “sbm1987”: 1,
    “sbm2008”: 1,
    “sbm2012initial”: 1,
    “noun2013”: 1
    >,
    success: function(msg) < >
    >);

    Сервер вернёт JSON-массив с исходным текстом (параметр text), списком отсутсвующих в словаре слов (параметр result) и расширенной таблицей результатов (параметр output). Например, по выше приведённому AJAX-запросу будет сформирован следующий ответ:

    [
    <
    “text”: “Груша цвіла апошні грод.”,
    “result”: “жыцьця
    ня
    пярсьцёнкаў
    сьмерці
    сьмерць

    СЛОВЫ, АДСУТНЫЯ Ў ПАЗНАЧАНЫХ СЛОЎНІКАХ ( 6 )

    жыцьця1… з памерлых заслугоўваюць жыцьця . Ці можаш ты … жыцьця . Ці можаш ты … “>
    ня1… сьмерць. Нават наймудрэйшы ня можа прадбачыць усіх … ня можа прадбачыць усіх … “>
    пярсьцёнкаў1… Р. Толкін «Уладар Пярсьцёнкаў ») Пярсьцёнкаў »)”>
    сьмерці2– Ён заслугоўвае сьмерці .
    – Заслугоўвае! Мяркую, гэта … … хто жыве, заслугоўваюць сьмерці . Некаторыя ж з … сьмерці .
    – Заслугоўвае! Мяркую, гэта … … хто жыве, заслугоўваюць сьмерці . Некаторыя ж з … “>
    сьмерць1… асуджаць і на сьмерць . Нават наймудрэйшы ня … сьмерць . Нават наймудрэйшы ня … “>
    сьпяшайся1… ім? Тады не сьпяшайся асуджаць і на … сьпяшайся асуджаць і на … “>

    ЗНОЙДЗЕНА ЎНІКАЛЬНЫХ НАПІСАННЯЎ СЛОЎ: 46

    Пример использования данного API — веб-сервис «Проверка правописания через API» (https://corpus.bySpellCheckerViaApi/).

    Ссылки на источники

    Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.

    Проверка орфографии онлайн

    Если хотите что-то видеть в нашем сервисе, то можете написать нам через форму обратной связи

    Друзья, если вы не довольны качеством проверки ошибок в тексте, пожалуйста, кроме гневных писем, присылайте пример неправильного определения. Наиболее частые ошибки будут разобраны и опубликованы.

    Исправленный текст:

    Ошибок не найдено!

    Кликнете на слово
    для отмены замены β

    Уровень грамотности: 80 lvl

    Наш сервис проверки орфографии исправляет пунктуацию только в части опечаток и ошибок в тексте, вызванных повтором символов ;,() и отсутствием пробела после точки и запятой.

    После анализа и проверки текста, слова с орфографическими ошибками выводятся справа от формы.

    Автоматическую замену слов можно отменить (например, если в тексте используется абрревиатура), а также для подсчета количества слов с ошибками.

    Улучшайте свои тексты мгновенно

    Миллионы людей по всему миру используют платформу LanguageTool для проверки грамматики и стилистики текста

    Наши партнеры и клиенты:

    • Amazon
    • RingCentral
    • European Union
    • Spiegel Magazine
    • Blinkist
    • Fraunhofer Institut
    • Heise
    • Bertelsmann Stiftung
    • Schweizer Radio und Fernsehen (SRF)
    • JetBrains
    • IP Australia
    • Wirtschaftsuniversität Wien

    Создайте аккаунт бесплатно

    • Написание текстов без отвлекающих факторов
    • Персональный словарь
    • Оценка качества ваших текстов
    • Надежное хранение текстов
    • Получайте больше рекомендаций в “расширенном режиме”
    • Выберите темную или светлую тему

    Наше расширение для браузера работает на всех сайтах

    Получайте советы о том, как улучшить свой текст, когда пишете e-mail, пост для блога или же публикуете твит. На каком языке вы бы не писали, LanguageTool определит его автоматически и предоставит вам подсказки по правописанию. В целях обеспечения конфиденциальности информации расширение LanguageTool не хранит ваши тексты.

    Самое популярное расширение для корректуры текстов для Chrome с более чем 1 миллионом пользователей по всему миру

    Интегрируется с вашей любимой офисной программой

    Получайте больше от работы над документами и пишите профессиональные тексты без ошибок. Не важно, работаете вы над эссе, книгой, диссертацией или просто хотите создать заметку.

    Дополнение для Google Docs

    После установки обязательно настройте свой аккаунт LanguageTool:

    «Надстройки» → «LanguageTool» → «Параметры»

    Дополнение для Microsoft Word

    Работает с Windows, Mac и веб-версией Word. Требуется версия Word 2016 и выше, или Office 365.

    Дополнение для OpenOffice & LibreOffice*

    * Требуется Java 8. В настоящее время недоступно для версии Premium. Возникли проблемы с установкой? Обратитесь за справкой сюда: Troubleshooting

    Откройте в себе профессионального автора с LanguageTool Premium

    Не ограничивайтесь проверкой грамматики и орфографии — удивляйте всех понятным, четким и стилистически безупречным текстом.


    источники:

    http://www.perevodspell.ru/speller.htm

    http://languagetool.org/ru/