Подход к обнаружению плагиата на английском и персидском языках

Осторожно! Плагиат сейчас растет! На самом деле, это никогда не вызывало столько проблем, сколько это делает сейчас. Везде так много информации, и вы можете получить доступ практически любые данные в сети. Естественно, что некоторые писатели не могут устоять перед искушение и возложить руки на то, что сделано другим человеком. Без любое цитирование, использование чьих-либо идей приобретает статус преступления, а такие авторы прилагать усилия, чтобы скрыть все доказательства и не позволять другим их уловить.

Авторы принимают отдавать должное за мысли других людей, использующих прямое копирование, перезапись или пересказ оригинального текста, а также переводной плагиат. Конечно, есть также комбинации тех категорий, которые позволяют недобросовестным писателям скрыть правду. Межъязычный или переводной плагиат - обычное дело. явление, поскольку его действительно сложно обнаружить. Смешение собственных мысли с заимствованными идеями, переведенные с другого языка, писатели вернитесь назад и поставьте сложную задачу для тех, кому нужно оценить оригинальность написания.

Например, повторное использование отрывков текста через пару английского и персидского языков, можно выявить отсутствие надлежащего цитирования из Исходный язык на целевой язык является основанием для плагиата. Это имеет решающее значение иметь систему обнаружения, которая может показать адекватные способность определять сходство текста и быть точным в оценках. Тем не менее, персидский - это язык со специфическими особенностями, и это следует принимать во внимание. в учетную запись.

Что делает Персидский язык так своеобразен с точки зрения обнаружения плагиата?

Прежде всего, Представленность этого низкопрофильного языка в Интернете крайне низка. Это необходимо разрабатывать новые техники и алгоритмы НЛП, которые могут компенсировать это недостаточное количество ресурсов в сети. К сожалению, даже если плагиат очевиден, средства машинного перевода могут его пропустить.

Во-вторых, персидский язык принадлежит к группе индоевропейских языков. Его основой является арабская графика как составная часть семьи семитских языков. Таким образом, даже общие задачи перед обработкой текст усложняется. Получение стемминга, нормализации и распознавания слов ограниченный.

В-третьих, расстояние между персидским и английским языком велико и характерен н-грамм обычное для кросс-языковых исследований невозможно для систем обнаружения.

В-четвертых, комбинация перевода и перефразирования бывает сложно обнаружить. Писатель может резюмируйте текст, объединяйте предложения, разделяйте идеи или делайте осторожные перефразирование предложений на изучаемом языке.

Замена слова с синонимами и с использованием разнообразных структур предложений, авторы удается вставить скопированные отрывки с фарси и арабского языка, которые не могут быть отслеживается с помощью инструментов, не зависящих от языка.

Уровень сходство персидских управляющих символов и символов арабского языка высокая, но есть и серьезные неточности и отличия.

Это сложно обрабатывать персидский текст, так как персидский и арабский коды собраться вместе. Персидский имеет серию разработанных символов Unicode, в то время как тексты могут также использовать арабские символы ASCII.
Кроме того, в персидском языке существует своеобразная внутренняя граница слов, и машинистки может либо игнорировать его, либо заменить его пустым пространством. Этот внутренний граница слова должна быть показана с псевдопространством, но это необязательно символ делает процесс обработки персидских предложений довольно запутанным.

Таким образом, эти сложные вопросы требуют неустанной работы над нормализацией предварительной обработки и создание алгоритмов с унифицированными буквами и несоединяемым пространством нулевой ширины.

Асгари и др. предложили кросс-языковой метод обнаружения плагиата для статей на персидском языке. и английский. Разработали уникальный корпус для двуязычного поиска плагиата. с акцентом на поиск проблем плагиата в персидском документе через ищу соответствующий источник на английском языке. В общем, необходимо обеспечить предварительная обработка персидских текстов с соответствующей оптимизацией для разработки качественный инструмент поиска плагиата:

Нормализация текста. Стиль письма разных персидских авторов может быть разным и это означает, что кодировка также будет отличаться. В процессе обработки входные тексты должны быть подготовлены для преобразования и стандартизации. Это означает, что цифры, арабские буквы и все другие символы заменяются на Персидские персонажи.
Удаление остановки слова. Это слова, которые чаще всего используются в качестве общего словаря для всех. тексты, в частности статьи, относительные местоимения и даже знаки препинания Метки.
Основание. Морфологический анализ персидского языка отличается для глаголов и существительных и что усложняет поиск плагиата. Стемминг подразумевает устранение окончания слов и аффиксы.
Замена синонимы. Заимствуя чьи-то идеи, плагиат удаляет части фразы или вставляет свежие идеи вместе с перефразированием. Этот шаг подразумевает наличие алгоритм проверки использования всех синонимов к каждому отдельному слову.
Токенизация на уровень слов.

Недостаточно Персидский корпус по-прежнему затрудняет обеспечение эффективной автоматической обнаружение плагиата. Тем не менее, в настоящее время резкое увеличение объема электронные ресурсы на персидском языке, а также их доступность делают проблема плагиата, актуальная в научно-исследовательском сообществе. Точный переписывание и плагиат можно проследить только на основе как семантических и структурный анализ, и несколько автоматических систем обнаружения плагиата эффективны в их работе с персидским языком, поскольку он недостаточно в них поддерживается, а это требует целенаправленного внимания.

PlagiarismSearch.com это программа проверки, которая выполняет задачи по обнаружению плагиата с персидским язык блестяще. Серьезно относясь к уникальности всех документов, он гарантирует последовательная проверка оригинальности каждой письменной работы. Этот эффективный программный инструмент плавно запускает тексты на персидском языке и обнаруживает все части плагиата с высочайшим уровнем точности по мере его обновления последовательно.

Наш опыт обнаружение плагиата в персидских текстах, а также текстах на арабском языке, иврите, Фарси, курдский, урду и другие языки, в которых используются письма справа налево, позволяют нам утверждать, что мы делаем это эффективным и удобным для пользователей способом. Плагиат учитывает все особенности языка, даже с сложная языковая структура. Выявление потенциальных сходств в документах на основе надежного алгоритма сравнения на количество уровней сделано, чтобы избежать всевозможных несоответствий при проверке. Плагиат способен распознавать косвенное и прямое копирование с заменой слова с синонимами и перестановка предложений от исходного текста. Это имеет неоспоримые преимущества перед другими инструментами обнаружения плагиата, одним из в этом его простота использования и удобство.

NB: отметьте вариант: Использовать правильное направление текста Помогает переключать настройки отчетов для получения скриптов с написанием справа налево. В изменения коснутся как страниц основного отчета, так и отчета в формате PDF (HTML + pdf).

Различия в обнаружении плагиата между персидским и английским языками

Что делает Персидский язык так своеобразен с точки зрения обнаружения плагиата?

Плагиат в интернет-СМИ: обречена ли журналистика в цифровую эпоху?

5 способов, которыми Интернет изменил плагиат

7 причин, по которым люди используют плагиат

Войти