Diferencias en la detección de plagio entre los idiomas persa e inglés
Página principal Blog Casos de plagio Diferencias en la detección de plagio entre los idiomas persa e inglés
Diferencias en la detección de plagio entre los idiomas persa e inglés

Diferencias en la detección de plagio entre los idiomas persa e inglés

This is an automated translation of the blog post "Differences in Plagiarism Detection between Persian and English Languages"

Осторожность! Плагиат сейчас растет! На самом деле, это никогда не доставляло столько хлопот, как сейчас. Везде так много информации, и вы можете получить доступ практически к любым данным в Интернете. Естественно, что некоторые писатели не могут устоять перед искушением и заполучить чужое произведение. Без каких-либо цитат, используя чьи-то идеи, вы получаете статус преступления, и такие преступники стремятся скрыть все доказательства и не дать другим поймать их.

Авторы признают мысли других, копируя, вставляя, переписывая или перефразируя исходный текст, а также переводя плагиат. Конечно, есть и комбинации этих категорий, которые позволяют недобросовестным писателям скрывать правду. Транслингвальный или трансляционный плагиат - это явление, поскольку его действительно сложно обнаружить. Смешивая его мысли с заимствованными идеями, переведенными с другого языка, писатели отступают и создают сложную задачу для тех, кому необходимо оценить оригинальность написанного.

Например, повторно используя отрывки текста из пары английский и персидский языки, можно выявить, что отсутствие надлежащего цитирования с исходного языка на целевой язык составляет основу плагиата. Крайне важно иметь систему обнаружения, которая может показать адекватную производительность при выявлении сходства текста и быть точной при оценке. Тем не менее, персидский язык - это язык с особыми характеристиками, и это необходимо учитывать.

Что делает персидский язык таким особенным с точки зрения обнаружения плагиата?

Во-первых, этот низкопрофильный язык очень плохо представлен в Интернете. Совершенно необходимо разработать новые методы и алгоритмы НЛП, которые могут восполнить недостаток онлайн-ресурсов. К сожалению, даже если плагиат очевиден, средства машинного перевода могут его игнорировать.

Во-вторых, персидский принадлежит к группе индоевропейских языков. В его основе лежит арабское письмо как часть семитской семьи. Поэтому даже обычные задачи перед обработкой текста усложняются. Вывод, нормализация и ограниченное распознавание слов.

В-третьих, между персидским и английским языками отличное расстояние, и типичная n-грамма, обычная для кросс-языковых исследований, невозможна для систем обнаружения.

В-четвертых, сложно обнаружить сочетание перевода и перефразирования. Писатель может резюмировать текст, объединять предложения, разделять идеи или перефразировать предложения на целевом языке.

Заменяя слова синонимами и используя различные структуры предложений, авторы могут вставлять скопированные и вставленные отрывки с фарси и арабского языка, которые невозможно отследить с помощью независимых языковых инструментов.

Уровень сходства персидских управляющих символов и символов арабского языка высок, но есть также серьезные несоответствия и различия.

  • Обработка персидского текста затруднена, поскольку персидский и арабский коды сходятся воедино. Персидский язык имеет серию разработанных символов Unicode, в то время как тексты также могут использовать арабские символы ASCII.
  • Кроме того, в персидском языке существует своеобразное внутреннее ограничение по количеству слов, и машинистки могут игнорировать его или использовать пробел для его замены. Этот стажер. Предполагается, что граница слова отображается с псевдопространством, но это необязательно. Этот персонаж сильно сбивает с толку процесс обработки персидских предложений.

Следовательно, эти сложные проблемы требуют неустанной работы по предварительной обработке нормализации и созданию алгоритмов с унифицированными буквами и пространством без объединения.

Asghari et al. предложили многоязычный метод обнаружения плагиата для статей на персидском и английском языках. Они разработали уникальный корпус для двуязычного поиска плагиата с упором на поиск проблем плагиата в персидском документе путем поиска соответствующего источника на английском языке. В общем, необходимо обеспечить предварительную обработку персидских текстов с соответствующими оптимизациями для разработки качественного инструмента поиска плагиата:

  1. Нормализация текста. Стиль письма разных персидских авторов может быть разным, а это значит, что кодировка тоже будет разной. В процессе обработки входные тексты должны быть подготовлены для преобразования и стандартизации. Это означает, что цифры, арабские буквы и все другие символы заменяются персидскими символами.
  2. Устранение слов стоп. Это слова, которые чаще всего используются в качестве общего словаря для всех. тексты, в частности статьи, относительные местоимения и даже знаки препинания.
  3. Производная. Морфологический анализ персидского языка отличается для глаголов и существительных, что усложняет обнаружение плагиата. Получение подразумевает удаление окончаний и аффиксов из слов.
  4. Замена синонимов. Заимствуя чьи-то идеи, плагиат удаляет части предложения или вставляет свежие идеи вместе с пересказом. Этот шаг включает в себя алгоритм проверки использования всех синонимов для каждого отдельного слова.
  5. Токенизация на уровне слов.

Недостаточно Персидский корпус по-прежнему затрудняет эффективное автоматическое обнаружение плагиата. Тем не менее, в настоящее время резкое увеличение объема электронных ресурсов на персидском языке, а также их доступность делают проблему плагиата актуальной в научном и исследовательском сообществе. Точное переписывание и плагиат можно отследить только на основе как структурного, так и анализа, и лишь немногие автоматические системы обнаружения плагиата эффективны в своей работе с персидским языком, поскольку он не поддерживается в достаточной степени и требует целенаправленного внимания.

PlagiarismSearch.com - это программа проверки, которая блестяще выполняет задачи по обнаружению плагиата с персидским языком. Серьезно относясь к уникальности всех работ, он обеспечивает постоянную проверку оригинальности каждой письменной работы. Этот эффективный программный инструмент безупречно обрабатывает тексты на персидском языке и обнаруживает все элементы плагиата с высочайшей степенью точности при соответствующих обновлениях.

Наш опыт обнаружения плагиата в персидских текстах, а также текстах на арабском, иврите, фарси, курдском, урду и других языках, в которых используются письма справа налево, позволяет нам подтвердить, что мы делаем это эффективным и удобным способом для пользователи. PlagiarismSearch.com принимает во внимание все специфические характеристики языка, даже те, которые имеют сложную лингвистическую структуру. Идентификация возможных сходств в документах на основе надежного алгоритма сравнения на нескольких уровнях выполняется, чтобы избежать всевозможных несоответствий при проверке. PlagiarismSearch.com может идентифицировать косвенную и прямую копию, заменяя слова синонимами и переставляя предложения исходного текста.

NB: отметка опции: Использовать правильное направление текста помогает изменить настройки отчета для получения скриптов справа налево. Изменения будут применены как к основным страницам отчета, так и к отчету в формате PDF (HTML + pdf).

melissaanderson.ps@gmail.com
Melissa Anderson
Born in Greenville, North Carolina. Studied Commerce at Pitt Community College. Volunteer in various international projects aimed at environmental protection.
Former Customer Service Manager at OpenTeam | Former Company secretary at Chicago Digital Post | PlagiarismSearch Communications Manager
Otros artículos que pueden interesar a Usted:
Plagio en los medios online: ¿Está condenado el periodismo en la era digital?
Plagio en los medios online: ¿Está condenado el periodismo en la era digital?
El periodismo a menudo se considera el cuarto poder ya que, a pesar de no ser una fuerza política directa, puede influir en nuestra percepción de todas las esferas ...
5 formas en que Internet cambió el plagio
5 formas en que Internet cambió el plagio
Plagio (del latín plagio - robar) es una atribución deliberada de autoría a la obra de literatura, ciencia, arte, invención o propuesta de racionalización de otra perso...
7 razones por las que la gente comete plagio
7 razones por las que la gente comete plagio
Aunque todo el mundo sabe que el plagio es una acción injusta y vergonzosa, no podemos resistir la tentación de robar algunas palabras de alguien, incluso si conocemos el si...
     
Have you got any questions?