Diferencias en la detección de plagio entre los idiomas persa e inglés
Осторожность! Плагиат сейчас растет! На самом деле, это никогда не доставляло столько хлопот, как сейчас. Везде так много информации, и вы можете получить доступ практически к любым данным в Интернете. Естественно, что некоторые писатели не могут устоять перед искушением и заполучить чужое произведение. Без каких-либо цитат, используя чьи-то идеи, вы получаете статус преступления, и такие преступники стремятся скрыть все доказательства и не дать другим поймать их.
Авторы признают мысли других, копируя, вставляя, переписывая или перефразируя исходный текст, а также переводя плагиат. Конечно, есть и комбинации этих категорий, которые позволяют недобросовестным писателям скрывать правду. Транслингвальный или трансляционный плагиат - это явление, поскольку его действительно сложно обнаружить. Смешивая его мысли с заимствованными идеями, переведенными с другого языка, писатели отступают и создают сложную задачу для тех, кому необходимо оценить оригинальность написанного.
Например, повторно используя отрывки текста из пары английский и персидский языки, можно выявить, что отсутствие надлежащего цитирования с исходного языка на целевой язык составляет основу плагиата. Крайне важно иметь систему обнаружения, которая может показать адекватную производительность при выявлении сходства текста и быть точной при оценке. Тем не менее, персидский язык - это язык с особыми характеристиками, и это необходимо учитывать.
Что делает персидский язык таким особенным с точки зрения обнаружения плагиата?
Во-первых, этот низкопрофильный язык очень плохо представлен в Интернете. Совершенно необходимо разработать новые методы и алгоритмы НЛП, которые могут восполнить недостаток онлайн-ресурсов. К сожалению, даже если плагиат очевиден, средства машинного перевода могут его игнорировать.
Во-вторых, персидский принадлежит к группе индоевропейских языков. В его основе лежит арабское письмо как часть семитской семьи. Поэтому даже обычные задачи перед обработкой текста усложняются. Вывод, нормализация и ограниченное распознавание слов.
В-третьих, между персидским и английским языками отличное расстояние, и типичная n-грамма, обычная для кросс-языковых исследований, невозможна для систем обнаружения.
В-четвертых, сложно обнаружить сочетание перевода и перефразирования. Писатель может резюмировать текст, объединять предложения, разделять идеи или перефразировать предложения на целевом языке.
Заменяя слова синонимами и используя различные структуры предложений, авторы могут вставлять скопированные и вставленные отрывки с фарси и арабского языка, которые невозможно отследить с помощью независимых языковых инструментов.
Уровень сходства персидских управляющих символов и символов арабского языка высок, но есть также серьезные несоответствия и различия.
- Обработка персидского текста затруднена, поскольку персидский и арабский коды сходятся воедино. Персидский язык имеет серию разработанных символов Unicode, в то время как тексты также могут использовать арабские символы ASCII.
- Кроме того, в персидском языке существует своеобразное внутреннее ограничение по количеству слов, и машинистки могут игнорировать его или использовать пробел для его замены. Этот стажер. Предполагается, что граница слова отображается с псевдопространством, но это необязательно. Этот персонаж сильно сбивает с толку процесс обработки персидских предложений.
Следовательно, эти сложные проблемы требуют неустанной работы по предварительной обработке нормализации и созданию алгоритмов с унифицированными буквами и пространством без объединения.
Asghari et al. предложили многоязычный метод обнаружения плагиата для статей на персидском и английском языках. Они разработали уникальный корпус для двуязычного поиска плагиата с упором на поиск проблем плагиата в персидском документе путем поиска соответствующего источника на английском языке. В общем, необходимо обеспечить предварительную обработку персидских текстов с соответствующими оптимизациями для разработки качественного инструмента поиска плагиата:
- Нормализация текста. Стиль письма разных персидских авторов может быть разным, а это значит, что кодировка тоже будет разной. В процессе обработки входные тексты должны быть подготовлены для преобразования и стандартизации. Это означает, что цифры, арабские буквы и все другие символы заменяются персидскими символами.
- Устранение слов стоп. Это слова, которые чаще всего используются в качестве общего словаря для всех. тексты, в частности статьи, относительные местоимения и даже знаки препинания.
- Производная. Морфологический анализ персидского языка отличается для глаголов и существительных, что усложняет обнаружение плагиата. Получение подразумевает удаление окончаний и аффиксов из слов.
- Замена синонимов. Заимствуя чьи-то идеи, плагиат удаляет части предложения или вставляет свежие идеи вместе с пересказом. Этот шаг включает в себя алгоритм проверки использования всех синонимов для каждого отдельного слова.
- Токенизация на уровне слов.
Недостаточно Персидский корпус по-прежнему затрудняет эффективное автоматическое обнаружение плагиата. Тем не менее, в настоящее время резкое увеличение объема электронных ресурсов на персидском языке, а также их доступность делают проблему плагиата актуальной в научном и исследовательском сообществе. Точное переписывание и плагиат можно отследить только на основе как структурного, так и анализа, и лишь немногие автоматические системы обнаружения плагиата эффективны в своей работе с персидским языком, поскольку он не поддерживается в достаточной степени и требует целенаправленного внимания.
PlagiarismSearch.com - это программа проверки, которая блестяще выполняет задачи по обнаружению плагиата с персидским языком. Серьезно относясь к уникальности всех работ, он обеспечивает постоянную проверку оригинальности каждой письменной работы. Этот эффективный программный инструмент безупречно обрабатывает тексты на персидском языке и обнаруживает все элементы плагиата с высочайшей степенью точности при соответствующих обновлениях.
Наш опыт обнаружения плагиата в персидских текстах, а также текстах на арабском, иврите, фарси, курдском, урду и других языках, в которых используются письма справа налево, позволяет нам подтвердить, что мы делаем это эффективным и удобным способом для пользователи. PlagiarismSearch.com принимает во внимание все специфические характеристики языка, даже те, которые имеют сложную лингвистическую структуру. Идентификация возможных сходств в документах на основе надежного алгоритма сравнения на нескольких уровнях выполняется, чтобы избежать всевозможных несоответствий при проверке. PlagiarismSearch.com может идентифицировать косвенную и прямую копию, заменяя слова синонимами и переставляя предложения исходного текста.
NB: отметка опции: Использовать правильное направление текста помогает изменить настройки отчета для получения скриптов справа налево. Изменения будут применены как к основным страницам отчета, так и к отчету в формате PDF (HTML + pdf).