Różnice w wykrywaniu plagiatu między językami perskim i angielskim
Strona główna Blog Przypadki plagiatu Różnice w wykrywaniu plagiatu między językami perskim i angielskim
Różnice w wykrywaniu plagiatu między językami perskim i angielskim

Różnice w wykrywaniu plagiatu między językami perskim i angielskim

This is an automated translation of the blog post "Differences in Plagiarism Detection between Persian and English Languages"

Uwaga! Plagiat teraz rośnie! Właściwie nigdy nie spowodowało tylu problemów, co robi teraz. Wszędzie jest tyle informacji, do których masz dostęp prawie wszystkie dane online. To naturalne, że niektórzy pisarze nie mogą się temu oprzeć pokusy i kładą ręce na tym, co jest dziełem drugiego człowieka. Bez każde cytowanie, wykorzystanie czyichś pomysłów zyskuje status przestępstwa, a tacy autorzy staraj się zatuszować wszystkie dowody i nie pozwolić innym ich złapać.

Autorzy biorą uznanie myśli innych za pomocą bezpośredniego kopiowania i wklejania, przepisywania lub parafraza tekstu oryginalnego, a także plagiat przekładowy. Na pewno, są też kombinacje tych kategorii, które pozwalają pisarzom pozbawionym skrupułów ukryć prawdę. Plagiat międzyjęzykowy lub translacyjny jest częstym zjawiskiem zjawisko, ponieważ jego wykrycie jest naprawdę skomplikowane. Mieszanie własnych myśli z zapożyczonymi pomysłami przetłumaczonymi z innego języka, pisarze cofnij się i stwórz ambitne zadanie dla tych, którzy muszą ocenić oryginalność pisania.

Na przykład ponowne wykorzystanie fragmentów tekstu w parze angielskiej i perskiej języków, można stwierdzić, że brak odpowiedniego cytowania z języka język źródłowy na język docelowy stanowi podstawę do plagiatu. To jest sprawa o kluczowym znaczeniu, aby mieć system wykrywania, który może wykazać adekwatne skuteczność w identyfikowaniu podobieństw tekstów i precyzja w ocenach. Mimo to perski jest językiem o specyficznych cechach, które należy wziąć pod uwagę na konto.

Co sprawia, że Język perski tak dziwny pod względem wykrywania plagiatu?

Przede wszystkim reprezentacja tego mało znanego języka w Internecie jest bardzo słaba. To jest koniecznością opracowania nowych technik i algorytmów NLP, które mogą to zrekompensować niewystarczająca ilość zasobów online. Niestety, nawet jeśli plagiat jest ewidentny, narzędzia tłumaczenia maszynowego mogą to pominąć.

Po drugie, perski należy do grupy języków indoeuropejskich. Jego podstawą jest pismo arabskie jako część rodziny języków semickich. W ten sposób nawet typowe zadania przed przetwarzaniem tekst staje się bardziej skomplikowany. Pozyskiwanie, normalizacja i rozpoznawanie słów ograniczony.

Po trzecie, odległość między perskim a angielskim jest świetna i typowa postać n-gram wspólne dla badań międzyjęzykowych nie jest możliwe w przypadku systemów wykrywania.

Po czwarte, kombinacja tłumaczenia i parafrazowania mogą być trudne do wykrycia. Pisarz może podsumuj tekst, połącz zdania, podziel pomysły lub zachowaj ostrożność parafrazowanie zdań w języku docelowym.

Zastąpienie słowa z synonimami i używające różnych struktur zdaniowych, autorzy udało się osadzić wklejane fragmenty z języka perskiego i arabskiego, których nie można śledzone za pomocą narzędzi niezależnych od języka.

Poziom podobieństwo w perskich znakach kontrolnych i w języku arabskim jest wysoka, ale są też poważne rozbieżności i różnice.

  • Jest skomplikowane do przetworzenia przez tekst perski jako kod perski i arabski spotkać się. Perski ma szereg zaprojektowanych znaków Unicode, podczas gdy teksty mogą również używać znaków arabskich ASCII.
  • Ponadto w języku perskim istnieje osobliwa wewnętrzna granica wyrazów, a maszynistki może go zignorować lub wstawić biały znak, aby go zastąpić. Ten wewnętrzny granica słowa powinna być pokazana z pseudospacją, ale jest to opcjonalne znak sprawia, że ​​proces przetwarzania zdań perskich jest dość mylący.

Zatem te trudne problemy wymagają niestrudzonej pracy nad normalizacją wstępnego przetwarzania i tworzenie algorytmów z ujednoliconymi literami i spacją niełączącą o zerowej szerokości.

Asghari i in. zaoferował wielojęzyczną metodę wykrywania plagiatu dla dokumentów w języku perskim i angielski. Opracowali unikalny korpus do wyszukiwania plagiatów dwujęzycznych z naciskiem na poszukiwanie kwestii plagiatu w dokumencie perskim via szukam odpowiedniego źródła w języku angielskim. Ogólnie rzecz biorąc, konieczne jest zapewnienie wstępne przetwarzanie tekstów perskich z odpowiednimi optymalizacjami do opracowania wysokiej jakości narzędzie do wyszukiwania plagiatów:

  1. Normalizacja tekstu. Styl pisania różnych autorów perskich może być inny i oznacza to, że kodowanie również będzie się różnić. W trakcie przetwarzania teksty wejściowe muszą być przygotowane do konwersji i standaryzacji. To oznacza, że ​​cyfry, litery arabskie i wszystkie inne znaki są zamieniane na Znaki perskie.
  2. Usuwanie zatrzymania słowa. Są to słowa najczęściej używane jako wspólne słownictwo dla wszystkich teksty, w szczególności rodzajniki, zaimki względne, a nawet interpunkcja znaki.
  3. Nurkowanie. Analiza morfologiczna języka perskiego różni się dla czasowników i rzeczowników oraz to zwiększa złożoność wyszukiwania plagiatu. Pytanie oznacza eliminację końcówki i afiksy słów.
  4. Zastępowanie synonimy. Pożyczając czyjeś pomysły, plagiator usuwa fragmenty frazy lub wstawia kilka świeżych pomysłów wraz z parafrazą. Ten krok oznacza posiadanie algorytm sprawdzania użycia wszystkich synonimów do każdego oddzielnego słowa.
  5. Tokenizacja w poziom słowa.

Niewystarczający Korpus perski nadal sprawia, że ​​trudno jest zapewnić wydajną automatykę wykrywanie plagiatu. Jednak obecnie dramatyczny wzrost wolumenu zasoby elektroniczne w języku perskim oraz ich dostępność sprawiają, że problem palenia się plagiatu w środowisku naukowo-badawczym. Dokładny przepisywanie i plagiat można prześledzić tylko na podstawie obu semantyki i analizy strukturalnej, a niewiele systemów automatycznego wykrywania plagiatu jest skuteczne w pracy z językiem perskim, ponieważ nie jest on dostatecznie odpowiedni wspierane w nich, a to wymaga celowej uwagi.

Wyszukiwanie plagiatu.com to kontroler, który wykonuje zadania wykrywania plagiatu za pomocą perskiego język genialnie. Poważnie traktując wyjątkowość wszystkich dokumentów, zapewnia: konsekwentne sprawdzanie oryginalności w każdej pracy pisemnej. Ten wydajny narzędzie programowe płynnie uruchamia teksty w języku perskim i wykrywa wszystkie Plagiat części na najwyższym poziomie dokładności, ponieważ jest aktualizowany konsekwentnie.

Nasze doświadczenie wykrywanie plagiatu w tekstach perskich oraz tekstach w językach arabskim, hebrajskim, Farsi, kurdyjski, urdu i inne, które używają pisma od prawej do lewej, umożliwia nam twierdzić, że robimy to w sposób skuteczny i wygodny dla użytkowników. PlagiarismSearch.com uwzględnia wszystkie specyficzne cechy języka, nawet te z wyrafinowana struktura językowa. Identyfikacja potencjalnych podobieństw w dokumentach na podstawie wiarygodnego algorytmu do porównania w a liczba poziomów jest wykonywana, aby uniknąć wszelkiego rodzaju niespójności podczas sprawdzania. PlagiarismSearch.com jest w stanie zidentyfikować kopiowanie pośrednie i bezpośrednie z zastąpieniem słowa z synonimami i zmiana kolejności zdań z oryginalnego tekstu. To ma niezaprzeczalną przewagę nad innymi narzędziami wykrywania plagiatów, jedną z nich czyli łatwość obsługi i wygoda.

NB: Zaznaczanie opcja: Użyj właściwego kierunku tekstu pomaga przełączyć ustawienia raportów, aby uzyskać skrypty od prawej do lewej. ten zmiany będą dotyczyły zarówno stron raportu głównego jak i raportu PDF (HTML + pdf).

melissaanderson.ps@gmail.com
Melissa Anderson
Born in Greenville, North Carolina. Studied Commerce at Pitt Community College. Volunteer in various international projects aimed at environmental protection.
Former Customer Service Manager at OpenTeam | Former Company secretary at Chicago Digital Post | PlagiarismSearch Communications Manager
Inne artykuły, które mogą Cię zainteresować:
Plagiat w mediach internetowych: czy dziennikarstwo jest skazane na śmierć w erze cyfrowej?
Plagiat w mediach internetowych: czy dziennikarstwo jest skazane na śmierć w erze cyfrowej?
Dziennikarstwo jest często uważane za czwartą władzę, ponieważ mimo że nie jest bezpośrednią siłą polityczną, może wpływać na nasze postrzeganie wszystkich ważnych dziedzi...
5 sposobów, w jakie Internet zmienił plagiat
5 sposobów, w jakie Internet zmienił plagiat
Plagiat (z łaciny plagio - ukraść) to celowe przypisanie autorstwa cudzemu dziełu z zakresu literatury, nauki, sztuki, wynalazków lub propozycji racjonalizacji za odpow...
7 powodów, dla których ludzie plagiatują
7 powodów, dla których ludzie plagiatują
Chociaż wszyscy wiedzą, że plagiat jest niesprawiedliwym i haniebnym czynem, nie możemy oprzeć się pokusie kradzieży komuś słów, nawet jeśli znamy znaczenie słowa „plagiat”. W...
     
Have you got any questions?