עס איז ווייַט פון שטענדיק מעגלעך צו עקסטראַקט טעקסט פון אַ פּדף טעקע מיט רעגולער קאַפּיינג. אָפט די בלעטער פון אַזאַ דאָקומענטן זענען סקאַנד אינהאַלט פון זייער פּאַפּיר ווערסיעס. צו קאָנווערטירן אַזאַ טעקעס אין גאָר עדיטאַבלע טעקסט דאַטן, ספּעציעל מגילה מיט די Optical Character Recognition (OCR) פונקציע זענען געניצט.
אַזאַ דיסיזשאַנז זענען זייער שווער צו ינסטרומענט און דעריבער קאָסטן אַ פּלאַץ פון געלט. אויב איר דאַרפֿן צו דערקענען טעקסט פון פּדף קעסיידער, עס איז גאַנץ קעדייַיק צו קויפן די צונעמען פּראָגראַם. אין זעלטן פאלן, עס וועט זיין מער לאַדזשיקאַל צו נוצן איינער פון די בנימצא אָנליין באַדינונגס מיט ענלעך פאַנגקשאַנז.
ווי צו דערקענען טעקסט פון פּדף אָנליין
דאָך, די קייט פון אָקר אָנליין באַדינונגס פֿעיִקייטן, קאַמפּערד מיט פול-פלעדזשד דעסקטאַפּ סאַלושאַנז, איז מער לימיטעד. אָבער איר קענען אויך אַרבעטן מיט אַזאַ רעסורסן אָדער פריי אָדער פֿאַר אַ נאָמינאַל אָפּצאָל. די הויפּט זאַך איז אַז מיט זייער הויפּט אַרבעט, ניימלי מיט טעקסט דערקענונג, די קאָראַספּאַנדינג וועב אַפּלאַקיישאַנז זענען פּונקט ווי געזונט.
אופֿן 1: ABBYY FineReader אָנליין
די סערוויס אַנטוויקלונג פירמע איז איינער פון די פירער אין די פעלד פון אָפּטיש דערקענונג. ABBYY FineReader פֿאַר Windows און Mac איז אַ שטאַרק לייזונג פֿאַר קאַנווערטינג PDF צו טעקסט און ווייַטער אַרבעטן מיט אים.
דער וועב-באזירט אַנאַלאָג פון די פּראָגראַם איז דאָך ערגער פֿון דער פונקציאָנירן. דאך, די סערוויס קען דערקענען טעקסט פון סקאַנז און פאָטאָס אין מער ווי 190 שפראכן. גער פּדף טעקעס צו Word, Excel, עטק. דאָקומענטן זענען געשטיצט.
ABBYY FineReader אָנליין אָנליין סערוויס
- איידער איר אָנהייב ארבעטן מיט די געצייַג, שאַפֿן אַ חשבון אויף דעם פּלאַץ אָדער קלאָץ אין מיט דיין Facebook, Google אָדער Microsoft חשבון.
דריקט דעם קנעפּל צו גיין צו די דערלויבעניש פֿענצטער "אַרייַנגאַנג" אין די שפּיץ מעניו באַר. - נאָך לאָגינג אין, אַרייַנפיר די געוואלט PDF- דאָקומענט אין FineReader מיט דעם קנעפּל "צופֿעליקער טעקעס".
דערנאָך גיט "קלייַבן בלאַט נומערן" און ספּעציפיצירן די געבעטן מעהאַלעך פֿאַר טעקסט דערקענונג. - דערנאָך, סעלעקטירן די שפּראַכן אין דעם דאָקומענט, די פֿאָרמאַט פון די ריזאַלטינג טעקע און גיט די קנעפּל "דערקענען".
- נאָך פּראַסעסינג, דער געדויער פון וואָס דעפּענדס לעגאַמרע אויף די באַנד פון דעם דאָקומענט, איר קענען אראפקאפיע די פאַרטיק טעקע מיט טעקסט דאַטן דורך געבן אַ קליק אויף זיין נאָמען.
אָדער עקספּאָרט עס צו איינער פון די בנימצא וואָלקן באַדינונגען.
די דינסט איז מיסטאָמע אונטערשיידן דורך די מערסט פּינטלעך אַלגערידאַמז פֿאַר טעקסט דערקענונג אויף בילדער און פּדף טעקעס. אָבער, ליידער, די פריי נוצן איז לימיטעד צו פינף בלעטער פּראַסעסט פּער חודש. צו אַרבעטן מיט מער וואַלומאַנאַס דאָקומענטן, איר דאַרפֿן צו קויפן אַ יערלעך אַבאָנעמענט.
אויב OCR איז ראַרעלי נידז, ABBYY FineReader Online איז אַ גרויס אָפּציע פֿאַר יקסטראַקטינג טעקסט פון קליין פּדף טעקעס.
אופֿן 2: פריי אָנליין אָקר
פּשוט און באַקוועם דינסט פֿאַר דיגיטאַליזינג טעקסט. אָן רעגיסטראַציע, די מיטל אַלאַוז איר צו דערקענען 15 פול פּדף בלעטער פּער שעה. Free Online OCR גאָר אַרבעט מיט דאָקומענטן אין 46 שפּראַכן און אָן דערלויבעניש שטיצט דריי טעקסט אַרויספירן פאָרמאַץ - דאָקס, קסלסקס און טקסט.
ווען ער רעדזשיסטערט, דער באַניצער באקומט די געלעגנהייט צו פּראָצעס מולטי-בלאַט דאָקומענטן, אָבער די פריי נומער פון די זעלבע בלעטער איז לימיטעד צו 50 וניץ.
Free אָקר אָנליין סערוויס
- צו דערקענען די טעקסט פון פּדף ווי אַ "גאַסט", אָן דערלויבעניש פֿאַר די מיטל, נוצן די צונעמען פאָרעם אויף די הויפּט בלאַט פון דעם פּלאַץ.
סעלעקטירן דעם געוואלט דאָקומענט מיט דעם קנעפּל טעקע, ספּעציפיצירן די הויפּט שפּראַך פון די טעקסט, די פּראָדוקציע פֿאָרמאַט, און וואַרטן ביז די טעקע איז לאָודיד און גיט גער. - אין די סוף פון די דיגיטאַליזאַטיאָן פּראָצעס, גיט "אראפקאפיע די פּראָדוקציע טעקע" צו ראַטעווען די פאַרטיק דאָקומענט מיט טעקסט אויף דעם קאָמפּיוטער.
פֿאַר אָטערייזד ניצערס, די סיקוואַנס פון אַקשאַנז איז עפּעס אַנדערש.
- ניצן די קנעפּל "רעגיסטראַציע" אָדער "אַרייַנגאַנג" אין די שפּיץ מעניו באַר צו אַקאָרדינגלי שאַפֿן אַ פריי אָנליין אָקר חשבון אָדער קלאָץ אין צו עס.
- האַלטן די שליסל נאָך דערלויבעניש אין דער דערקענונג טאַפליע קטרל, אויסקלייַבן אַרויף צו צוויי שפראַכן פון די מקור דאָקומענט פון דער צוגעשטעלט רשימה.
- ספּעציפיצירן ווייַטער אָפּציעס פֿאַר יקסטראַקטינג טעקסט פֿון פּדף און גיט סעלעקטירן טעקע צו צופֿעליקער אַ דאָקומענט צו דער סערוויס.
דערנאך, צו אָנהייבן דערקענונג, גיט גער. - אין די סוף פון פּראַסעסינג דעם דאָקומענט, גיט די לינק מיט די נאָמען פון די פּראָדוקציע טעקע אין די קאָראַספּאַנדינג זייַל.
דער דערקענונג רעזולטאַט וועט זיין גילטיג גלייך אין דער זכּרון פון דיין קאָמפּיוטער.
אויב איר דאַרפֿן צו עקסטראַקט טעקסט פון אַ קליין פּדף דאָקומענט, איר קענען בעשאָלעם נוצן די נוצן פון דעם מיטל. צו אַרבעטן מיט וואַלומאַנאַס טעקעס, איר דאַרפֿן צו קויפן נאָך אותיות אין Free Online OCR אָדער נוצן אן אנדער לייזונג.
אופֿן 3: NewOCR
גאָר פריי אָקר סערוויס אַז אַלאַוז איר צו עקסטראַקט טעקסט פון כּמעט קיין גראַפיק און עלעקטראָניש דאָקומענטן ווי DjVu און PDF. די מיטל קען נישט שטעלן ריסטריקשאַנז אויף די גרייס און נומער פון דערקענט טעקעס, ריקווייערז קיין רעגיסטראַציע און אָפפערס אַ ברייט קייט פון פֿאַרבונדענע פאַנגקשאַנז.
NewOCR שטיצט 106 שפראכן און קענען ריכטיק פּראַסעסינג אפילו נידעריק קוואַליטעט דאָקומענטן סקאַנז. עס איז מעגלעך צו סעלעקטירן דעם שטח פֿאַר טעקסט דערקענונג מאַניואַלי מאַניואַלי אויף דער טעקע בלאַט.
נעוואָקר אָנליין סערוויס
- אַזוי, איר קענען אָנהייבן ארבעטן מיט אַ ריסאָרס מיד, אָן די נויט צו דורכפירן ומנייטיק אַקשאַנז.
רעכט אויף דער הויפּט בלאַט עס איז אַ פאָרעם פֿאַר ימפּאָרטינג אַ דאָקומענט צו די מאַפּע. צו צופֿעליקער אַ טעקע צו NewOCR, נוצן דעם קנעפּל "סעלעקטירן טעקע" אין דער אָפּטיילונג "סעלעקטירן דיין טעקע". דערנאָך אין דעם פעלד "דערקענונג שפּראַך (s)" ספּעציפיצירן איין אָדער מער שפראַכן פון די מקור דאָקומענט און גיט "צופֿעליקער + OCR". - שטעלן דיין בילכער דערקענונג סעטטינגס, סעלעקטירן דעם בלאַט פֿון וואָס איר ווילן צו עקסטראַקט טעקסט און גיט די קנעפּל OCR.
- מעגילע אַ ביסל אַראָפּ די בלאַט און געפֿינען דעם קנעפּל "אראפקאפיע".
דריקט אויף עס און אין די פאַל-אַראָפּ רשימה סעלעקטירן דעם פארלאנגט דאָקומענט פֿאָרמאַט פֿאַר דאַונלאָודינג. דערנאָך, די פאַרטיק טעקע מיט די יקסטראַקטאַד טעקסט וועט זיין דאַונלאָודיד צו דיין קאָמפּיוטער.
די געצייַג איז באַקוועם און גאַנץ הויך קוואַליטעט אנערקענט אַלע די אותיות. די פּראַסעסינג פון יעדער בלאַט פון די ימפּאָרטיד פּדף דאָקומענט מוזן זיין סטאַרטעד ינדיפּענדאַנטלי און עס איז געוויזן אין אַ באַזונדער טעקע. איר קענט דאָך גלייך נאָכמאַכן די דערקענונג רעזולטאַטן צו די קליפּבאָרד און פאַרבינדן זיי מיט אנדערע.
דאך, געגעבן די נואַנס דיסקרייבד אויבן, עס איז זייער שווער צו עקסטראַקט גרויס אַמאַונץ פון טעקסט ניצן NewOCR. מיט קליין טעקעס, די דינסט קאָפּעס מיט אַ קלאַפּ.
אופֿן 4: OCR.Space
א פּשוט און פאַרשטיייק מיטל פֿאַר דידזשאַטייזינג טעקסט, עס אַלאַוז איר צו דערקענען פּדף דאָקומענטן און רעזולטאַט דער רעזולטאַט צו אַ טקסט טעקע. קיין לימאַץ אויף די נומער פון בלעטער זענען צוגעשטעלט. די בלויז באַגרענעצונג איז אַז די גרייס פון דעם אַרייַנשרייַב דאָקומענט זאָל נישט יקסיד 5 מעגאבייט.
OCR.Space אָנליין סערוויס
- רעדזשיסטער צו אַרבעטן מיט די געצייַג איז ניט נייטיק.
נאָכפאָלגן די לינק אויבן און ופּלאָאַד די פּדף דאָקומענט צו די וועבזייטל פֿון די קאָמפּיוטער מיט דעם קנעפּל "סעלעקטירן טעקע" אָדער פֿון דער נעץ - דורך דערמאָנען. - אין די פאַלן אַראָפּ רשימה "סעלעקטירן OCR שפּראַך" סעלעקט די שפּראַך פון די ימפּאָרטיד דאָקומענט.
אָנהייבן דעם טעקסט דערקענונג פּראָצעס דורך געבן אַ קליק דעם קנעפּל "אָנהייב אָקר!". - אין די סוף פון די פּראַסעסינג פון די טעקע, לייענען די רעזולטאַט אין דעם פעלד OCR'ed רעזולטאַט און גיט "אראפקאפיע"צו אָפּלאָדירן די פאַרטיק טקסט דאָקומענט.
אויב איר נאָר דאַרפֿן צו עקסטראַקט די טעקסט פון די פּדף און אין דער זעלביקער צייט די לעצט פאָרמאַטטינג איז נישט וויכטיק, OCR.Space איז אַ גוטע ברירה. דער בלויז זאַך איז אַז דער דאָקומענט זאָל זיין "מאָנאָלינגואַל", ווייַל דער דערקענונג פון צוויי אָדער מער שפּראַכן אין דער זעלביקער צייט איז נישט צוגעשטעלט אין די סערוויס.
זען אויך: Free אַנאַלאָגועס פון פינרעאַדער
אַססעססינג די אָנליין מכשירים דערלאנגט אין דעם אַרטיקל, עס זאָל זיין אנגעוויזן אַז FineReader Online פֿון ABBYY כאַנדאַלז די OCR פונקציע רובֿ אַקיעראַטלי און יפישאַנטלי. אויב מאַקסימום אַקיעראַסי פון טעקסט דערקענונג איז וויכטיק פֿאַר איר, עס איז בעסטער צו באַטראַכטן די אָפּציע ספּאַסיפיקלי. אָבער רובֿ מסתּמא איר וועט אויך האָבן צו באַצאָלן פֿאַר עס.
אויב איר דאַרפֿן צו דידזשאַטייז קליין דאָקומענטן און איר זענט גרייט צו ינדיפּענדאַנטלי ריכטיק ערראָרס אין די סערוויס, עס איז קעדייַיק צו נוצן NewOCR, OCR.Space אָדער Free Online OCR.