גוט נאָכמיטאָג
מיסטאָמע, יעדער פון אונדז פייסט די אַרבעט ווען עס איז נייטיק צו איבערזעצן אַ פּאַפּיר דאָקומענט אין עלעקטראָניש פאָרעם. דאָס איז ספּעציעל אָפט נייטיק פֿאַר יענע וואס לערנען, אַרבעט מיט דאַקיומענטיישאַן, איבערזעצן טעקסץ מיט עלעקטראָניש דיקשאַנעריז, עטק.
אין דעם אַרטיקל, איך וואָלט ווי צו טיילן עטלעכע פון די באַסיקס פון דעם פּראָצעס. אין אַלגעמיין, סקאַנינג און רעקאַגנייזינג טעקסט איז גאַנץ צייַט-קאַנסומינג, ווייַל די מערסט אַפּעריישאַנז וועט דאַרפֿן צו זיין מאַניואַלי. מיר וועלן פּרובירן צו רעכענען וואָס, ווי און וואָס.
ניט אַלעמען פארשטייט גלייך איין זאַך. נאָך סקאַנינג (פיטינג אַלע שיץ אויף די סקאַננער) איר וועט האָבן בילדער אין BMP, JPG, PNG, GIF פֿאָרמאַט (עס קען זיין אנדערע פֿאָרמאַטירונגען). דעריבער, פֿון דעם בילד איר דאַרפֿן צו באַקומען די טעקסט - דעם פּראָצעדור איז גערופֿן דערקענונג. אין דעם סדר וועט זיין די דערקלערונג אונטן.
אינהאַלט
- 1. וואָס איז דארף פֿאַר סקאַנינג און דערקענונג?
- 2. אָפּציעס פֿאַר טעקסט יבערקוקן
- 3. דערקענונג פון די טעקסט פון דעם דאָקומענט
- 3.1 טעקסט
- 3.2 בילדער
- 3.3 טישן
- 3.4 ומנייטיק זאכן
- 4. דערקענונג פון פּדף / דדזשוו טעקעס
- 5. קאָנטראָלירונג ערראָרס און שפּאָרן אַרבעט רעזולטאַטן
1. וואָס איז דארף פֿאַר סקאַנינג און דערקענונג?
1) סקאַננער
צו קאָנווערט געדרוקט דאָקומענטן צו טעקסט, איר ערשטער דאַרפֿן אַ סקאַננער און אַקאָרדינגלי די "געבוירן" מגילה און דריווערס וואָס זענען געווען מיט אים. מיט זיי, איר קענען יבערקוקן אַ דאָקומענט און ראַטעווען עס פֿאַר ווייַטער פּראַסעסינג.
איר קענען נוצן אנדערע אַנאַלאָגועס, אָבער די ווייכווארג וואָס געקומען מיט די סקאַננער אין די קיט יוזשאַוואַלי אַרבעט פאַסטער און האט מער אָפּציעס.
דעפּענדינג אויף וואָס טיפּ פון סקאַננער, די גיכקייַט פון אַרבעט קענען בייַטן באטייטיק. עס זענען סקאַנערז וואָס קענען באַקומען אַ בילד פון אַ בויגן אין 10 סעקונדעס, עס זענען וואָס וועט באַקומען אין 30 סעקונדעס. אויב איר יבערקוקן אַ בוך פֿאַר 200-300 שיץ - איך טראַכטן עס איז נישט שווער צו רעכענען ווי פילע מאָל עס וועט זיין אַ צייט חילוק?
2) דערקענונג פּראָגראַם
אין אונדזער אַרטיקל איך וועט ווייַזן איר די אַרבעט אין איינער פון די בעסטער מגילה פֿאַר סקאַנינג און דערקענונג פון לעגאַמרע קיין דאָקומענטן - ABBYY FineReader. ווייַל זינט די פּראָגראַם איז באַצאָלט, איך וועט געבן אַ לינק צו אן אנדער - דער פריי אַנאַלאָג פון קונע פאָרם. אמת, איך וואָלט ניט פאַרגלייכן זיי, ווייַל פינרעאַדער ווינס אין אַלע שייך, איך נאָך רעקאָמענדירן צו פּרובירן עס.
ABBYY FineReader 11
באַאַמטער וועבזייטל: //www.abbyy.ru/
איינער פון די בעסטער מגילה פון זיין סאָרט. עס איז דיזיינד צו דערקענען די טעקסט אין די בילד. געבויט-אין פילע אָפּציעס און פאַנגקשאַנז. עס קען פּאַרטיסירן אַ בינטל פון פאַנץ, עס אפילו שטיצט כאַנדריטאַן אָפּציעס (כאָטש איך האָבן נישט פּערסנאַלי געפרוווט עס. איך טראַכטן עס איז אַנלייקלי אַז עס וועט קענען צו דערקענען די כאַנדריטאַן ווערסיע, סייַדן איר האָבן די שליימעסדיק קאַלליגראַפיק קסאַוו). מער דעטאַילס וועגן ארבעטן מיט עס וועט זיין דיסקרייבד אונטן. דאָ מיר אויך טאָן אַז דער אַרטיקל וועט רעדן וועגן ארבעטן אין ווערסיע 11 פּראָגראַם.
אין אַלגעמיין, די פאַרשידענע ווערסיעס פון ABBYY FineReader זענען נישט זייער אַנדערש פון יעדער אנדערער. איר קענען לייכט טאָן די זעלבע אין אן אנדער. די הויפּט דיפעראַנסיז קען זיין אין די קאַנוויניאַנס, די גיכקייַט פון די פּראָגראַם און זייַן קייפּאַבילאַטיז. לעמאָשל, פריער ווערסיעס אָפּזאָגן צו עפֿענען אַ PDF און DJVU ...
3) דאָקומענטן פֿאַר סקאַנינג
יאָ, ווי דאָס, איך באַשלאָסן צו מאַכן די דאָקומענטן אַ באַזונדער זייַל. אין רובֿ פאלן, עטלעכע טעקסטבוקס, צייטונגען, אַרטיקלען, מאַגאַזינז, עטק, זענען סקאַנד. יענע ביכער און די ליטעראַטור וואָס איז מאָנען. וואָס בין איך לידינג צו? פֿון פּערזענלעך דערפאַרונג, איך קען זאָגן אַז פיל איר ווילן צו יבערקוקן איז מיסטאָמע שוין אויף די נעץ! ווי פילע מאָל האָבן איך פּערסנאַלי שפּאָרן צייט ווען איך געפֿונען אַ באַזונדער בוך שוין סקאַנד אויף די נעץ. כל איך געהאט צו טאָן איז צו צייכענען דעם טעקסט אין דעם דאָקומענט און פאָרזעצן צו אַרבעטן מיט אים.
פֿון דעם, אַ פּשוט עצה - איידער איר יבערקוקן עפּעס, טשעק אויב עמעצער שוין סקאַנד און איר טאָן ניט דאַרפֿן צו וויסט דיין צייט.
2. אָפּציעס פֿאַר טעקסט יבערקוקן
דאָ איך וועל נישט רעדן וועגן דיין דריווערס פֿאַר די סקאַננער, די מגילה וואָס זענען געווען מיט אים, ווייַל אַלע מאָדעלס פון סקאַנערז זענען אַנדערש, די ווייכווארג איז אויך אַנדערש אומעטום, און עס איז אַנריליסטיק צו טרעפן ווי צו דורכפירן די אָפּעראַציע.
אָבער אַלע סקאַנערז האָבן די זעלבע סעטטינגס, וואָס קענען זייער ווירקן די גיכקייַט און קוואַליטעט פון דיין אַרבעט. מיר וועלן נאָר רעדן וועגן זיי דאָ. איך וועל רשימה אין סדר.
1) סקאַן קוואַליטעט - דפּי
ערשטער, שטעלן די יבערקוקן קוואַליטעט אין די אָפּציעס צו לפּחות 300 דפּי. עס איז אפילו קעדייַיק צו שטעלן מער אויב מעגלעך. די העכער די דפּי גראדן, די קלירער דיין בילד וועט זיין, און דער ווייַטער פּראַסעסינג וועט זיין פאַסטער. דערצו, די העכער די קוואַליטעט פון די יבערקוקן, די ווייניקער ערראָרס איר וועט דאַרפֿן צו ריכטיק שפּעטער.
דער בעסטער אָפּציע יוזשאַוואַלי פּראָווידעס 300-400 דפּי.
2) קאָליר
דער פּאַראַמעטער אַפעקץ די סקאַנינג צייט זייער שטארק (ביי די וועג, DPI איז אויך אַפפעקטעד, אָבער יענע זענען אַזוי שטאַרק, און בלויז ווען דער באַניצער שטעלט הויך וואַלועס).
יוזשאַוואַלי עס זענען דריי מאָדעס:
- שוואַרץ און ווייַס (גאנץ פֿאַר קלאָר טעקסט);
- גרוי (פּאַסיק פֿאַר טעקסט מיט טישן און בילדער);
- קאָליר (פֿאַר קאָליר מאַגאַזינז, ביכער, אין אַלגעמיין, דאָקומענטן ווו קאָליר איז וויכטיק).
טיפּיקאַללי, די יבערקוקן צייט דעפּענדס אויף די ברירה פון קאָליר. טאקע, אויב איר האָבן אַ גרויס דאָקומענט, אפילו די עקסטרע 5-10 סעקונדעס אויף די בלאַט ווי אַ גאַנץ וועט גיסן אויס אין אַ לייַטיש צייט ...
3) פאָטאָס
איר קענען באַקומען אַ דאָקומענט ניט בלויז דורך סקאַנינג, אָבער אויך דורך פאָטאָגראַפינג עס. ווי אַ הערשן, אין דעם פאַל, איר וועט האָבן עטלעכע אנדערע פראבלעמען: בילד דיסטאָרשאַן, בלער. דעריבער, אַ מער ווייַטער עדיטינג און פּראַסעסינג פון די באקומען טעקסט קען זיין פארלאנגט. פּערסנאַלי, איך טאָן נישט רעקאָמענדירן ניצן קאַמעראַס פֿאַר דעם געשעפט.
עס איז וויכטיק צו טאָן אַז ניט יעדער אַזאַ דאָקומענט קענען זיין דערקענט ווייַל יבערקוקן קוואַליטעט קענען זיין גאָר נידעריק ...
3. דערקענונג פון די טעקסט פון דעם דאָקומענט
מיר יבערנעמען אַז איר האָט באקומען די טשערישט סקאַנד בלעטער. רובֿ אָפט זיי זענען פֿאָרמאַטירונגען: טיף, במב, jpg, png. אין אַלגעמיין, פֿאַר ABBYY FineReader - דאָס איז נישט זייער וויכטיק ...
נאָך עפן אַ בילד אין ABBYY FineReader, די פּראָגראַם, ווי אַ גאַנץ, אויטאָמאַטיש סאַלעקץ געביטן און דערקענען זיי אויף די מאַשין. אבער מאל זי טוט עס פאַלש. פֿאַר דעם, מיר וועלן באַטראַכטן די סעלעקציע פון די נייטיק געביטן מאַניואַלי.
וויכטיק! ניט אַלעמען פארשטייט גלייך אַז נאָך עפן אַ דאָקומענט אין דעם פּראָגראַם, די מקור דאָקומענט איז געוויזן אין די לינקס פֿענצטער, אין וואָס איר סעלעקטירן פאַרשידן געביטן. נאָך געבן אַ קליק אויף די "דערקענונג" קנעפּל, די פּראָגראַם אין די רעכט פֿענצטער וועט ווייַזן איר די פאַרטיק טעקסט. נאָך דערקענונג, עס איז קעדייַיק צו קאָנטראָלירן די טעקסט פֿאַר ערראָרס אין דער זעלביקער FineReader.
3.1 טעקסט
דער געגנט איז געניצט צו הויכפּונקט טעקסט. בילדער און טישן זאָל זיין יקסקלודיד פון עס. זעלטן און ומגעוויינטלעך פאַנץ וועט זיין אריין מאַניואַלי ...
צו אויסקלייַבן אַ טעקסט געגנט, צוקוקנ זיך צו די טאַפליע צו די שפּיץ פון FineReader. עס איז אַ קנעפּל "ט" (זען די סקרעענשאָט אונטן, די מויז טייַטל איז פּונקט אויף דעם קנעפּל). דריקט אויף עס, און סעלעקטירן דעם ניט רעקטאַנגגיאַלער געגנט אין די בילד אונטן, אין וואָס די טעקסט איז ליגן. דורך דעם וועג, אין עטלעכע קאַסעס איר דאַרפֿן צו מאַכן טעקסט בלאַקס פון 2-3, און מאל 10-12 פּער בלאַט, ווייַל טעקסט פאָרמאַטטינג קענען זיין אַנדערש און איין גראָדעק קען נישט אויסקלייַבן די גאנצע געגנט.
עס איז וויכטיק צו טאָן אַז בילדער זאָל נישט פאַלן אין די טעקסט געגנט! אין דער צוקונפֿט, דאָס וועט שפּאָרן איר אַ פּלאַץ פון צייט ...
3.2 בילדער
געוויינט צו הויכפּונקט בילדער און געביטן וואָס זענען שווער צו דערקענען רעכט צו נעבעך קוואַליטעט אָדער ומגעוויינטלעך שריפֿט.
אין די סקרעענשאָט אונטן, די מויז טייַטל איז ליגן אויף די קנעפּל געניצט צו סעלעקטירן דעם "בילד" שטח. אגב, אין דעם שטח איר קענט אויסקלייַבן לעגאַמרע קיין טייל פון דער בלאַט, און FineReader דערנאָך ינסערץ עס אין דעם דאָקומענט ווי אַ נאָרמאַל בילד. י.ע. נאָר "סטופּאַדלי" קאָפּיע ...
יוזשאַוואַלי דעם שטח איז געניצט צו הויכפּונקט שוואַך סקאַנד טישן, צו הויכפּונקט ניט-נאָרמאַל טעקסט און שריפֿט, דורך זיך בילדער.
3.3 טישן
אונטן סקרעענשאָט איז געוויזן אַ קנעפּל פֿאַר כיילייטינג טישן. אין אַלגעמיין, איך פּערסנאַלי נוצן עס זייער ראַרעלי. דער פאַקט איז אַז איר דאַרפֿן צו גאַנץ רוטינלי ציען (אין פאַקט) יעדער שורה אויף דעם טיש און ווייַזן וואָס און ווי צו דעם פּראָגראַם. אויב דער טיש איז קליין און אין נישט זייער גוט קוואַליטעט, איך רעקאָמענדירן צו נוצן די "בילד" שטח פֿאַר די צוועקן. שפּאָרן אַ פּלאַץ פון צייט און דער טיש קענען זיין געשווינד געמאכט אין וואָרט באזירט אויף די בילד.
3.4 ומנייטיק זאכן
עס איז וויכטיק צו טאָן. עס זענען עטלעכע מאָל ומנייטיק עלעמענטן אויף דעם בלאַט וואָס אַרייַנמישנ זיך מיט די דערקענונג פון טעקסט, אָדער אפילו פאַרמייַדן איר צו הויכפּונקט די געבעטן געגנט. זיי קענען זיין גאָר אראפגענומען מיט די מעקער.
צו טאָן דאָס, גיין צו די בילד עדיטינג מאָדע.
סעלעקט די מעקער געצייַג און סעלעקטירן ומנייטיק געגנט. עס וועט זיין ירייסט און אַ ווייַס בלאַט פון פּאַפּיר וועט זיין אויף זיין אָרט.
אגב, איך רעקאָמענדירן אַז איר נוצן די אָפּציע ווי אָפט ווי מעגלעך. פּרוּווט אַלע די טעקסט אַרעאַס וואָס איר האָט אויסגעקליבן, וווּ איר טאָן ניט דאַרפֿן אַ טעקסט, אָדער ומנייטיק דאַץ, בלערינג, דיסטאָרשאַן זענען פאָרשטעלן - ויסמעקן מיט אַ מעקער. דאַנק צו דעם, דערקענונג וועט זיין פאַסטער!
4. דערקענונג פון פּדף / דדזשוו טעקעס
אין אַלגעמיין, די דערקענונג פֿאָרמאַט וועט נישט זיין אַנדערש פון די מנוחה - י.ע. איר קענען אַרבעטן מיט עס פּונקט ווי מיט בילדער. דער בלויז זאַך איז אַז די פּראָגראַם זאָל נישט זיין צו אַלט אויב די פּדף / דדזשווו טעקעס זענען נישט עפן פֿאַר איר - אַפּגרייד צו ווערסיע 11.
א ביסל שפּיץ. נאָך עפן דעם דאָקומענט אין FineReader - עס וועט אויטאָמאַטיש אָנהייבן צו דערקענען דעם דאָקומענט. אָפט אין PDF / DJVU טעקעס, אַ ספּעציפיש געגנט פון דער בלאַט איז נישט דארף איבער די דאָקומענט! צו באַזייַטיקן אַזאַ אַ שטח אויף אַלע בלעטער, טאָן די פאלגענדע:
1. גיין צו די בילד עדיטינג אָפּטיילונג.
2. קער אויף די "גערעטעניש" אָפּציע.
3. סעלעקטירן דעם שטח וואָס איר ווילט אויף אַלע בלעטער.
4. דריקט צולייגן צו אַלע בלעטער און גערעטעניש.
5. קאָנטראָלירונג ערראָרס און שפּאָרן אַרבעט רעזולטאַטן
עס וואָלט ויסקומען אַז עס קען נאָך זיין פּראָבלעמס ווען אַלע געביטן זענען כיילייטיד, און דערקענט - נעמען עס און ראַטעווען עס ... עס עס איז געווען!
ערשטער, איר דאַרפֿן אַ דאָקומענט טשעק!
צו געבן עס, נאָך דערקענונג, אין די רעכט פֿענצטער, "טשעק" קנעפּל, זען אונטן סקרעענשאָט געוויזן. נאָך קליקינג עס, די FineReader פּראָגראַם וועט אויטאָמאַטיש ווייַזן די אַרעאַס אין וואָס די פּראָגראַם האט ערראָרס און עס איז ניט ביכולת צו רילייאַבלי ידענטיפיצירן אַ באַזונדער כאַראַקטער. איר וועט נאָר האָבן צו קלייַבן, אָדער איר שטימען מיט די מיינונג פון די פּראָגראַם, אָדער אַרייַן דיין כאַראַקטער.
אגב, אין האַלב פאלן, בעערעך, די פּראָגראַם וועט פאָרשלאָגן איר אַ פאַרטיק ריכטיק וואָרט - איר נאָר האָבן צו קלייַבן די נייטיק אָפּציע מיט די מויז.
צווייטנס, נאָך קאָנטראָלירונג, איר דאַרפֿן צו קלייַבן די פֿאָרמאַט אין וואָס איר שפּאָרן די רעזולטאַט פון דיין אַרבעט.
דאָ FineReader אַלאַוז איר צו ווענדן צו זיין פולאַסט: איר קענען פשוט אַריבערפירן אינפֿאָרמאַציע צו וואָרט איינער צו איין, אָדער איר קענען ראַטעווען עס אין אַ צענדליקער פֿאָרמאַטירונגען. אָבער איך וואָלט ווי צו ונטערשטרייַכן אן אנדער וויכטיק אַספּעקט. וועלכער פֿאָרמאַט איר קלייַבן, עס איז מער וויכטיק צו קלייַבן די טיפּ פון קאָפּיע! באַטראַכטן די מערסט טשיקאַווע אָפּציעס ...
פּינטלעך קאָפּיע
אַלע געביטן וואָס איר האָט כיילייטיד אויף דעם בלאַט אין דער דערקענט דאָקומענט, גלייַכן פּונקט דער אָריגינעל דאָקומענט. א זייער באַקוועם אָפּציע ווען עס איז וויכטיק פֿאַר איר נישט צו פאַרלירן די פֿאָרמאַטירונג פון טעקסט. דורך דעם וועג, פאַנץ זענען אויך זייער ענלעך צו דער אָריגינעל. מיט דעם אָפּציע, איך רעקאָמענדירן צו אַריבערפירן דעם דאָקומענט צו וואָרט אַזוי אַז איר קענען פאָרזעצן דאָרט.
עדיטאַבלע קאָפּיע
די אָפּציע איז גוט אין אַז איר באַקומען אַן שוין פאָרמאַטטעד ווערסיע פון די טעקסט. י.ע. ינדענטיישאַן מיט "קילאָמעטער", וואָס קען זיין אין די מקור דאָקומענט - איר וועט נישט טרעפן. נוציק אָפּציע ווען איר וועט באטייטיק רעדאַגירן די אינפֿאָרמאַציע.
אמת, איר זאָל נישט קלייַבן אויב עס איז וויכטיק צו ופהיטן די נוסח פון פּלאַן, פאַנץ, ינדענץ. אויב דער דערקענונג איז נישט זייער געראָטן, דיין דאָקומענט קען "סקיוואַט" רעכט צו דער פארענדערט פאָרמאַטטינג. אין דעם פאַל, עס איז קעדייַיק צו קלייַבן די פּינטלעך קאָפּיע.
קלאָר טעקסט
אַן אָפּציע פֿאַר יענע וואָס דאַרפֿן בלויז טעקסט פֿון אַ בלאַט אָן אַלץ אַנדערש. פּאַסיק פֿאַר דאָקומענטן אָן בילדער און טישן.
אויף דעם אַרטיקל אויף סקאַנינג און דערקענונג פון אַ דאָקומענט געקומען צו אַ סוף. איך האָפֿן אַז מיט די פּשוט עצות איר קענען סאָלווע דיין פּראָבלעמס ...
גוט גליק