מיט דער אַנטוויקלונג פון דער צייט, עפעקטיוו אַרבעט ווערט מער און מער וויכטיק אין אונדזער טעגלעך לעבן. אַזאַ ווי אין די פעלד פון פינאַנצן, בילדונג, פאַרזיכערונג, רעגירונג און ענטערפּרייז עלעקטראָניש אָפיס, די OCR / דאָקומענט סקאַננער פּראָדוקטן שטעלן אַ זייער וויכטיק ראָלע אין דעם. מיט די OCR פּראָדוקטן פאַלן, וואָס זייער רעדוצירן די ווערקלאָוד פון די שטעקן, פֿאַרבעסערן די אַרבעט עפעקטיווקייַט.
וואָס איז אָפּטיש כאַראַקטער דערקענונג (OCR)?
אָפּטיש כאַראַקטער דערקענונג (OCR) טעכנאָלאָגיע איז אַן עפעקטיוו געשעפט פּראָצעס וואָס סאַוועס צייט, קאָס און אנדערע רעסורסן דורך ניצן אָטאַמייטיד דאַטן יקסטראַקשאַן און סטאָרידזש קייפּאַבילאַטיז.
אָפּטיש כאַראַקטער דערקענונג (OCR) איז מאל ריפערד צו ווי טעקסט דערקענונג. אַן OCR פּראָגראַם עקסטראַקט און רעפּורפּאָסעס דאַטן פון סקאַנד דאָקומענטן, אַפּאַראַט בילדער און בילד-בלויז פּדף. OCR ווייכווארג סינגגאַלז אויס אותיות אויף די בילד, לייגט זיי אין ווערטער און דערנאָך לייגט די ווערטער אין זאצן, אַזוי דערייווינג אַקסעס צו און עדיטינג פון דער אָריגינעל אינהאַלט. עס אויך ילימאַנייץ די נויט פֿאַר מאַנואַל דאַטן פּאָזיציע.
OCR סיסטעמען נוצן אַ קאָמבינאַציע פון ייַזנוואַרג און ווייכווארג צו בייַטן גשמיות, געדרוקט דאָקומענטן אין מאַשין ליינעוודיק טעקסט. ייַזנוואַרג - אַזאַ ווי אַ אָפּטיש סקאַננער אָדער ספּעשאַלייזד קרייַז ברעט - קאָפּיעס אָדער לייענען טעקסט; דעריבער, ווייכווארג טיפּיקלי כאַנדאַלז די אַוואַנסירטע פּראַסעסינג.
OCR ווייכווארג קענען נוצן קינסטלעך סייכל (AI) צו ינסטרומענט מער אַוואַנסירטע מעטהאָדס פון ינטעליגענט כאַראַקטער דערקענונג (ICR), ווי ידענטיפיצירן שפּראַכן אָדער סטיילז פון כאַנדרייטינג. דער פּראָצעס פון OCR איז מערסט קאַמאַנלי געניצט צו ווענדן שווער קאָפּיע לעגאַל אָדער היסטארישע דאָקומענטן אין פּדף דאָקומענטן אַזוי אַז יוזערז קענען רעדאַגירן, פֿאָרמאַט און זוכן די דאָקומענטן ווי אויב באשאפן מיט אַ וואָרט פּראַסעסער.
ווי טוט אָפּטיש כאַראַקטער דערקענונג אַרבעט?
אָפּטיש כאַראַקטער דערקענונג (OCR) ניצט אַ סקאַנער צו פּראָצעס די גשמיות פאָרעם פון אַ דאָקומענט. אַמאָל אַלע בלעטער זענען קאַפּיד, OCR ווייכווארג קאַנווערץ דעם דאָקומענט אין אַ צוויי-קאָליר אָדער שוואַרץ-און-ווייַס ווערסיע. די סקאַנד-אין בילד אָדער ביטמאַפּ איז אַנאַלייזד פֿאַר ליכט און פינצטער געביטן, און די טונקל געביטן זענען יידענאַפייד ווי אותיות וואָס דאַרפֿן צו זיין דערקענט, בשעת ליכט געביטן זענען יידענאַפייד ווי הינטערגרונט. דער פינצטער געביטן זענען דעמאָלט פּראַסעסט צו געפֿינען אלפאבעט אותיות אָדער נומעריק דידזשאַץ. דעם בינע טיפּיקלי ינוואַלווז טאַרגאַטינג איין כאַראַקטער, וואָרט אָדער בלאָק פון טעקסט אין אַ צייט. אותיות זענען דעמאָלט יידענאַפייד מיט איינער פון צוויי אַלגערידאַמז - מוסטער דערקענונג אָדער שטריך דערקענונג.
מוסטער דערקענונג איז געניצט ווען די OCR פּראָגראַם איז פאסטעכער ביי ביישפילן פון טעקסט אין פאַרשידן פאַנץ און פֿאָרמאַטירונגען צו פאַרגלייַכן און דערקענען אותיות אין די סקאַנד דאָקומענט אָדער בילד טעקע.
שטריך דיטעקשאַן אַקערז ווען די OCR אַפּלייז כּללים וועגן די פֿעיִקייטן פון אַ ספּעציפיש בריוו אָדער נומער צו דערקענען אותיות אין די סקאַנד דאָקומענט. פֿעיִקייטן אַרייַננעמען די נומער פון אַנגגאַלד שורות, קראָסט שורות אָדער קורוועס אין אַ כאַראַקטער. פֿאַר בייַשפּיל, די הויפּט בריוו "א" איז סטאָרד ווי צוויי דיאַגאָנאַל שורות וואָס טרעפן מיט אַ האָריזאָנטאַל שורה אַריבער די מיטל. ווען אַ כאַראַקטער איז יידענאַפייד, עס איז קאָנווערטעד אין אַ ASCII קאָד (אמעריקאנער סטאַנדאַרד קאָוד פֿאַר אינפֿאָרמאַציע ינטערטשאַנגע) וואָס קאָמפּיוטער סיסטעמען נוצן צו שעפּן ווייַטער מאַניפּיאַליישאַנז.
אַן OCR פּראָגראַם אויך אַנאַליזעס די סטרוקטור פון אַ דאָקומענט בילד. עס דיוויידז די בלאַט אין עלעמענטן אַזאַ ווי בלאַקס פון טעקסטן, טישן אָדער בילדער. די שורות זענען צעטיילט אין ווערטער און דערנאָך אין אותיות. אַמאָל די אותיות האָבן שוין סינגגאַלד אויס, די פּראָגראַם קאַמפּערז זיי מיט אַ גאַנג פון מוסטער בילדער. נאָך פּראַסעסינג אַלע מסתּמא שוועבעלעך, די פּראָגראַם גיט איר די דערקענט טעקסט.
OCR איז אָפט געניצט ווי אַ פאַרבאָרגן טעכנאָלאָגיע, וואָס מאַכט פילע באַוווסט סיסטעמען און באַדינונגס אין אונדזער טעגלעך לעבן. וויכטיק - אָבער ווייניקער באַוווסט - נוצן קאַסעס פֿאַר OCR טעכנאָלאָגיע אַרייַננעמען דאַטן-אַרייַן אָטאַמיישאַן, אַסיסטינג בלינד און וויזשוואַלי ימפּערד מענטשן און ינדעקסינג דאָקומענטן פֿאַר זוכן ענדזשאַנז, אַזאַ ווי פּאַספּאָרץ, דערלויבעניש פּלאַטעס, ינווויסיז, באַנק סטייטמאַנץ, געשעפט קאַרדס און אָטאַמאַטיק נומער טעלער דערקענונג. .
פֿעיִקייטן קאַמפּערד מיט טראדיציאנעלן סקאַנערז:
1. לייטווייט, גרינג צו פירן און ינסטאַלירן;
2. די סקאַנינג צייט איז קורץ, דער נאָרמאַל סקאַנינג צייט איז 1-2 ס, און איר קענען באַקומען עס מיד;
3. נידעריק פּרייַז
4. עס קענען דורכפירן אָקר דערקענונג אויף די קאַפּטשערד בילדער, גער די בילדער אין וואָרט עדיטאַבלע דאָקומענטן, און אויטאָמאַטיש טיפּ זיי;
5. ינקאָרפּערייטינג פּאַפּירלעסס פאַקס טעכנאָלאָגיע, אפילו אויב עס איז קיין פאַקס מאַשין, איר קענען נאָך שיקן פאַקסעס, וואָס באטייטיק ימפּרוווז פאַקס עפעקטיווקייַט;
אָפּטיש כאַראַקטער דערקענונג נוצן קאַסעס
די מערסט באַוווסט נוצן פאַל פֿאַר אָפּטיש כאַראַקטער דערקענונג (OCR) איז קאַנווערטינג געדרוקט פּאַפּיר דאָקומענטן אין מאַשין ליינעוודיק טעקסט דאָקומענטן. אַמאָל אַ סקאַנד פּאַפּיר דאָקומענט גייט דורך OCR פּראַסעסינג, דער טעקסט פון דעם דאָקומענט קענען זיין עדיטיד מיט אַ וואָרט פּראַסעסער ווי Microsoft Word אָדער Google Docs.
OCR ינייבאַלז די אַפּטאַמאַזיישאַן פון גרויס-דאַטן מאָדעלינג דורך קאַנווערטינג פּאַפּיר און סקאַנד בילד דאָקומענטן אין מאַשין ליינעוודיק, סעאַרטשאַבלע פּדף טעקעס. פּראַסעסינג און ריטריווינג ווערטפול אינפֿאָרמאַציע קענען ניט זיין אָטאַמייטיד אָן ערשטער אַפּלייינג OCR אין דאָקומענטן ווו טעקסט לייַערס זענען נישט שוין פאָרשטעלן.
מיט OCR טעקסט דערקענונג, סקאַנד דאָקומענטן קענען זיין ינאַגרייטיד אין אַ גרויס-דאַטן סיסטעם וואָס איז איצט ביכולת צו לייענען קליענט דאַטן פֿון באַנק סטייטמאַנץ, קאַנטראַקץ און אנדערע וויכטיק געדרוקט דאָקומענטן. אַנשטאָט עמפּלוייז ונטערזוכן קאַונטלאַס בילד דאָקומענטן און מאַניואַלי קאָרמען ינפּוץ אין אַ אָטאַמייטיד גרויס-דאַטן פּראַסעסינג וואָרקפלאָוו, אָרגאַנאַזיישאַנז קענען נוצן OCR צו אָטאַמייט אין די אַרייַנשרייַב בינע פון דאַטן מיינינג. OCR ווייכווארג קענען ידענטיפיצירן די טעקסט אין די בילד, עקסטראַקט טעקסט אין בילדער, ראַטעווען די טעקסט טעקע און שטיצן jpg, jpeg, png, bmp, tiff, pdf און אנדערע פֿאָרמאַטירונגען.
אויף די גרונט פון דעם, Hampo האטlאַנטשed אַ סעריע פון אַפּאַראַט מאַדזשולז פוןוואָס פון5MP-16MP פון דעפֿיניציע. אין די אָנהייב פון Hampo אַנטוויקלונג בינע, אונדזער מאַנשאַפֿט געשאפן אַ ערשטער טיפּ 5 מפּ וסב אַפּאַראַט מאָדולע פֿאַר הויך גיכקייַט דאָקומענט סקאַננער;מיט דיפאָדערונג פוןמאַרק, 8MP,13MP און אפילו 16MP וסב אַפּאַראַט מאַדזשולז האָבן שויןגעשאפן. וואָס's מער, די פאָדערונג פֿאַר איין אַפּאַראַט, צו 2 קאַמעראַס, און מאַלטי קאַמעראַס איז געווענדט צו דער דאָקומענט סקאַננער.
מער קאַסטאַמייזד פארלאנגט, ביטע קאָנטאַקט אונדז, מיר קען פּלאַן אַ צופֿרידןאַפּאַראַט מאָדולעפֿאַר דיין OCR / OCV דאָקומענט סקאַננער.
פּאָסטן צייט: פעברואר 23-2023