InternetIntelligenz 2.0 - IBM und Europäisches Konsortium entwickeln Technologien für die Massendigitalisierung von historis

InternetIntelligenz 2.0

kostenlos Pressemitteilungen einstellen | veröffentlichen | verteilen



IBM und Europäisches Konsortium entwickeln Technologien für die Massendigitalisierung von historisch

ID: 247416

IBM und Europäisches Konsortium entwickeln Technologien für die Massendigitalisierung von historischen Texten

(pressrelations) -
Neue Technologie nutzt "Crowd Computing", um Fehlererkennung und Textverifizierung signifikant zu verbessern

Haifa, Israel - 25 Aug 2010: IBM und das EU-Forschungskonsortium IMPACT(IMProving ACcess to Text) haben ihre Zusammenarbeit erweitert. Jetzt umfasst das Projekt über 25 angeschlossene nationale und regionale Bibliotheken - darunter etwa die Deutsche Nationalbibliothek und die Bayrische Staatsbibliothek - Forschungsinstitute, Universitäten und Wirtschaftsunternehmen. Ziel von IMPACT ist es, neue Technologien für eine höchst-präzise Digitalisierung von seltenen, historisch-wertvollen Texten in großem Umfang zur Verfügung zu stellen. Im Gegensatz zu früheren Digitalisierungsprojekten, deren Ergebnis oft statische Online-Bibliotheken von gescannten Texten war, wird bei IMPACT ein System angestrebt, das eine kontinuierliche Produktion von digitalen Repliken erlaubt, die online zugänglich sowie editierbar und durchsuchbar gemacht werden können.
Alte Dokumente mit verblichener Schrift und seltenen Schriftzeichen stellen eine große Herausforderung für heutige Texterkennungstechnologien dar. Eine bis zu 50 Prozent niedrigere Erkennungsrate und eine aufwändige Nachbearbeitung der digitalen Dokumente sind daher die Regel.
Um dies zu verbessern, bietet IMPACT das erste Digitalisierungssystem an, das hochentwickelte, adaptive Software für optische Zeichenerkennung (OCR) mit einem kollaborativen, web-basierten Korrektursystem kombiniert. Mithilfe dieses Korrektursystems, das von IBM Forschern in Haifa entwickelt wurde, können die digitalen Repliken weltweit von allen Beteiligten gleichzeitig über ein Online-Web-System eingesehen, überprüft und korrigiert werden. Das System nutzt zudem lernfähige Software und adaptiert das Erkennen spezifischer Schriftzeichen automatisch.
"Um ein großes Digitalisierungsprojekt zum Erfolg zu führen, muss die Qualität der Texterkennung gesteigert und der Nachbearbeitungsaufwand entscheidend reduziert werden. Wir erwarten, dass wir mit IMPACT eine signifikante Produktivitätssteigerung im Digitalisierungsprozess erzielen können", sagt Hildelies Balk, Koordinatorin des Forschungsprojektes an der niederländischen Koninklijke Bibliotheek.

Nähere Informationen finden Sie in der nachfolgenden englischsprachigen Pressemitteilung.

IBM and EU Partner to Enable the Digitization of Historic European Texts on a Massive Scale
New technology leverages crowd computing to verify and correct documents of heritage
HAIFA, Israel, Aug. 25, -- IBM (NYSE: IBM) and the EU have expanded their research collaboration, which now includes more than two-dozen national libraries, research institutes, universities, and companies across Europe to provide new technology that will enable highly-accurate digitization of rare and culturally significant historical texts on a massive scale. Unlike past digitization projects where the result has been static, online libraries of texts, this unique widescale effort, called IMPACT (IMProving ACcess to Text), will offer new tools and best practices to institutions across Europe that will enable them to efficiently and accurately continue to produce quality digital replicas of historically significant texts and make them widely available, editable and searchable online.
Funded by the EU, IMPACT's research combines the power of new innovative Web-enabled adaptive optical character recognition (OCR) software with "crowd computing" technology -- a fast growing concept designed around individuals, or 'crowds,' enhancing a process or product by sharing their knowledge and expertise to dramatically improve its quality and efficiency. Combined, these technologies will allow institutions for the first time to adapt digitization to the idiosyncrasies of old fonts, anomalies and even vocabularies?while reducing error rates by 35% and substitution rates by 75%.
"IMPACT is remarkable in that it not only allows these prominent centers of culture to ultimately bring people closer to perhaps never before seen historically significant texts of heritage -- but because it actually allows these people to become part of the preservation process," said Tal Drory, manager of the document processing group at IBM Research in Haifa. "IMPACT offers the first digitization system that combines the power of crowd computing with an adaptive optical character recognition (OCR) correction solution that can achieve excellent recognition rates across all kinds of documents ? from the 15th century right up through the 19th century."
Rescued from fire and water at the Bavarian State Library in March of 1943, Karl von Eckartshausen's Magic: Principles of Higher Knowledge is an example of one special piece of work being digitized through IMPACT technology.
While today's OCR engines perform well with modern printed texts, the faded ink, age and unusual shapes of older typefaces can lower recognition rates by up to 50% and require massive manual post-production review. Consequently, for large-scale projects such as this, the efficiency of post-production review of digitized text is crucial. "The only way to make a large-scale digitization project work is to dramatically improve the quality of the initial OCR, and cut down post-processing tasks as much as possible," said Hildelies Balk, Head of European Projects at Koninklijke Bibliotheek and leader for the IMPACT consortium. "With IMPACT, we're expecting to see remarkable increases in productivity in the digitization process."
At the core of the digitization project lies a new, unique collaborative correction system, designed by IBM researchers, that makes it simple and convenient for large groups of volunteers spread over the continent to verify the accuracy of processed texts and correct recognition mistakes using an online web system. Moreover, inherent in the system is the ability to learn from its recognition errors, and adapt automatically to the specific font's characters.
IMPACT technology streamlines, simplifies and accelerates the process of winnowing out questionable text scans, enabling reviewers to key in corrections to the text. Instead of displaying an entire scanned page, reviewers only see the actual letters or words in question. For example, the letter combination "r" and "n" ("rn") may appear indistinguishable from the letter "m." In those instances, the system collects many instances of the letter "m," and places these samples next to the letters in question, making it much easier to determine the letter's real identity.
In cases where an entire word is suspect, it is added to a collection of other questionable terms, which are then arranged in alphabetical order. Volunteer reviewers need only accept or reject suggested substitutes with one keystroke. In addition, the system uses adaptive dictionary enrichment, a method in which new words are added to a central dictionary based on cross-identification and correction by other users.
For example, a small book that normally takes four hours to key in manually, would take one hour using standard OCR technology with manual correction. Incorporating the new collaborative review technology cuts the process down to 30 minutes. IBM researchers explained that the new adaptive OCR system can further reduce the time, cutting it in half to 15 minutes.
IBM Haifa researchers have experience in developing unique approaches to OCR that have proved themselves over the years, from tools that help categorize, classify and route mail and packages in large postal systems, to solutions for optimizing the reading of license plates in congestion pricing systems. IMPACT is likely the first real attempt to develop an adaptive OCR engine that is specifically designed for digital library purposes.
The consortium partners include, among others: IBM Research ? Haifa, Koninklijke Bibliotheek, The British Library, Osterreichische Nationalbibliothek, Universitat Innsbruck, Deutsche Nationalbibliothek, Bayerische Staatsbibliothek, Staats- und Universitatsbibliothek Gottingen, ABBYY Production, Instituut voor Nederlandse Lexicologie, National Centre for Scientific Research "Demokritos." Centrum fur Informations- und Sprachverarbeitung, University of Munich, University of Bath, University of Salford, Bibliotheque Nationale de France, Biblioteca Nacional de Espana and Poznan Supercomputing and Networking Center in Poland.
For more information on IBM Research, visit:
Information on the IMPACT consortium is available at:

Weitere Informationen für Journalisten und Anfragen für Interviews bei:
IBM Research
Development GmbH
Simone Endruweit
Internal and External Communications
Tel: +49 - 7031 16 4206
E-Mail: sendru(at)
Chani Sacharen
Media Relations
IBM Research - Haifa
t +972-4-8296166

Weitere Infos zu diesem Fachartikel:

Themen in diesem Fachartikel:

Unternehmensinformation / Kurzprofil:


PresseKontakt / Agentur:

Bereitgestellt von Benutzer: pressrelations
Datum: 25.08.2010 - 17:16 Uhr
Sprache: Deutsch
News-ID 247416
Anzahl Zeichen: 0 – ihr Partner für die Veröffentlichung von Pressemitteilungen und Presseterminen, Medienbeobachtung und Medienresonanzanalysen

Dieser Fachartikel wurde bisher 120 mal aufgerufen.

Der Fachartikel mit dem Titel:
"IBM und Europäisches Konsortium entwickeln Technologien für die Massendigitalisierung von historisch"
steht unter der journalistisch-redaktionellen Verantwortung von

IBM Deutschland (Nachricht senden)

Beachten Sie bitte die weiteren Informationen zum Haftungsauschluß (gemäß TMG - TeleMedianGesetz) und dem Datenschutz (gemäß der DSGVO).

Alle Meldungen von IBM Deutschland


Wer ist Online

Alle Mitglieder: 50.222
Registriert Heute: 0
Registriert Gestern: 0
Mitglied(er) online: 0
Gäste Online: 181

Bitte registrieren Sie sich hier. Als angemeldeter Benutzer nutzen Sie den vollen Funktionsumfang dieser Seite.