Le Bureau Ingénieur Tomasi développe des systèmes de reconnaissance optique capables de traiter les caractères typographiques les plus difficiles comme les caractères gothiques utilisés dans les vieux manuscrits. Problème, cette très petite entreprise n'a pas accès aux grands projets de bibliothèques numériques...
Les enjeux du gigantesque chantier lié à la numérisation des grandes bibliothèques américaines ou européennes n'ont pas échappé aux géants de l'Internet. Google, comme ses deux concurrents Yahoo et Microsoft, entendent bien s'arroger une large part du gâteau. Depuis deux ans, l'Europe tente de réagir à cette menace hégémonique en créant sa propre bibliothèque virtuelle dans le cadre du programme Europeana. Ce vaste marché fait le bonheur d'une entreprise russe leader mondial des systèmes de reconnaissance optique de caractères (OCR) appliqués aux documents patrimoniaux. Il existe pourtant des acteurs, y compris en France, qui aimeraient bien pouvoir participer aux appels d'offre et faire valoir leurs compétences. Mais leur taille constitue un sérieux handicap. C'est notamment le cas d'une jeune pousse toulousaine : B.I.T. Bureau Ingénieur Tomasi (B.I.T).
Si la plupart des polices sont aujourd'hui reconnues par la machine, certaines posent encore problème : les typographies de type gothique, celles utilisées dans les manuscrits médiévaux ou les incunables. Ces anciennes typographies sont précisément l'une des spécialités de B.I.T. « Notre technologie s'applique aussi bien à l'OCR, la reconnaissance optique de caractères imprimés, qu'à l'ICR (Intelligence character recognition), qui concerne l'écriture manuscrite comme l'identification de signatures », explique Gilbert Tomasi, dirigeant et fondateur de B.I.T.
L'entreprise ne manque pas de projets : « Nous sommes capables d'apprendre tout type de caractères, des incunables aux écritures gothiques particulières en passant par l'écriture maya », ajoute-t-il, « Nous travaillons actuellement à un projet de reconnaissance de l'écriture arabe. Projet pour lequel nous recherchons des partenaires et investisseurs. C'est un exercice difficile car les caractères sont collés. Mais cela nous ouvrira la porte des écritures liées, l'hindi et par la suite, l'écriture manuscrite », note le patron de B.I.T.
La première application lancée par B.I.T. en 2001 touchait le secteur du BTP et plus précisément le traitement des appels d'offres des marchés publics. Ici, la machine se charge de la lecture fastidieuse de l'appel d'offre, d'où un gain de temps appréciable. Une fois l'appel d'offres scanné, le logiciel BIT-Estim permet de traiter les images numériques en capturant différents paramètres (quantité, références tarifaires, libellés,…) pour les transférer ensuite dans un logiciel de chiffrage et réimporter ensuite les prix dans le document du donneur d'ordre.
Parallèlement, l'équipe a perfectionné son moteur OCR/ICR et créé BIT-Alpha, une application destinée à la valorisation des documents patrimoniaux pour la création de bibliothèques numériques. Là encore, une fois la page de texte scannée, le logiciel BIT-Alpha procède à sa lecture. Un nouveau document, fac-similé de l'original, est alors édité dans un fichier PDF. Il est alors possible d'effectuer des recherches par mots-clés avec affichage en surbrillance dans le fac-similé.
« Il n'y a que le russe Abbyy et nous à pouvoir proposer cette technologie », se félicite Gilbert Tomasi qui poursuit : « Mais ce qui nous différencie de tous les autres, c'est que nous conservons l'image numérique de la page d'un ouvrage. Nous connaissons les positions exactes de tous les éléments reconnus ». Cette technologie a été choisie l'an dernier par la Zentral und Landesbibliothek Berlin pour la numérisation d'ouvrages retraçant les séances du Parlement berlinois de 1800 à 1945, soit un million de pages couvertes d'écriture dite Fraktur, police de caractères gothiques particulière. Le tout pour un tarif estimé à 1500€ pour 25.000 pages.
« Nous avons remporté l'appel d'offres devant les Russes et les Allemands de CCS. Après quatre mois de tests, les responsables du projet nous annonçaient que les performances de BIT-Alpha étaient encore supérieures à ce qu'ils en attendaient », tient à souligner Gilbert Tomasi qui, fort de son succès, aimerait bien décrocher des affaires plus importantes. Las. « Nous sommes trop petits. Nous ne répondons pas aux critères des appels d'offres des marchés publics français », tempête le patron de B.I.T. Une frustration d'autant plus forte que le marché est là, à portée de main.
Fiche d'identité:
B.I.T. Bureau Ingénieur Tomasi (B.I.T.)
Domaine d'activité : Editeur de moteur OCR/ICR (Reconnaissance Optique de Caractères)
Année de création : 2001
Effectifs : 4
Dirigeant et fondateur : Gilbert & Baerbel Tomasi
Capital : 500 000€
Levée(s) de fonds : Aucune. En phase de recherche.
Actionnaire(s) : Structure familiale
Chiffre d'affaires 2006 : 200 000€
Concurrents :
- OCR : Abbyy (Russie), Nuance, ex-ScanSoft (US), I.R.I.S. (Belgique), Matrox (Canada)
- ICR : A2iA (France)

A quelques exceptions près - IBM, Apple ou HP -, la plupart des grand noms de l'informatique ont vu la valeur de leur titre baisser depuis 10 ans. Le Krach récent n'a rien arrangé, mais la tendance s'était amorcée avant les récents tumultes.
Selon un sondage réalisé en ligne du 9 septembre au 13 octobre 2008, vous êtes plus de 42% à préférer le système d'exploitation Linux pour l'achat d'un Netbook.
Faciliter le développement d'applications avec des outils de modélisation simplifiés, c'est la promesse d'Oslo, plate-forme que Microsoft finalise. Elle inclut un langage basé sur le texte, un outil de modélisation visuelle et une base de stockage partagée.