Recherche collaborateurs pour créer une version PDF navigable aisément du dictionnaire de J. Storck

Question

L'Air du Bois est une plateforme Open Source de partage collaboratif ouverte à tous les amoureux du travail du bois. (En savoir plus)

Rejoindre l'Air du Bois Se connecter

Recherche collaborateurs pour créer une version PDF navigable aisément du dictionnaire de J. Storck

par dneis

il y a 5 ans

Préambule

Le dictionnaire de Justin Storck est une ressource incroyable sur tout ce qui touche la menuiserie, l'ébénisterie et la charpente.

Il est disponible en ligne sur le site de Gallica: tome 1, tome 2 et supplément,
- seulement, la navigation n'est pas aisée car on ne peut rechercher un mot dans le texte intégral;
Il existe également le site justinstorck.free.fr/
- toutefois, le site n'est pas complet dans le sens où toutes les entrées du dictionnaire ne sont pas présentes (pas d'article sur les scies !!)

Contexte

Alors j'ai fait un PDF de chaque tome (1, 2, supplément ), avec reconnaissance de texte.
Il est donc possible de chercher un mot dans le PDF.
chaque fichier pèse environ 50 MB, c'est ~500 pages quand même !
Mais on est loin des 1 GB par tome avant conversion en noir et blanc.

J'ai également mis des signets dans le PDF, pour aller directement à une lettre donnée (A, B, C, ...). Mais ce n'est pas suffisant pour aller directement à une entrée donné. Et rechercher le mot sapin dans le texte ne va pas mener directement à l'article SAPIN s'il est utilisé par ailleurs (c'est le cas...).

Alors l'idéal serait d'avoir d'avoir un signet par entrée dans le PDF. Oui, ça va faire beaucoup de signets, mais il est possible -avec tout visionneur PDF- de chercher un mot dans les signets.

Demande d'aide

C'est là que vous entrez en action.
Il faut définir ces entrées. Et indiquer le numéro de la page concernée.
Bref, faire une liste. Je vous montre:

Abaque 9
Abatage 9
Abat-foin 10
Abatant 10
Abat-jour 12
...

Je ne vais pas y arriver tout seul.

Si on se répartit le travail, plus on est nombreux, moins on a de pages à traiter par personne.
Bref, même si vous ne souhaitez traiter que 10 pages, cela vaut le coup.

Alors si vous avez un peu de temps à consacrer à ce projet, ça me ferait grand plaisir.
Et ça permettrait à tout le monde de disposer d'une version PDF utilisable car pratique du fameux dictionnaire. Bien entendu, je le partagerai en ligne.

L'avantage, c'est que cela vous donnera l'occasion de découvrir le dictionnaire et son contenu. Choisissez donc bien les lettre/pages que vous voulez lire

Organisation

Qui fait quoi ?

Un petit tableau pour indiquer qui fait quoi, histoire de synthétiser les contribution et éviter les doublons:
**par ici les inscriptions
lite.framacalc...8b-justinstorck

Si une lettre comporte trop de pages pour vous, rajouter une ligne pour subdiviser.
Sinon, demandez moi, je compléterai le tableau.

Comment faire en pratique ?

Allumer son ordi,
afficher le PDF,
ouvrir un éditeur de texte,
lister les entrées (une entrée par ligne, avec numéro de page séparé par une espace),
et voilà !

Je centraliserai alors pour créer le PDF qui va bien.

Ou alors vous remplissez le document en ligne:
annuel2.framap...stinstorck-9m8g

Comment nommer les fichiers d'entrées à transmettre ?

On va essayer un truc comme ça:

tome1-004-023.txt pour les pages 4 à 23 du tome 1;
supplement-120-123.docx pour les pages 120 à 123 incluses du supplément.

Format txt ou word/libreoffice, à votre convenance.

les numéros de page à fournir sont les numéros figurant en haut des pages.
Et oui, je sais, dans le tome 1 il y a une bourde: il existe la page 144bis entre la 144 et la 145 ! Je ne débrouillerai avec ça...

Mis à jour il y a 5 ans

Commenter 17 commentaires

mofran

il y a 5 ans ( Modifié )

j'oserai jamais répondre a ton préambule, je te partage ce que je ressens comme un manque sur ADB > un dictionnaire...
quand quelqu'un vient poser une question, il arrive quand même qu'elle soit pas assez précise par manque de vocabulaire, ou même que la personne ne sache pas répondre par ce qu'il bute sur un terme,
du coup une section ressources, dictionnaire dans un onglet catalogues permettrait d'y déposer des dessins de réalisations, d'ouvrages, avec photos, vue 3D avec des légendes renvoyant dans l'idéal a une définition encyclopédique (trés trés phantasmé tout ca)
mais on est loin de ta proposition...
bonne question en tout cas

15 réponses

dneis

il y a 5 ans

mais on est loin de ta proposition...

Pas tant que ça. Car une fois que le dictionnaire Justin Storck sera facile à naviguer/utiliser, alors on pourra l'utiliser comme tel ! Et ce ne sont pas les illustrations qui manquent. Je ne connais pas plus complet.

Ps: pour info

mofran

il y a 5 ans ( Modifié )

merci a trente six seb d'avoir regroupé cette question, j'aime particulièrement la question de Tchabissi
et comprend la réponse de Boris Beaulant > techniquement c'est faisable. Sans dire que c'est facile. Mais pas insurmontable. Il y a pas mal de briques de logiciels libres qui pourraient être utilisées pour aider à ça >
si ta proposition est l'ingrédient principal qui permettrait via un onget recherche présent sur ADB de tomber sur l'info recherchée, ne faudrait il pas demander a Boris si le pdf suffira a faciliter suffisament cette évolution pour la rendre possible un jour? (tant qu'a participer a un projet autant qu'il serve a simplifier la vie de la communauté) j'aime le pdf version vacances déconnectées, au quotidien j'apprécie le clic direct

mofran

il y a 5 ans

par ce qu'en fait c'est un peu trop fourni le Strock (pour 95% des questions que se pose les visiteurs découvreurs, pour nommer "le morceau de bois qui sert a " il suffirait d'une 20aine de planches sur des themes généralistes pour commencer
mais je suis d'accord que Strock doit présider, c'est juste ma question: est ce cohabitable au sein d'une même recherche? et si éventuellement oui, alors a quelles conditions de mise en forme?

dneis

il y a 5 ans

MoFran dans ce cas, la version en ligne que je mentionne plus haut devrait te suffire.

justinstorck.free.fr/

Et je ne sais pas s'il existe un dictionnaire simple qui convienne à tout le monde. Chacun veut son dictionnaire avec un niveau de détail/technicité qui lui convienne. Cela a déjà été évoqué...

Ensuite, faire un pdf indexé est le plus simple et direct. Transformer cela en page web ou simplement en html est bien trop lourd car les illustrations sont très très nombreuses (et indispensables).

Je sais de quoi je parle, j'ai déjà farfouillé dans un certain nombre de livres sur Gallica et autres (voir ici). Et j'en ai réédité quelques uns. C'est un très gros boulot. Texte seul, ça va, mais avec images ça rend la tâche bien plus longue.

PS: il y a également des index/glossaires dans le Roubo ou le Jamin, mais étant plus courts, ils sont faciles à parcourir et ne nécessitent pas autant de travail.

mofran

il y a 5 ans

certainement, excuse moi de réagir de cette manière, bonne continuation

dneis

il y a 5 ans

MoFran y'a pas de souci, je ne t'en voulais pas. Je ne voulais pas être agressif.

mofran

il y a 5 ans

y a aucun soucis, je m'emballe sur des super idées qui résoudraient pleins de trucs, ca ne fonctionne bien sur pas comme ca, avec un Storck qui répond a la recherche ca sera déjà un pas énorme.
Je ne pense pas pouvoir être utile, essentiellement par manque de compréhéssion des logiques de classement.
Sit tu fais un pas a pas dédié avec un exercice de tuto, si j'y arrive (installations logicielles etc) je pourrai peut être me taper une tranche de Stork

dneis

il y a 5 ans

MoFran euh, il faut juste savoir ouvrir un fichier PDF, parcourir les pages et copier le texte des entrées à indexer dans un fichier texte, dans l'ordre alphabétique. Ensuite tu me le transmets ou alors tu complètes le framapad en ligne.

andrefy

il y a 5 ans

Bonjour,
je veux bien contribuer à l'édifice. J'ai chargé les deux tomes en pdf (50 Mo/fichier en effet), mais... ils sont vierges !
Plus exactement, c'est écrit... blanc sur blanc !
Je suis avec Foxit...
Que faire ?

dneis

il y a 5 ans

andrefy Merci beaucoup.
mince, mince mince. As-tu essayé un autre lecteur PDF ? Avec le lecteur intégré à ton navigateur ?

Peux tu essayer avec ces pdf et Foxit et me dire ?

J'ai testé avec pdfstudioviewer, okular et evince.

Je dois avoir des soucis avec la compression JBIG2 des images . Et les fichiers moins comprimés pèsent deux fois plus lourd

Dis moi si aucun de tes lecteur ne peut le lire...

andrefy

il y a 5 ans

OUI !!! Ça c'est bon !
Le problème des autres, c'est l'écriture en blanc ! Je peux sélectionner, je vais essayer de copier le texte..

andrefy

il y a 5 ans

Ah, c'est bon avec les liens que tu as mis en dessous !
Je vais essayer un peu ce soir, mais j'ai plein de choses à faire, je me débarrasse d'un véhicule demain...

dneis

il y a 5 ans

andrefy pense à t'inscrire sur le lien framacalc, pour éviter les doublons. Merci !

andrefy

il y a 5 ans

Oui, oui, mais peux-tu me dire pour le framapad :
tu veux qu'on écrive dessus ? Qu'on en fasse un autre ? On peut le faire sur n'importe quoi ?
Et dans ton exemple framapad, pourquoi n'as-tu pas les entrées avant la page 12 ?
Merci.

dneis

il y a 5 ans

andrefy j'ai complété les A entre 9 et 12, merci pour l'alerte.
Écris cela sur un fichier local de ton ordi, et tu copies sur le framapad quand tu as fini une lettre par exemple.
Mieux vaut un doublon local.

Merci à tous, je vois que cela avance.

dneis

il y a 5 ans

Pour clarifier les choses, voici ce que cela donnerait avec les premières entrées

Sachant qu'on peut déjà chercher dans le texte même — Sachant qu'on peut déjà chercher dans le texte mêm...

Connectez-vous pour ajouter un commentaire.

?

8 réponses

mofran

il y a 5 ans

une petite remontada, des motivés du clavier bienvennues

Commenter 1 commentaire

Neiru

il y a 5 ans

ça a bien avancé je trouve !
Le premier tome est fini, sur le second il reste la lettre S et le complément est avancé au 2/3

Connectez-vous pour ajouter un commentaire.

loub

il y a 5 ans

J'ai souvent eu du mal avec certaines définitions et pas toujours évident de les retrouver.
J'imaginais bien une catégorie lexique dans l'ADB, mais je comprends que ce soit compliqué à mettre en place et faire vivre.

Donc je veux bien apporter ma pierre à cette indexation. Je vais travailler sur le lien Gallica parce que je n'arrive pas à ouvrir tes PDF. Enfin si, mais je n'ai que des pages vierges...

Commenter 13 commentaires

dneis

il y a 5 ans ( Modifié )

Merci loub

fichue compression qui marche mal.

Quel lecteur pdf et quel système d'exploitation ?

Bon, voici de nouvelles versions:
Attention, c'est plus lourd ~80 MB/fichier

dneis.files.wo...tome1_tif-1.pdf
dneis.files.wo...tome2_tif-1.pdf
dneis.files.wo...suppl_tif-1.pdf

ça te permet de faire des copier coller des entrées, car il y a une couche de texte dans le pdf. Comme ça plus que les no de page à taper.

loub

il y a 5 ans ( Modifié )

Firefox et Foxit sous Windows.
Mais là avec tes nouveaux PDF, ça marche mieux.

8 réponses

mofran

il y a 5 ans

pareil tout ok

dneis

il y a 5 ans ( Modifié )

MoFran, loub ok.
C'est étrange, le tome 1 à 50MB:

marche sous Firefox (Windows et Linux), et Acrobat Reader (Windows)
ne marche pas avec Foxit Reader

Le tome 1 à 80MB:

pas de souci avec Foxit et Firefix,
marche pas avec Acrobat.

C'est pas clair cette histoire, il va falloir que je résolve ça.

Ps: vous embêtez pas à supprimer les virgules ou points lors des copier-coller, je ferai ça en deux coups de cuillère à pot.
Idem, le nombre d'espaces entre l'entrée et le numéro de page importe peu. Juste une ligne par entrée.

mofran

il y a 5 ans ( Modifié )

encore en phase de découverte de ce type de participation, retours:
sur Firefox, ca apparrait "bien" (mais c'est méchament coupé, par rapport a ce que j'imagine que Abby pourrait fournir c'est décevant )
j'utilise Wondershare PDFelement (ca l'air de pas être top du tout , je vais tenter de télécharger un soft dont tu fournis le nom) et le fond apparait recouvert de rouge , pas de possibilité de sélectioner du texte.
je me perds dans les comms pour retrouver les infos qui m'aideraient,
~~si tu pouvais remonter la liste d'inscription dans le post original~~ (edit je l'ai retrouvé) (peut être) reprendre les infos comment et avec quels programme ca fct dans une page wiki collée aux inscription, je serai tout content, bonne journée les storckeux

dneis

il y a 5 ans

MoFran

mais c'est méchament coupé,

si tu parles de la couche de texte OCR, c'est normal.
Mais ça n'empêche pas de faire une recherche dans le pdf pour trouver un mot. C'est sûr, pour une phrase entière si elle est coupée ça marchera moins bien.

Te casses pas la tête, si tu arrives à afficher le pdf d'une manière ou d'une autre. Il faut que j'arrive à faire un pdf lisible partout.

eprendre les infos comment et avec quels programme ca fct dans une page wiki collée aux inscription, je serai tout content, bonne journée les storckeux

MAJ du framacalc, vous pouvez reporter des erreurs ou succès de lecture pdf.

mofran

il y a 5 ans ( Modifié )

alors par ex
"Main-courante 476"
ou bien genre
"Main - courante 476 "
pour quand élargir le champ de réponse même si la recherche n'est pas 100% juste (dans un deuxième temps tu vas me dire)
errata 970 a retraiter plus tard séparrément?

mofran

il y a 5 ans

si tu parles de la couche de texte OCR, c'est normal.
Mais ça n'empêche pas de faire une recherche dans le pdf pour trouver un mot.

ok mais quand je vais l'utiliser j'aimerais pouvoir copier coller par ci par la sans devoir trop rustinner derrière, la lecture c'est une chose mais l'édification des masses a besoin d' outils aussi

dneis

il y a 5 ans

MoFran on y bosse avec LionelDraghi.

Pour info, certains lecteurs pdf permettent de sélectionner un rectangle de texte, ce qui permet d'éliminer le problème des deux colonnes mélangées.

mofran

il y a 5 ans

merci, bon we

dependancesbois

il y a 5 ans ( Modifié )

dneis dans le supplément ca par en c...s à partir de la page 171 !
Les pages sont inversées !
Je continue en tenant compte du numéro du haut de page mais faudra revoir l'ordre !
il manque la 172
y a 2 196 !
Après c'est bon.

1 réponse

dneis

il y a 5 ans

Oulala, oui en effet, c'est le bazar entre les pages 171 et 197.
Mais ce n'est pas moi qui ai mélangé les pages, c'est l'imprimeur !! Car c'est le même souci sur Gallica. Il faudra effectivement que je les remette dans l'ordre.

Déjà dans le tome 1 il y a une page 144 et une page 144bis !!

Ça va encore me donner du travail ça.

dneis

il y a 5 ans ( Modifié )

Attention, je viens de changer les liens ci dessus. Je les remets:

dneis.files.wo...tome1_tif-1.pdf
dneis.files.wo...tome2_tif-1.pdf
dneis.files.wo...suppl_tif-1.pdf

toujours des fichiers lourds (~80MB/tome)

ça donne un aperçu de ce que cela donnera.

Il manque juste la lettre C pour le tome 1 (et à géré un décalage de no de page de 1 après la page 144).
il y a également des pages à réordonner dans le supplément.

On touche au but !

Connectez-vous pour ajouter un commentaire.

benoit96

il y a 5 ans

S’il en reste je veux bien faire quelques pages !

Commenter 4 commentaires

dneis

il y a 5 ans

Oui, regarde le framacalc, il reste au moins la lettre C du tome 1. Merci !

benoit96

il y a 5 ans ( Modifié )

Ok je m’en occupe !

2 réponses

dneis

il y a 5 ans

si tu le fais, pense à t'inscrire dans le framacalc, pour éviter que quelqu'un d'autre le fasse en même temps.

lite.framacalc...8b-justinstorck

benoit96

il y a 5 ans

C'est fait, je finis au plus tard ce week-end

Connectez-vous pour ajouter un commentaire.

dependancesbois

il y a 5 ans

Oups j'étais passé à côté !
Inscrit !
Je fais ça au plus tôt !

Commenter 1 commentaire

dneis

il y a 5 ans

Merci dependancesbois !

Connectez-vous pour ajouter un commentaire.

etiennedesthuilliers

il y a 5 ans

bonjour
je connais bien ce dictionnaire il a ses limites , il est facilement consultable , je préférai une edition critique car il n est pas d'une grande utilité pour les gens de metiers et il y a beaucoup de chose a revoir
vial devait faire un supplement ce qui n' a pas été fait ,seulement un nouvel ouvrage a été publié ouvrage qui n est pas la suite de ce dictionnaire
ce travail reste a faire
etienne

Neiru

il y a 5 ans

J'en suis, très probablement avec un rendement faible, mais si onb est nombreux avec un faible rendement ça sera aussi très bien !

Question annexe : que compte tu faire de cet index par la suite ?

Sinon, comme le suggère titimaster ça doit être jouable avec ce qu'on appelle un parser, on doit pouvoir extraire tous les mots du dictionnaires.
Ils sont facilement identifiable car ils sont en majuscule (avec éventulement des caractère style tiret) suivi d'une virgule et d'un espace, par exemple :"ABAT-JOUR, "

Restera "plus qu'à" associer un numéro de page

Commenter 3 commentaires

dneis

il y a 5 ans ( Modifié )

Merci.

Question annexe : que compte tu faire de cet index par la suite ?

Il sera intégré au PDF, dans la barre de navigation généralement située à gauche.
Pour l'instant il n'y a que les lettres de l'alphabet. Je rajouterai les entrée, à un niveau inférieur.

Comme la table des matières de ce PDF par exemple. Que l'on pourra déployer, lettre par lettre. Et chercher dedans le mot (qui ne figurera là qu'une fois)

Neiru

il y a 5 ans

Ok, je me demandais s'il y avait la possibilité de repousser ça chez Gallica

QuentinD

il y a 5 ans

Je veux bien faire quelques pages aussi !

Connectez-vous pour ajouter un commentaire.

titimaster

il y a 5 ans

Peut être faire ça avec un peu de programmation ?

Commenter 15 commentaires

dneis

il y a 5 ans

Ah, il me faudrait alors une couche de texte dans le PDF qui soit plus propre. Pour l'instant c'est pas top et je pourrai pas faire mieux.

Deux soucis:

détecter un mot comme étant une entrée, sans erreur;
savoir dans quelle page on est.

Non, ça me paraît trop complexe dans l'état actuel.

Ci dessous, l'allure piteuse de la couche de texte.

ABATAGE,

subs., masc.;

s'écrit également

ABATTAGE Î. ACtion d’abattre les arbres.
L’ABATAGE Se fait pour nos régions pendant l'hiver,
à partir du mois de novembre ; on choisit de préfé-

nues

ai

y Tailloir (voy. ce mot). Suivant le
style, les rives de lABAQUE sont
unies ou moulurées, quelquefois

ABAQUES circulaires.

LL

ABAQUE, subs.masc.Tablette formant
la partie
supérieure d’un chapiteau et supportant l’architrave
_
de l’entablement; on dit également

ABAT

10

ABAT

rence cette époque de l’année, parce qu’à ce moment
les arbres n’ont plus de sève et que de ce fait la des-

sur le dessus de la table et du congé poussé sur
l’ABATTANT,; le centre en est donné par l’axe du nœud

LionelDraghi

il y a 5 ans ( Modifié )

Hello,

et pour bien comprendre, ce texte provient d'un OCR que tu as passé toi même sur l'image, ou c'est celui des pdfs que tu charges?

Si ça te paraît utile, je peux essayer sur un extrait de refaire l'OCR avec les outils abbyy.

Vu la mise en page, c'est pas du gâteau, mais dans ton exemple, je ne comprend pas comment il peut trouver autant de texte entre :
on choisit de préfé- (fin page 9)
et :
rence cette époque de l’année, parce qu’à ce moment (début page 10)

7 réponses

dneis

il y a 5 ans

Les détails:

la BnF n'a pas fait d'OCR sur cet ouvrage.
(et même quand cela est fait, j'ai l'impression que l'on n'a pas la couche de texte lorsque l'on télécharge le pdf fourni par Gallica);
donc j'ai utilisé tesseract pour faire l'OCR.
et pdftotext pour vous montrer le texte. En réalité c'est un poil plus complexe... Donc il ne fautp as trop se fier à l'exemple donné ci-dessus.

Le fait que ce soit en deux colonnes n'aide pas pour avoir une OCR propre. Le texte des deux colonnes paraît donc mélangé dans la sortie texte pur. En vrai la couche de texte est positionnée au bon endroit derrière l'image du PDF.

C'est pourquoi je pense qu'il ne faut pas s'acharner à trouver une solution automatique programmée. En tout cas, cela me semble nécessiter beaucoup plus d'efforts et une paire d'yeux qui parcours le document en apprendra plus (avantage collatéral !).

Tu peux essayer abbyy, je suis curieux de voir la différence.

LionelDraghi

il y a 5 ans

Oui, je donnerai un coup d'essais dès que possible sur mon PC de boulot.
Je suis (comme toi je crois) sous Linux chez moi, et donc si je devais faire, j'utiliserais sans doute une solution basée sur Tesseract.
De mémoire, cette solution marche bien mais est basée sur une ancienne techno HP, il me semble.
Je sais par mon job qu'il y a une R&D intensive sur ces sujets, avec des applications généralement business (documents administratifs, factures, etc.), qui présentent leurs propres défis du point de vue de l'OCR (texte dans des cadres), mais j'ai vu également de la recherche sur de la numérisation de vieux documents manuscrits d'états-civil ou autre.
Bref, tout ça pour dire qu'une solution commerciale peut (mais je n'en sais rien a priori) donner de meilleurs résultats.

dneis

il y a 5 ans

LionelDraghi tesseract est toujours en développement.

Tesseract vs Abbyy ... J'ai l'impression -rapide- que c'est kif kif.

Mais ça vaut l'coup d'essayer.

Toutefois, cela ne résoudra pas le problème de création automatique d'index. Car :

comment définir une entrée ? (texte en majuscules ??, ça ne suffit pas.)
comment récupérer le no de la page de l'entrée ? trouver le chiffre le plus proche ??

Je pense qu'à la main, ça ira plus vite. Je viens de faire toutes les entrées A et B en un peu plus d'une heure. Avec le copier-coller, ça va vite. Il ne reste plus que les no de page à taper. (et encore, je le fais pas colonne avec Geany)

LionelDraghi

il y a 5 ans

C'est pas faux, pas la peine de perdre du temps.
(mais dès que j'ai récupéré l'usage de ma licence Abby, je fais quand même un test, pour le fun!)

LionelDraghi

il y a 5 ans

J'ai passé le tome 1 à la moulinette de Abby Fine Reader 15.

J'ai eu un popup disant son incertitude sur les langues des pages 5, 193, 245.
La page 5, à la limite, c'est l'index des abréviations, mais les deux autres, je ne vois rien de spécial.

Je copie colle ici la section "Abatage", qui donc s'étale sur les page 9 et 10.

ABATAGE, subs., masc.; s’écrit également
abattage I. Action d’abattre les arbres.
L’abatage se fait pour nos régions pendant l’hiver,
à partir du mois de novembre ; on choisit de préfé-
ABAT 10 ABAT
rence cette époque de l’année, parce qu’à ce moment les arbres n’ont plus de sève et que de ce fait la des sication du bois est plus hâtive. Le bois d’un arbre abattu en pleine sève serait plus exposé à la ver moulure. (Voy. Arbre) IL Charp. Les charpentiers disent qu’ils font un abatage soit lorsqu’ils meuvent successivement cha cun des leviers qui font agir une chèvre, soit lors que, pour lever une forte pièce de bois, ils font avec un levier une pesée sous le pied de cette pièce pour y faire glisser une cale de bois.

Il y a quelques typos (le II. est reconnu comme IL), espaces en trop, saut de ligne en moins.
Sinon c'est pas trop mal, il a bien compris que le texte était en deux colonnes.

dneis : est-ce que tu veux le pdf complet?

mofran

il y a 5 ans

ca l'air bien avec Abby, par ailleurs, j'ai téléchargé via tes liens les deux pdfs mais ils sont vides

j'attends que tu dises quoi dneis

dneis

il y a 5 ans

MoFran j'ai mis de nouveaux liens dans la réponse de loub.

benjams

il y a 5 ans ( Modifié )

A vue de nez on doit pouvoir faire mieux en programmant... parce que là on est sur une grosse quantité de boulot... il y a au moins pour 1 an de boulot 1h/jour (1/24 Homme.an, j'aime cette unité ), c'est pas mal. Si on arrive pas a le faire en programmant je doute de l'utilité de la manip, autant chercher alphabétiquement comme dans un bon vieux dico du coup

5 réponses

dneis

il y a 5 ans ( Modifié )

Sûrement, on doit pouvoir le programmer.
Mais combien de temps va prendre le développement ? Et combien de temps on perd à essayer de se dire qu'on pourrait le faire en programmant et en en discutant ?

Je viens de faire 50 pages en 1 heure.
Si on extrapole aux 1500 pages, cela fait 30h.
Donc si on trouve 30 personnes, c'est plié la semaine prochaine.
Donc non, il n'y en a pas pour 1 an à 1h/j.

donc inscrivez vous !
lite.framacalc...8b-justinstorck

et au boulot
annuel2.framap...stinstorck-9m8g

benjams

il y a 5 ans

Sapristi c'est rapide à ce point ? Si je faisais preuve de mauvais esprit je dirais qu'il n'y a pas besoin d'aide du coup

dneis

il y a 5 ans ( Modifié )

benjams !!

Niouniou

il y a 5 ans

benjams dneis ne fait pas rien pendant ce temps, jète un oeil à ses articles sur les outils manuels, tu verras qu'il ne s'ennuie pas!

benjams

il y a 5 ans

Rholala on ne peut vraiment plus rien dire de nos jours ma p'tite dame

Connectez-vous pour ajouter un commentaire.

Connectez-vous pour ajouter votre réponse.

4 coups de coeur

1 019 vues

8 réponses

3 votes

Publications associées

0 collection

Licence

Le contenu de cette page est mis à disposition selon les termes de la Licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International.

Autres questions de dneis

Guillaume debout: quel usage et quel utilité ?

2 réponses

Outillage mystérieux: tiers-points meulés, boîte de poudre, baguette enrubannée ?

5 réponses

Voir la suite...

Navigation

1.

Réponse de dneis

il y a 5 ans
3

1
2.

Réponse de mofran

il y a 5 ans
1

1
3.

Réponse de loub

il y a 5 ans
13

1
4.

Réponse de benoit96

il y a 5 ans
4

0
5.

Réponse de dependancesbois

il y a 5 ans
1

0
6.

Réponse de etiennedesthuilliers

il y a 5 ans
0

0
7.

Réponse de Neiru

il y a 5 ans
3

0
8.

Réponse de titimaster

il y a 5 ans
15

0

j'oserai jamais répondre a ton préambule, je te partage ce que je ressens comme un manque sur ADB > un dictionnaire...
quand quelqu'un vient poser une question, il arrive quand même qu'elle soit pas assez précise par manque de vocabulaire, ou même que la personne ne sache pas répondre par ce qu'il bute sur un terme,
du coup une section ressources, dictionnaire dans un onglet catalogues permettrait d'y déposer des dessins de réalisations, d'ouvrages, avec photos, vue 3D avec des légendes renvoyant dans l'idéal a une définition encyclopédique (trés trés phantasmé tout ca)
mais on est loin de ta proposition...
bonne question en tout cas
mais on est loin de ta proposition...

Pas tant que ça. Car une fois que le dictionnaire Justin Storck sera facile à naviguer/utiliser, alors on pourra l'utiliser comme tel ! Et ce ne sont pas les illustrations qui manquent. Je ne connais pas plus complet.

Ps: pour info

lairdubois.fr/...tionnaires.html
merci a trente six seb d'avoir regroupé cette question, j'aime particulièrement la question de Tchabissi
et comprend la réponse de Boris Beaulant > techniquement c'est faisable. Sans dire que c'est facile. Mais pas insurmontable. Il y a pas mal de briques de logiciels libres qui pourraient être utilisées pour aider à ça >
si ta proposition est l'ingrédient principal qui permettrait via un onget recherche présent sur ADB de tomber sur l'info recherchée, ne faudrait il pas demander a Boris si le pdf suffira a faciliter suffisament cette évolution pour la rendre possible un jour? (tant qu'a participer a un projet autant qu'il serve a simplifier la vie de la communauté) j'aime le pdf version vacances déconnectées, au quotidien j'apprécie le clic direct
par ce qu'en fait c'est un peu trop fourni le Strock (pour 95% des questions que se pose les visiteurs découvreurs, pour nommer "le morceau de bois qui sert a " il suffirait d'une 20aine de planches sur des themes généralistes pour commencer
mais je suis d'accord que Strock doit présider, c'est juste ma question: est ce cohabitable au sein d'une même recherche? et si éventuellement oui, alors a quelles conditions de mise en forme?
MoFran dans ce cas, la version en ligne que je mentionne plus haut devrait te suffire.

justinstorck.free.fr/

Et je ne sais pas s'il existe un dictionnaire simple qui convienne à tout le monde. Chacun veut son dictionnaire avec un niveau de détail/technicité qui lui convienne. Cela a déjà été évoqué...

Ensuite, faire un pdf indexé est le plus simple et direct. Transformer cela en page web ou simplement en html est bien trop lourd car les illustrations sont très très nombreuses (et indispensables).

Je sais de quoi je parle, j'ai déjà farfouillé dans un certain nombre de livres sur Gallica et autres (voir ici). Et j'en ai réédité quelques uns. C'est un très gros boulot. Texte seul, ça va, mais avec images ça rend la tâche bien plus longue.

PS: il y a également des index/glossaires dans le Roubo ou le Jamin, mais étant plus courts, ils sont faciles à parcourir et ne nécessitent pas autant de travail.
certainement, excuse moi de réagir de cette manière, bonne continuation
MoFran y'a pas de souci, je ne t'en voulais pas. Je ne voulais pas être agressif.
y a aucun soucis, je m'emballe sur des super idées qui résoudraient pleins de trucs, ca ne fonctionne bien sur pas comme ca, avec un Storck qui répond a la recherche ca sera déjà un pas énorme.
Je ne pense pas pouvoir être utile, essentiellement par manque de compréhéssion des logiques de classement.
Sit tu fais un pas a pas dédié avec un exercice de tuto, si j'y arrive (installations logicielles etc) je pourrai peut être me taper une tranche de Stork
MoFran euh, il faut juste savoir ouvrir un fichier PDF, parcourir les pages et copier le texte des entrées à indexer dans un fichier texte, dans l'ordre alphabétique. Ensuite tu me le transmets ou alors tu complètes le framapad en ligne.
Bonjour,
je veux bien contribuer à l'édifice. J'ai chargé les deux tomes en pdf (50 Mo/fichier en effet), mais... ils sont vierges !
Plus exactement, c'est écrit... blanc sur blanc !
Je suis avec Foxit...
Que faire ?
andrefy Merci beaucoup.
mince, mince mince. As-tu essayé un autre lecteur PDF ? Avec le lecteur intégré à ton navigateur ?

Peux tu essayer avec ces pdf et Foxit et me dire ?

J'ai testé avec pdfstudioviewer, okular et evince.

Je dois avoir des soucis avec la compression JBIG2 des images . Et les fichiers moins comprimés pèsent deux fois plus lourd

Dis moi si aucun de tes lecteur ne peut le lire...
OUI !!! Ça c'est bon !
Le problème des autres, c'est l'écriture en blanc ! Je peux sélectionner, je vais essayer de copier le texte..
Ah, c'est bon avec les liens que tu as mis en dessous !
Je vais essayer un peu ce soir, mais j'ai plein de choses à faire, je me débarrasse d'un véhicule demain...
andrefy pense à t'inscrire sur le lien framacalc, pour éviter les doublons. Merci !
Oui, oui, mais peux-tu me dire pour le framapad :
tu veux qu'on écrive dessus ? Qu'on en fasse un autre ? On peut le faire sur n'importe quoi ?
Et dans ton exemple framapad, pourquoi n'as-tu pas les entrées avant la page 12 ?
Merci.
andrefy j'ai complété les A entre 9 et 12, merci pour l'alerte.
Écris cela sur un fichier local de ton ordi, et tu copies sur le framapad quand tu as fini une lettre par exemple.
Mieux vaut un doublon local.

Merci à tous, je vois que cela avance.
Pour clarifier les choses, voici ce que cela donnerait avec les premières entrées
ça a bien avancé je trouve !
Le premier tome est fini, sur le second il reste la lettre S et le complément est avancé au 2/3
Merci loub

fichue compression qui marche mal.

Quel lecteur pdf et quel système d'exploitation ?

Bon, voici de nouvelles versions:
Attention, c'est plus lourd ~80 MB/fichier

dneis.files.wo...tome1_tif-1.pdf
dneis.files.wo...tome2_tif-1.pdf
dneis.files.wo...suppl_tif-1.pdf

ça te permet de faire des copier coller des entrées, car il y a une couche de texte dans le pdf. Comme ça plus que les no de page à taper.
Firefox et Foxit sous Windows.
Mais là avec tes nouveaux PDF, ça marche mieux.
MoFran, loub ok.
C'est étrange, le tome 1 à 50MB:

marche sous Firefox (Windows et Linux), et Acrobat Reader (Windows)

ne marche pas avec Foxit Reader

Le tome 1 à 80MB:

pas de souci avec Foxit et Firefix,

marche pas avec Acrobat.

C'est pas clair cette histoire, il va falloir que je résolve ça.

Ps: vous embêtez pas à supprimer les virgules ou points lors des copier-coller, je ferai ça en deux coups de cuillère à pot.
Idem, le nombre d'espaces entre l'entrée et le numéro de page importe peu. Juste une ligne par entrée.
encore en phase de découverte de ce type de participation, retours:
sur Firefox, ca apparrait "bien" (mais c'est méchament coupé, par rapport a ce que j'imagine que Abby pourrait fournir c'est décevant )
j'utilise Wondershare PDFelement (ca l'air de pas être top du tout , je vais tenter de télécharger un soft dont tu fournis le nom) et le fond apparait recouvert de rouge , pas de possibilité de sélectioner du texte.
je me perds dans les comms pour retrouver les infos qui m'aideraient,
~~si tu pouvais remonter la liste d'inscription dans le post original~~ (edit je l'ai retrouvé) (peut être) reprendre les infos comment et avec quels programme ca fct dans une page wiki collée aux inscription, je serai tout content, bonne journée les storckeux
MoFran

mais c'est méchament coupé,

si tu parles de la couche de texte OCR, c'est normal.
Mais ça n'empêche pas de faire une recherche dans le pdf pour trouver un mot. C'est sûr, pour une phrase entière si elle est coupée ça marchera moins bien.

Te casses pas la tête, si tu arrives à afficher le pdf d'une manière ou d'une autre. Il faut que j'arrive à faire un pdf lisible partout.

eprendre les infos comment et avec quels programme ca fct dans une page wiki collée aux inscription, je serai tout content, bonne journée les storckeux

MAJ du framacalc, vous pouvez reporter des erreurs ou succès de lecture pdf.
alors par ex
"Main-courante 476"
ou bien genre
"Main - courante 476 "
pour quand élargir le champ de réponse même si la recherche n'est pas 100% juste (dans un deuxième temps tu vas me dire)
errata 970 a retraiter plus tard séparrément?
si tu parles de la couche de texte OCR, c'est normal.
Mais ça n'empêche pas de faire une recherche dans le pdf pour trouver un mot.

ok mais quand je vais l'utiliser j'aimerais pouvoir copier coller par ci par la sans devoir trop rustinner derrière, la lecture c'est une chose mais l'édification des masses a besoin d' outils aussi
MoFran on y bosse avec LionelDraghi.

Pour info, certains lecteurs pdf permettent de sélectionner un rectangle de texte, ce qui permet d'éliminer le problème des deux colonnes mélangées.
dneis dans le supplément ca par en c...s à partir de la page 171 !
Les pages sont inversées !
Je continue en tenant compte du numéro du haut de page mais faudra revoir l'ordre !
il manque la 172
y a 2 196 !
Après c'est bon.
Oulala, oui en effet, c'est le bazar entre les pages 171 et 197.
Mais ce n'est pas moi qui ai mélangé les pages, c'est l'imprimeur !! Car c'est le même souci sur Gallica. Il faudra effectivement que je les remette dans l'ordre.

Déjà dans le tome 1 il y a une page 144 et une page 144bis !!

Ça va encore me donner du travail ça.
Attention, je viens de changer les liens ci dessus. Je les remets:

dneis.files.wo...tome1_tif-1.pdf
dneis.files.wo...tome2_tif-1.pdf
dneis.files.wo...suppl_tif-1.pdf

toujours des fichiers lourds (~80MB/tome)

ça donne un aperçu de ce que cela donnera.

Il manque juste la lettre C pour le tome 1 (et à géré un décalage de no de page de 1 après la page 144).

il y a également des pages à réordonner dans le supplément.

On touche au but !
Oui, regarde le framacalc, il reste au moins la lettre C du tome 1. Merci !
si tu le fais, pense à t'inscrire dans le framacalc, pour éviter que quelqu'un d'autre le fasse en même temps.

lite.framacalc...8b-justinstorck
Merci.

Question annexe : que compte tu faire de cet index par la suite ?

Il sera intégré au PDF, dans la barre de navigation généralement située à gauche.
Pour l'instant il n'y a que les lettres de l'alphabet. Je rajouterai les entrée, à un niveau inférieur.

Comme la table des matières de ce PDF par exemple. Que l'on pourra déployer, lettre par lettre. Et chercher dedans le mot (qui ne figurera là qu'une fois)
Ok, je me demandais s'il y avait la possibilité de repousser ça chez Gallica
Ah, il me faudrait alors une couche de texte dans le PDF qui soit plus propre. Pour l'instant c'est pas top et je pourrai pas faire mieux.

Deux soucis:

détecter un mot comme étant une entrée, sans erreur;

savoir dans quelle page on est.

Non, ça me paraît trop complexe dans l'état actuel.

Ci dessous, l'allure piteuse de la couche de texte.

ABATAGE,

subs., masc.;

s'écrit également

ABATTAGE Î. ACtion d’abattre les arbres.
L’ABATAGE Se fait pour nos régions pendant l'hiver,
à partir du mois de novembre ; on choisit de préfé-

nues

ai

y Tailloir (voy. ce mot). Suivant le
style, les rives de lABAQUE sont
unies ou moulurées, quelquefois

ABAQUES circulaires.

LL

ABAQUE, subs.masc.Tablette formant
la partie
supérieure d’un chapiteau et supportant l’architrave
_
de l’entablement; on dit également

ABAT

10

ABAT

rence cette époque de l’année, parce qu’à ce moment
les arbres n’ont plus de sève et que de ce fait la des-

sur le dessus de la table et du congé poussé sur
l’ABATTANT,; le centre en est donné par l’axe du nœud
Hello,

et pour bien comprendre, ce texte provient d'un OCR que tu as passé toi même sur l'image, ou c'est celui des pdfs que tu charges?

Si ça te paraît utile, je peux essayer sur un extrait de refaire l'OCR avec les outils abbyy.

Vu la mise en page, c'est pas du gâteau, mais dans ton exemple, je ne comprend pas comment il peut trouver autant de texte entre :
on choisit de préfé- (fin page 9)
et :
rence cette époque de l’année, parce qu’à ce moment (début page 10)
Les détails:

la BnF n'a pas fait d'OCR sur cet ouvrage.

(et même quand cela est fait, j'ai l'impression que l'on n'a pas la couche de texte lorsque l'on télécharge le pdf fourni par Gallica);

donc j'ai utilisé tesseract pour faire l'OCR.

et pdftotext pour vous montrer le texte. En réalité c'est un poil plus complexe... Donc il ne fautp as trop se fier à l'exemple donné ci-dessus.

Le fait que ce soit en deux colonnes n'aide pas pour avoir une OCR propre. Le texte des deux colonnes paraît donc mélangé dans la sortie texte pur. En vrai la couche de texte est positionnée au bon endroit derrière l'image du PDF.

C'est pourquoi je pense qu'il ne faut pas s'acharner à trouver une solution automatique programmée. En tout cas, cela me semble nécessiter beaucoup plus d'efforts et une paire d'yeux qui parcours le document en apprendra plus (avantage collatéral !).

Tu peux essayer abbyy, je suis curieux de voir la différence.
Oui, je donnerai un coup d'essais dès que possible sur mon PC de boulot.
Je suis (comme toi je crois) sous Linux chez moi, et donc si je devais faire, j'utiliserais sans doute une solution basée sur Tesseract.
De mémoire, cette solution marche bien mais est basée sur une ancienne techno HP, il me semble.
Je sais par mon job qu'il y a une R&D intensive sur ces sujets, avec des applications généralement business (documents administratifs, factures, etc.), qui présentent leurs propres défis du point de vue de l'OCR (texte dans des cadres), mais j'ai vu également de la recherche sur de la numérisation de vieux documents manuscrits d'états-civil ou autre.
Bref, tout ça pour dire qu'une solution commerciale peut (mais je n'en sais rien a priori) donner de meilleurs résultats.
LionelDraghi tesseract est toujours en développement.

Tesseract vs Abbyy ... J'ai l'impression -rapide- que c'est kif kif.

Mais ça vaut l'coup d'essayer.

Toutefois, cela ne résoudra pas le problème de création automatique d'index. Car :

comment définir une entrée ? (texte en majuscules ??, ça ne suffit pas.)

comment récupérer le no de la page de l'entrée ? trouver le chiffre le plus proche ??

Je pense qu'à la main, ça ira plus vite. Je viens de faire toutes les entrées A et B en un peu plus d'une heure. Avec le copier-coller, ça va vite. Il ne reste plus que les no de page à taper. (et encore, je le fais pas colonne avec Geany)
C'est pas faux, pas la peine de perdre du temps.
(mais dès que j'ai récupéré l'usage de ma licence Abby, je fais quand même un test, pour le fun!)
J'ai passé le tome 1 à la moulinette de Abby Fine Reader 15.

J'ai eu un popup disant son incertitude sur les langues des pages 5, 193, 245.
La page 5, à la limite, c'est l'index des abréviations, mais les deux autres, je ne vois rien de spécial.

Je copie colle ici la section "Abatage", qui donc s'étale sur les page 9 et 10.

ABATAGE, subs., masc.; s’écrit également
abattage I. Action d’abattre les arbres.
L’abatage se fait pour nos régions pendant l’hiver,
à partir du mois de novembre ; on choisit de préfé-
ABAT 10 ABAT
rence cette époque de l’année, parce qu’à ce moment les arbres n’ont plus de sève et que de ce fait la des sication du bois est plus hâtive. Le bois d’un arbre abattu en pleine sève serait plus exposé à la ver moulure. (Voy. Arbre) IL Charp. Les charpentiers disent qu’ils font un abatage soit lorsqu’ils meuvent successivement cha cun des leviers qui font agir une chèvre, soit lors que, pour lever une forte pièce de bois, ils font avec un levier une pesée sous le pied de cette pièce pour y faire glisser une cale de bois.

Il y a quelques typos (le II. est reconnu comme IL), espaces en trop, saut de ligne en moins.
Sinon c'est pas trop mal, il a bien compris que le texte était en deux colonnes.

dneis : est-ce que tu veux le pdf complet?
ca l'air bien avec Abby, par ailleurs, j'ai téléchargé via tes liens les deux pdfs mais ils sont vides

j'attends que tu dises quoi dneis
A vue de nez on doit pouvoir faire mieux en programmant... parce que là on est sur une grosse quantité de boulot... il y a au moins pour 1 an de boulot 1h/jour (1/24 Homme.an, j'aime cette unité ), c'est pas mal. Si on arrive pas a le faire en programmant je doute de l'utilité de la manip, autant chercher alphabétiquement comme dans un bon vieux dico du coup
Sûrement, on doit pouvoir le programmer.
Mais combien de temps va prendre le développement ? Et combien de temps on perd à essayer de se dire qu'on pourrait le faire en programmant et en en discutant ?

Je viens de faire 50 pages en 1 heure.
Si on extrapole aux 1500 pages, cela fait 30h.
Donc si on trouve 30 personnes, c'est plié la semaine prochaine.
Donc non, il n'y en a pas pour 1 an à 1h/j.

donc inscrivez vous !
lite.framacalc...8b-justinstorck

et au boulot
annuel2.framap...stinstorck-9m8g
Sapristi c'est rapide à ce point ? Si je faisais preuve de mauvais esprit je dirais qu'il n'y a pas besoin d'aide du coup
benjams dneis ne fait pas rien pendant ce temps, jète un oeil à ses articles sur les outils manuels, tu verras qu'il ne s'ennuie pas!
Rholala on ne peut vraiment plus rien dire de nos jours ma p'tite dame

dneis · Accepted Answer · 2021-03-23 11:51:32

Je remercie infiniment tous ceux qui ont contribué à lister les entrées du dictionnaire. andrefy dependancesbois benoit96 MoFran loub Neiru Eric78 Niouniou . J'espère n'avoir oublié personne.

Je voulais mettre les pdf dans la section plans du présent site, malheureusement la taille maximale admissible est de 60 MB.

En attendant, voici les liens vers les fichiers:

~80 MB par tome.

La couche de texte OCR n'est pas encore parfaite. J'y travaille avec LionelDraghi .

Lecture du pdf

J'ai visiblement encore quelques problèmes de création de pdf car ils ne sont pas lisibles sur tous les lecteurs pdf et dans tous les systèmes d'exploitation.

Bref, si les pages sont blanches, essayez un autre lecteur pdf ou un autre navigateur pour l'afficher. Pour l'instant, je ne peux rien faire d'autre !

Détails techniques sur la création des pdf

Voici dans les grandes lignes les étapes pour la création de ces pdf:

récupérer les images en résolution native (400dpi) sur Gallica. En effet, le pdf que l'on peut télécharger n'est qu'en 72dpi. Il faut donc utiliser cette astuce;
transformer les JPG couleur en TIF noir et blanc (avec graphicsmagick, bien plus rapide que ImageMagick). La compression JBIG2 permet éventuellement de diviser par 2 environ le poids des fichiers;
faire une reconnaissance de caractères sur les images (Tesseract ou autre ...);
construire le fichier PDF:
- conversion TIF vers PDF (tiff2pdf),
- ajout de la couche de texte OCR (qpdf),
- ajout des signets/entrées au pdf (cpdf).

Plus de détails dans ces articles: premier, second.

Taille des fichiers

Bref, chaque tome fait environ 1 GB en JPG natif, on arrive à moins de 100 MB en passant en noir et blanc sans perte de qualité autre que le seuillage N&B. Soit un facteur 10.

Tome	1	2	Suppl.
JPG natif	900 MB	1.0 GB	1.1 GB
TIF N&B	92 MB	75 MB	82 MB
JBIG2 N&B	53 MB	38 MB	46 MB
couche texte	3.7MB	3.5 MB	3.7 MB

(je me permets de proposer a Boris Beaulant de lire ce fil, peut être pourra t'il proposer quelque chose?)
Quel outil nous conseillerais tu pour profiter pleinement de l'outil recherche lié a ce pdf retravaillé? en effet dans firefox, ~~la fonction recherche n'aparait pas.~~ (la fct signet par lettre apparait bien , mais n'est pas super pratique, pas de recherche classique)

merci a toi d'avoir porté le projet
En effet, la fonction de recherche dans les signets n'est pas présente dans tous les lecteurs pdf.

Elle est présente dans (liste sera mise à jour):

okular

Elle n'est pas présente dans:

le lecteur intégré à Firefox

evince

Préambule

Contexte

Demande d'aide

Organisation

Qui fait quoi ?

Comment faire en pratique ?

Comment nommer les fichiers d'entrées à transmettre ?

8 réponses

Lecture du pdf

Détails techniques sur la création des pdf

Taille des fichiers

Publications associées

Tags

Licence