Following the whole discussion about the #Washington #post I would like to bring up the #s3 bucket https://wp-stat.s3.amazonaws.com/ The folder pagestore contains #PDF files from 2015 until today with their #newspaper. run "aws s3 sync --no-sign-request s3://wp-stat/pagestore/ ." to download your personal #backup!
I wanted to point out the irony of beeing #owned by #AWS and beeing #pwned the same time!
Following the whole discussion about the #Washington #post I would like to bring up the #s3 bucket https://wp-stat.s3.amazonaws.com/ The folder pagestore contains #PDF files from 2015 until today with their #newspaper. run "aws s3 sync --no-sign-request s3://wp-stat/pagestore/ ." to download your personal #backup!
I wanted to point out the irony of beeing #owned by #AWS and beeing #pwned the same time!
Comment faire pour que les documents d'identité, que nous devons scanner et retravailler au format #PDF dans le cadre de la dématérialisation, ne soient pas usurpés et détournés à des fins pouvant nuire ?
Notre plume invitée du jour, Eve Demazière, nous explique, sur le Framablog, comment partager des fichiers PDF sans crainte : https://framablog.org/2026/02/04/retravaillez-vos-pdfs-sans-crainte/
The lossless data compression fairies are having fun with me today...
- Scan 8.5" x 11" document at 1200dpi @ greyscale
- -> 60 MiB PNG, thank you
- Open PNG in GIMP, select a good threshold point, convert to 1bpp
- -> 514 KiB PNG
- Wait... 116:1 compression from 8-bit PNG to 1-bit PNG? HOW??
- convert to pdf
- "Warning, this file is really huge and may actually be a decompression bomb" lol, ok.
- -> 515 KiB PDF, nice
ocrmypdf foo.pdf document.pdf- -> 194 KiB PDF
- WHAT? HOW?!?
pdfimages -png document.pdf foo- -> 514 KiB PNG
- WHAT IS HAPPENING?!?
#PDF #PNG #Compression #greyscale
P.S., I found out that by default, ocrmypdf uses (lossless) #JBIG2 compression. That's why it was so well compressed. Also, the resultant PNG file at the end (which was basically the same PNG file that went into the PDF) was converted from JBIG — pdfimages converts images, it doesn't extract them in their natively stored format (but a -list will show you what the native format is). Also, I think pdfimages -all will just export the native format, whatever it is, but I haven't tried that yet.
The recording of my #FOSDEM talk about #okular is at https://video.fosdem.org/2026/h2215/EKJHEB-okular-document-viewer.av1.webm #KDE #PDF #freesoftware
The recording of my #FOSDEM talk about #okular is at https://video.fosdem.org/2026/h2215/EKJHEB-okular-document-viewer.av1.webm #KDE #PDF #freesoftware
Source: https://www.arthurperret.fr/veille/2026-02-04-pandoc-dans-le-navigateur.html (Pandoc dans le navigateur)
- https://github.com/jgm/pandoc/releases/tag/3.9 (2026-02-04, Starting with this release, pandoc can be compiled to WASM, making it
possible to use pandoc in the browser. A full-featured GUI interface is provided at https://pandoc.org/app)
Pandoc est désormais utilisable via une application web officielle.
Attention, cliquer sur le lien ci-dessus implique de charger 50 Mo de données : normal, puisque la page contient tout Pandoc !
On parle ici d’un fantastique convertisseur de fichiers, que j’utilise personnellement pour rédiger confortablement tout mon travail dans un format texte adapté à mes besoins d’écriture scientifique et ensuite exporter mes fichiers dans différents formats (HTML, PDF via LaTeX, ODT, docx, EPUB…).
Pandoc s’utilise normalement en ligne de commande, un environnement qui fait parfois peur aux néophytes (ce qui m’avait motivé à écrire un tutoriel sur la découverte du terminal).
Ici, on a une interface web, réalisée grâce au format WebAssembly, donc zéro installation requise, mais aussi des exemples pré-chargés, et la garantie que rien ne s’échappe vers un serveur puisque la conversion se passe en local.
Voilà qui pourrait faciliter la découverte de Pandoc, pourquoi pas conjointement avec un guide comme celui de Christophe Masutti (https://libruniv-c29483.frama.io/)
-->--
#documentation #pandoc #webassembly #html #pdf #latex #odt #wasm
Comment faire pour que les documents d'identité, que nous devons scanner et retravailler au format #PDF dans le cadre de la dématérialisation, ne soient pas usurpés et détournés à des fins pouvant nuire ?
Notre plume invitée du jour, Eve Demazière, nous explique, sur le Framablog, comment partager des fichiers PDF sans crainte : https://framablog.org/2026/02/04/retravaillez-vos-pdfs-sans-crainte/