Microsoft Office, des formats propriétaires ?
MS Office et moi
Il n'est plus besoin de présenter la suite Microsoft Office, et ses produits phare : Word, Excel, Power Point. Microsoft revendique plus d'un milliard d'utilisateurs dans le monde, et une bonne partie de la production mondiale est associée à ces logiciels. Je les ai moi-même beaucoup utilisés, et les ai même enseignés, jusqu'à aujourd'hui.
Disponible sur Windows et Mac, la suite n'est pas portée sur Linux. En passant à Linux, je me suis un peu intéressé à son alternative libre LibreOffice. Mais j'ai surtout réfléchis à toutes les manières de me passer de ces outils de bureautiques. Trouver des alternatives à l'évidence, aux monopôles, c'est toujours une aventure stimulante.
Pendant tout ce temps, j'ai considéré que les formats *.doc, *.docx
étaient des formats propriétaires, fermés. J'avais tort.
Qu'est-ce que le format docx
?
J'aurais du lire la page Wikipédia du docx
Le format docx est en fait un fichier compressé au format ZIP qui contient un ensemble de fichiers (XML, images .jpg) décrivant le document.
Si vous avez lu la page Balises Typographiques, vous savez qu'en renommant un fichier *.docx
en *.zip
, et en le dépaquetant, on récupère un ensemble de fichiers XML.
.
├── document.xml
├── fontTable.xml
├── _rels
│ └── document.xml.rels
├── settings.xml
└── styles.xml
Dans le fichier document.xml
on trouve le contenu du document, balisé en XML. C'est pourquoi il est possible de convertir un document Word dans d'autres formats, notamment grace à Pandoc.
Si le fichier contient des images, on les retrouvera dans un dossier ./media
. Appliquons cette même logique à Power Point.
Dé-zipper un fichier Power Point
Appliquons la même logique à un diaporama Power Point. On change l'extention du fichier en *.zip
, on dé-zippe, et on obtient une arborescence de fichiers.
.
├── media
├── notesMasters
├── notesSlides
├── presentation.xml
├── presProps.xml
├── _rels
├── slideLayouts
├── slideMasters
├── slides
├── tableStyles.xml
├── theme
└── viewProps.xml
Dans le dossier media
nous retrouvons toutes les images contenus dans le diaporama. Si vous êtes curieux, vous pourrez aussi retrouver dans ces fichiers le masque de diapositive (utilisable sur d'autres présentations), et bien sûr le contenu texte des diapos.
Je vous laisse réfléchir aux implications de ce petit exemple.
Dé-Zipper vos fichiers MS Office !
Amusez-vous à dé-zipper les fichiers Word et Power Point, et utilisez Pandoc.