Génération de documents Word avec OpenXML et .NET (1/6)
Après avoir vu quelques uns des concepts de base du standard Open XML et notamment de OPC - Open Packaging Convention - dans un précédent article, attaquons nous aujourd’hui à la génération de document de type traitement de texte avec le langage WordProcessingML du standard ouvert Open XML. Pour ce faire, nous utiliserons les API fourni avec le framework .NET 3 et notamment l’espace de nom System.IO.Packaging mis à notre disposition.
Il y a au moins deux façons de générer des documents WordProcessingML : la première est de partir d’un document existant déjà formaté (et pourquoi pas enrichi de données métiers), la seconde est de créer un document ‘from scratch’, autrement dit à partir de rien. C’est cette dernière option que nous allons retenir, l’autre méthode sera utilisée dans de prochains articles plus complexes, dans lesquels vous n’aurez pas besoin de vous occuper de créer intégralement un document.
L’exhaustivité des spécifications de ce standard ouvert de l’ECMA facilite grandement l’exploitation des documents Open XML. Vous trouverez toutes les informations relatives au WordProcessingML dans la partie 4:2 du standard.
Introduction au document WordProcessingML
Un document WordProcessingML - un document Office Open XML orienté traitement de texte - est une compilation de deux types d’information :
les propriétés : les styles, la définition de la numérotation, …
les stories : le document principal, les entêtes, les pieds de page, les commentaires, …
Les propriétés représentent les différents éléments de présentation communs aux stories tel que la définition des styles ou de la numérotation des listes
Les stories – terme difficilement traductible en français – représentent les régions uniques dans lesquelles un utilisateur peut ajouter ou modifier le contenu. La story la plus importante, et la seule dont la présence est obligatoire, est celle du document principal qui décrit le contenu général du document. Comme pour les autres types de document OpenXML (SpreadsheetML pour les documents de tableur et PresentationML pour les documents de présentation), c’est vers la story principale que vous pointerez lorsque vous demanderez la relation de type http://schemas.openxmlformats.org/officeDocument/2006 /relationships/officeDocument à votre paquet.
Dans la suite de cet article, nous ne traiterons que la story principale. On désignera aussi cette story sous l’appellation de partie principale, en rapport avec la structure physique de stockage OPC des documents Office Open XML. La partie principale d’un document WordProcessingML possède habituellement, bien que cela ne soit qu’un usage, l’URI /word/document.xml comme le montre l’illustration suivante :
Le format de fichier Open XML utilise bien évidemment le XML pour décrire l’intégralité des documents. Concernant la story principale d’un document WordProcessingML, son contenu se trouve sous la balise body selon la structure suivante :
Listing 1
L’exemple du listing 1 décrit un document possédant un seul et unique paragraphe. Voici le détail de cette structure :
document : c’est l’élément racine du document principal.
body : cet élément peut contenir plusieurs paragraphes.
p : représente un paragraphe, et peut contenir un ou plusieurs run et des propriétés dans une balise fille pPr communes à tous les runs de ce paragraphe.
r : représente un run, c'est-à-dire un ensemble contigu de caractères ayant les mêmes propriétés. Tout comme pour les paragraphes, chaque run peut posséder un élément fils rPr définissant les propriétés spécifiques de ce run. Nous reviendrons juste après sur ce concept fondamental de Open XML.
t : le contenu textuel du run parent. Le contenu est principalement du texte non formaté. Le formatage de ce texte est hérité des propriétés du run et des propriétés du paragraphe. Cet élément contient aussi souvent l’attribut xmlspace="preserve" afin de bien spécifier la prise en compte des espaces dans le texte.
Contrairement à des formats tel que le HTML, le format Open XML n’accepte pas l’intégration de propriétés de formatage directement à l’intérieur du contenu du texte. C’est pourquoi lorsque vous voudrez décrire le texte "Office Open XML" dans un document Open XML, il vous faudra créer au moins trois runs dans le paragraphe : un pour ‘Office’, un autre pour ‘Open’ avec la propriété ‘gras’ activé, et un dernier pour ‘XML’.