Extrait le texte contenu dans un fichier PDF.
MaChaîne est une chaîne
MaChaîne = PDFVersTexte("C:\Temp\MonDocument.pdf")
// Affichage dans un champ de saisie multiligne
SAI_SaisieTexteMulti = MaChaîne
Syntaxe
<Résultat> = PDFVersTexte(<Fichier PDF> [, <Pages à extraire> [, <Mot de passe> [, <Options>]]])
<Résultat> : Chaîne de caractères
Texte du fichier PDF.
<Fichier PDF> : Chaîne de caractères
Nom et chemin du fichier PDF à analyser.
<Pages à extraire> : Chaîne de caractères optionnelle
Plage de pages dont le texte doit être extrait. Le format utilisé est identique à celui utilisé dans les boîtes d'impression standard : numéros individuels de pages ou étendue de pages séparés par des points-virgules. Par exemple "1;3;4;6-10;12" signifie que les pages 1, 3, 4, 6 à 10, et 12 seront traitées.Si ce paramètre n'est pas spécifié ou correspond à une chaîne vide (""), toutes les pages sont extraites.
<Mot de passe> : Chaîne de caractères optionnelle
Si le fichier PDF est protégé en ouverture, mot de passe nécessaire pour ouvrir le fichier.
<Options> : Constante de type Entier
Mode de découpage du texte : | |
pvtCompatible | Découpage du texte du PDF en utilisant l'algorithme des versions 24 et précédentes. |
pvtDéfaut (Valeur par défaut) | Découpage du texte du PDF en utilisant un algorithme optimisé. Ce découpage peut être différent de celui effectué avec les versions précédentes. |
Remarques
Conversion du PDF vers texte
- La conversion du PDF vers du texte est réalisée sans conserver le formatage du document.
- Le texte est extrait dans l'ordre d'apparition des commandes PDF et écrit séquentiellement dans la chaîne résultat. L'organisation du texte en paragraphes et en blocs est conservée (ainsi que les retours chariot).
- Les caractères Unicode ne sont pas renvoyés.
- Les données d'un formulaire PDF ne sont pas extraites (ces données ne sont pas stockées dans le fichier PDF).
Cas particuliers
- La fonction PDFEstProtégé permet de savoir si un mot de passe est nécessaire pour l'ouverture d'un fichier PDF.
- La fonction PDFNombreDePages permet de connaître le nombre total de pages d'un fichier PDF.
Classification Métier / UI : Code métier
Composante : wd280wdpdf.dll