Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Η αποστολή δεδομένων από ένα υπολογιστικό φύλλο σε ένα αρχείο PDF σε ένα φύλλο Microsoft Excel είναι πάντα «διασκεδαστική». Ειδικά αν δεν έχετε ακριβό λογισμικό αναγνώρισης όπως το FineReader ή κάτι τέτοιο. Η απευθείας αντιγραφή συνήθως δεν οδηγεί σε τίποτα καλό, γιατί. μετά την επικόλληση των αντιγραμμένων δεδομένων στο φύλλο, πιθανότατα θα «κολλήσουν μαζί» σε μία στήλη. Έτσι, στη συνέχεια θα πρέπει να διαχωριστούν επιμελώς χρησιμοποιώντας ένα εργαλείο Κείμενο ανά στήλες από την καρτέλα ημερομηνία (Δεδομένα — Κείμενο σε στήλες).

Και φυσικά, η αντιγραφή είναι δυνατή μόνο για εκείνα τα αρχεία PDF όπου υπάρχει επίπεδο κειμένου, δηλαδή με ένα έγγραφο που μόλις σαρώθηκε από χαρτί σε PDF, αυτό δεν θα λειτουργήσει κατ' αρχήν.

Αλλά δεν είναι τόσο λυπηρό, πραγματικά 🙂

Εάν έχετε Office 2013 ή 2016, τότε σε λίγα λεπτά, χωρίς πρόσθετα προγράμματα, είναι πολύ πιθανό να μεταφέρετε δεδομένα από PDF στο Microsoft Excel. Και το Word και το Power Query θα μας βοηθήσουν σε αυτό.

Για παράδειγμα, ας πάρουμε αυτήν την αναφορά PDF με ένα σωρό κείμενο, τύπους και πίνακες από τον ιστότοπο της Οικονομικής Επιτροπής για την Ευρώπη:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

… και προσπαθήστε να το βγάλετε από το Excel, πείτε τον πρώτο πίνακα:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Πάμε!

Βήμα 1. Ανοίξτε το PDF στο Word

Για κάποιο λόγο, λίγοι γνωρίζουν, αλλά από το 2013 το Microsoft Word έχει μάθει να ανοίγει και να αναγνωρίζει αρχεία PDF (ακόμη και σαρωμένα, δηλαδή χωρίς στρώμα κειμένου!). Αυτό γίνεται με έναν εντελώς τυπικό τρόπο: ανοίξτε το Word, κάντε κλικ Αρχείο – Άνοιγμα (Αρχείο — Άνοιγμα) και καθορίστε τη μορφή PDF στην αναπτυσσόμενη λίστα στην κάτω δεξιά γωνία του παραθύρου.

Στη συνέχεια, επιλέξτε το αρχείο PDF που χρειαζόμαστε και κάντε κλικ Ανοικτό (Ανοιξε). Το Word μας λέει ότι πρόκειται να εκτελέσει OCR σε αυτό το έγγραφο σε κείμενο:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Συμφωνούμε και σε λίγα δευτερόλεπτα θα δούμε το PDF μας ανοιχτό για επεξεργασία ήδη στο Word:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Φυσικά, ο σχεδιασμός, τα στυλ, οι γραμματοσειρές, οι κεφαλίδες και τα υποσέλιδα κ.λπ. θα ξεφύγουν εν μέρει από το έγγραφο, αλλά αυτό δεν είναι σημαντικό για εμάς – χρειαζόμαστε μόνο δεδομένα από πίνακες. Κατ 'αρχήν, σε αυτό το στάδιο, είναι ήδη δελεαστικό να αντιγράψετε απλώς τον πίνακα από το αναγνωρισμένο έγγραφο στο Word και απλώς να τον επικολλήσετε στο Excel. Μερικές φορές λειτουργεί, αλλά πιο συχνά οδηγεί σε κάθε είδους παραμορφώσεις δεδομένων – για παράδειγμα, οι αριθμοί μπορεί να μετατραπούν σε ημερομηνίες ή να παραμείνουν κείμενο, όπως στην περίπτωσή μας, επειδή. Το PDF χρησιμοποιεί μη διαχωριστικά:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Ας μην κόβουμε λοιπόν τις γωνίες, αλλά ας κάνουμε τα πάντα λίγο πιο περίπλοκα, αλλά σωστά.

Βήμα 2: Αποθηκεύστε το έγγραφο ως ιστοσελίδα

Για να φορτωθούν στη συνέχεια τα ληφθέντα δεδομένα στο Excel (μέσω Power Query), το έγγραφό μας στο Word πρέπει να αποθηκευτεί σε μορφή ιστοσελίδας – αυτή η μορφή είναι, σε αυτήν την περίπτωση, ένα είδος κοινού παρονομαστή μεταξύ του Word και του Excel.

Για να το κάνετε αυτό, μεταβείτε στο μενού Αρχείο – Αποθήκευση ως (Αρχείο — Αποθήκευση ως) ή πατήστε το πλήκτρο F12 στο πληκτρολόγιο και στο παράθυρο που ανοίγει, επιλέξτε τον τύπο αρχείου Ιστοσελίδα σε ένα αρχείο (Ιστοσελίδα — Ένα αρχείο):

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Μετά την αποθήκευση, θα πρέπει να λάβετε ένα αρχείο με την επέκταση mhtml (αν βλέπετε επεκτάσεις αρχείων στον Explorer).

Στάδιο 3. Μεταφόρτωση του αρχείου στο Excel μέσω Power Query

Μπορείτε να ανοίξετε το αρχείο MHTML που δημιουργήθηκε απευθείας στο Excel, αλλά στη συνέχεια θα λάβουμε, πρώτον, όλα τα περιεχόμενα του PDF ταυτόχρονα, μαζί με κείμενο και ένα σωρό περιττούς πίνακες και, δεύτερον, θα χάσουμε ξανά δεδομένα λόγω λανθασμένων διαχωριστές. Επομένως, θα κάνουμε την εισαγωγή στο Excel μέσω του πρόσθετου Power Query. Αυτό είναι ένα εντελώς δωρεάν πρόσθετο με το οποίο μπορείτε να ανεβάσετε δεδομένα στο Excel από σχεδόν οποιαδήποτε πηγή (αρχεία, φακέλους, βάσεις δεδομένων, συστήματα ERP) και στη συνέχεια να μετατρέψετε τα λαμβανόμενα δεδομένα με κάθε δυνατό τρόπο, δίνοντάς τους το επιθυμητό σχήμα.

Εάν έχετε Excel 2010-2013, τότε μπορείτε να κάνετε λήψη του Power Query από τον επίσημο ιστότοπο της Microsoft – μετά την εγκατάσταση θα δείτε μια καρτέλα Ερώτημα ισχύος. Εάν έχετε Excel 2016 ή νεότερο, τότε δεν χρειάζεται να κατεβάσετε τίποτα – όλη η λειτουργικότητα είναι ήδη ενσωματωμένη στο Excel από προεπιλογή και βρίσκεται στην καρτέλα ημερομηνία (Ημερομηνία) σε ομάδα Λήψη και μετατροπή (Λήψη & Μεταμόρφωση).

Οπότε πάμε είτε στην καρτέλα ημερομηνία, ή στην καρτέλα Ερώτημα ισχύος και διάλεξε ομάδα Για να λάβετε δεδομένα or Δημιουργία ερωτήματος – Από αρχείο – Από XML. Για να κάνετε ορατά όχι μόνο αρχεία XML, αλλάξτε τα φίλτρα στην αναπτυσσόμενη λίστα στην κάτω δεξιά γωνία του παραθύρου σε Όλα τα αρχεία (Ολα τα αρχεία) και καθορίστε το αρχείο MHTML μας:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Λάβετε υπόψη ότι η εισαγωγή δεν θα ολοκληρωθεί με επιτυχία, επειδή. Το Power Query αναμένει XML από εμάς, αλλά στην πραγματικότητα έχουμε μια μορφή HTML. Επομένως, στο επόμενο παράθυρο που εμφανίζεται, θα χρειαστεί να κάνετε δεξί κλικ στο αρχείο που είναι ακατανόητο για το Power Query και να καθορίσετε τη μορφή του:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Μετά από αυτό, το αρχείο θα αναγνωριστεί σωστά και θα δούμε μια λίστα με όλους τους πίνακες που περιέχει:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Μπορείτε να δείτε τα περιεχόμενα των πινάκων κάνοντας κλικ στο αριστερό κουμπί του ποντικιού στο λευκό φόντο (όχι στη λέξη Πίνακας!) των κελιών στη στήλη Δεδομένα.

Όταν οριστεί ο επιθυμητός πίνακας, κάντε κλικ στην πράσινη λέξη Τραπέζι – και «πέφτετε» στο περιεχόμενό του:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

Απομένει να κάνουμε μερικά απλά βήματα για να «χτενίσουμε» το περιεχόμενό του, και συγκεκριμένα:

  1. διαγράψτε τις περιττές στήλες (κάντε δεξί κλικ στην κεφαλίδα της στήλης – ΑΦΑΙΡΕΣΗ)
  2. αντικαταστήστε τις τελείες με κόμματα (επιλέξτε στήλες, κάντε δεξί κλικ - Αντικατάσταση τιμών)
  3. αφαιρέστε τα ίσα σημάδια στην κεφαλίδα (επιλέξτε στήλες, κάντε δεξί κλικ - Αντικατάσταση τιμών)
  4. αφαιρέστε την επάνω γραμμή (Αρχική – Διαγραφή γραμμών – Διαγραφή κορυφαίων γραμμών)
  5. αφαιρέστε τις κενές γραμμές (Αρχική σελίδα – Διαγραφή γραμμών – Διαγραφή κενών γραμμών)
  6. σηκώστε την πρώτη σειρά στην κεφαλίδα του πίνακα (Αρχική σελίδα – Χρησιμοποιήστε την πρώτη γραμμή ως επικεφαλίδες)
  7. φιλτράρετε τα περιττά δεδομένα χρησιμοποιώντας ένα φίλτρο

Όταν ο πίνακας έρθει στην κανονική του μορφή, μπορεί να ξεφορτωθεί στο φύλλο με την εντολή κλείστε και κατεβάστε (Κλείσιμο & Φόρτωση) on Ο κύριος αυτί. Και θα έχουμε τέτοια ομορφιά με την οποία μπορούμε ήδη να εργαστούμε:

Εισαγωγή δεδομένων από PDF σε Excel μέσω Power Query

  • Μετατροπή στήλης σε πίνακα με Power Query
  • Διαχωρισμός κολλώδους κειμένου σε στήλες

Αφήστε μια απάντηση