Συζήτηση χρήστη:Flubot/παραγωγή λίστας iw

Από Βικιλεξικό
Μετάβαση στην πλοήγηση Πήδηση στην αναζήτηση

Μπορεί να χρησιμοποιηθεί ίσως κάτι τέτοιο; Υποτίθεται ότι κατεβάζει όλα τα τελευταία χωρίς να ξανακατεβάζει όσα έχει ήδη ο χρήστης. --Xoristzatziki (συζήτηση) 07:54, 21 Φεβρουαρίου 2014 (UTC)

Δεν κατεβάζει ακριβώς τα τελευταία. Πχ το έτρεξα τώρα και κατέβασε για το τουρκικό ΒΛ τους τίτλους της 17ης Φεβρ, 318.288 τίτλους δηλ. Κάθε μέρα όμως βγαίνει άλλο αρχείο τίτλων, άσχετο με το dump, πχ το σημερινό αρχείο (21/2) για το tr.wikt περιέχει 318.322 τίτλους. Μάλιστα για άλλα ΒΛ κατέβασε τίτλους από τις 7/2, δηλ. από τότε που έγινε το τελευταίο dump γι' αυτά. --Flyax (συζήτηση) 18:03, 21 Φεβρουαρίου 2014 (UTC)
Σφάλμα μου γιατί δεν είχα προσέξει ότι υπάρχουν... παραθυράκια. Νόμιζα ότι στη σελίδα εκείνη θα υπήρχε το τελευταίο dump (τώρα κατάλαβα τη διαφορά). Οι σκέψεις μου (μετά την ανακάλυψη της σελίδας...) είναι οι εξής:
  • Αξίζει να γίνει αναδρομή στα αρχεία της προηγούμενης μέρας ή είναι καλύτερα να αναβληθεί η λήψη για μερικές ώρες; (υποθέτω το αργότερο 8 και κάτι για σιγουριά)
  • Γενικά το: XTES=`date +%Y%m%d -d "yesterday"` (σε GNU date) δίνει την προηγούμενη μέρα. (Με την επιφύλαξη ότι δεν βρισκόμασταν κάποια χιλιοστά του δευτερολέπτου πριν την αλλαγή ημέρας... αλλά αυτό λύνεται ξαναφτιάχνοντας την παράμετρο σαν XTES2 και ελέγχοντας για διαφορές με το XTES και με την DATE που είχαμε φτιάξει. Επιπλέον, μάλλον απίθανο να μην υπάρχει ο κατάλογος της ημέρας λίγο πριν την αλλαγή της ημέρας)
  • Μπορούμε να ελέγχουμε γενικά την ύπαρξη του φακέλου ημέρας και αν δεν υπάρχει να πηγαίνουμε στην προηγούμενη. Η ύπαρξη όμως φακέλου ημέρας δεν εξασφαλίζει ότι θα υπάρχουν όλα τα αρχεία αφού μπορεί να πέσουμε στην περίπτωση που δημιουργεί εκείνη την ώρα τα αρχεία (βλέπω διαφορές στην ώρα περίπου δέκα λεπτά). Αυτή η ελάχιστη πιθανότητα μπορεί να εξαλειφθεί αν μας δημιουργείται ένα αρχείο ΧΧΧ.ΥΥΥ μετά το τέλος της δημιουργίας όλων των αρχείων. Οπότε η ύπαρξή του θα σημαίνει πως έχει τελειώσει η δημιουργία των αρχείων.
  • Γιατί να μη δημιουργηθεί ένα αντίστοιχο του wikidata όπου θα περιέχονται (αυτόματα) όλα τα λήμματα του ns0 σε κάθε βικιλεξικό και όποιο Βικιλεξικό θέλει να μπορεί να το εκμεταλλεύεται; Ίσως να περιλαμβάνει και ένα ακόμα προαιρετικό στοιχείο για το αν κάποιο βικιλεξικό έχει ανακατεύθυνση ώστε όσα βικιλεξικά δεν θέλουν να μην τις εμφανίζουν. Ή να επεκταθούν τα wikidata ώστε να συμπεριλαμβάνουν και τα βικιλεξικά (αφού μάλιστα μπορεί να γίνονται αυτόματα οι προσθήκες σε μια τέτοια λίστα, σε αντίθεση με τις λίστες των Βικιπαιδειών που πρέπει κάποιος έστω να τις αρχικοοιήσει)

--Xoristzatziki (συζήτηση) 20:51, 21 Φεβρουαρίου 2014 (UTC)

Όπως είπες κι εσύ, η πιο οικονομική λύση είναι να περιμένει κανείς την έκδοση των ημερήσιων αρχείων και μετά να τρέχει το bot. Αυτό κάνω κι εγώ τελευταία, το τρέχω κατά το μεσημεράκι και δεν υπήρξε μέχρι τώρα πρόβλημα. Βέβαια για να θεωρηθεί ολοκληρωμένο το προγραμματάκι, θα πρέπει να προβλέπει τα πιθανά λάθη, τα οποία μπορεί να προκύψουν όχι μόνο λόγω ώρας αλλά και από τυχαίους παράγοντες, πχ να αποτύχει το κατέβασμα ενός από τα 146 αρχεία λόγω κακής σύνδεσης. Οι σκέψεις που διατυπώνεις μπορεί να φανούν χρήσιμες σε αυτό. Μακάρι να προχωρήσει το wikidata και να απαλλαγούμε από αυτήν την έγνοια. --Flyax (συζήτηση) 07:56, 22 Φεβρουαρίου 2014 (UTC)

Εντωμεταξύ έσπασε ο διάολος το ποδάρι του και από τις 22/2 μέχρι σήμερα δεν έχει εκδοθεί κανένα νέο αρχείο τίτλων!!!! --Flyax (συζήτηση) 16:57, 26 Φεβρουαρίου 2014 (UTC)

Το είδα καθώς προσπαθούσα να φτιάξω το σκριπτάκι ώστε να παίρνει από εκεί τα αρχεία. Έτσι όπως είναι αυτή τη στιγμή κατεβάζει τα τελευταία που θα βρει, αλλά μάλλον δεν έχει νόημα αν αυτά είναι παλαιότερα από 2 (άντε 3) ημέρες. --Xoristzatziki (συζήτηση) 06:26, 27 Φεβρουαρίου 2014 (UTC)
Το πρόβλημα με τα αρχεία τίτλων εξακολουθεί να υπάρχει αλλά βλέπω μποτ που ενημερώνουν (π.χ. Χρήστης:YS-Bot). Υποθέτω ότι απλά ενημερώνουν με βάση τις νεώτερες σελίδες των δικών τους βικιλεξικών και κάποιο αντίγραφο (το τελευταίο;) δικό μας. Επίσης παρατηρώ ότι από την ημέρα που σταμάτησαν να εκδίδονται αρχεία τίτλων η ώρα δημιουργίας του φακέλου τους (που δεν σταμάτησε να δημιουργείται, προφανώς αυτόματα) έπεσε στο 08:10:01 (περίπου πέντε με έξι λεπτά πριν τις προηγούμενες). --Xoristzatziki (συζήτηση) 07:54, 12 Μαρτίου 2014 (UTC)
Υπάρχει και ο τρόπος που χρησιμοποιούσαμε παλιότερα: κατεβάζεις τα τελευταία αρχεία τίτλων και τα ενημερώνεις μέσω API. Είναι όμως πολύ πιο χρονοβόρα αυτή η μέθοδος. Λέω να περιμένω λίγες μέρες ακόμη. Ίσως ο Απεργός μπορεί να μας δώσει κάποια πληροφορία για το πότε θα ξαναρχίσει κανονικά η παραγωγή των ημερήσιων αρχείων. --Flyax (συζήτηση) 20:23, 12 Μαρτίου 2014 (UTC)