Βικιλεξικό:Λίστες Συχνοτήτων

Από Βικιλεξικό
Μετάβαση σε: πλοήγηση, αναζήτηση

Μετρώντας λέξεις και λήμματα: Οι παρακάτω λίστες συχνοτήτων μετρούν ξεχωριστές στην ορθογραφία τους λέξεις, περιλαμβάνοντας και τις κλιτικές τους μορφές. Για παράδειγμα, το ρήμα "be" παρουσιάζεται με την μορφή "is", "are", "were", κλπ.

Αγγλικά[επεξεργασία]

Τηλεόραση και κείμενα από ταινίες[επεξεργασία]

Οι πιο συνηθισμένες λέξεις στην τηλεόραση και στα κείμενα των ταινιών:

Εδώ υπάρχουν λίστες συχνοτήτων που συγκρίνονται με αυτές του Gutenberg, αλλά βασίζονται σε 29,213,800 λέξεις από την τηλεόραση και σενάρια από ταινίες καθώς και μεταγλωττίσεις.

Εδώ υπάρχει μια πιο πλήρης εξήγηση για το πως δημιουργήθηκε αυτή η λίστα και για τους περιορισμούς της: en:Wiktionary:Frequency lists/TV/2006/explanation.

Παρακάτω θα δείτε τις 100 πιο δημοφιλείς λέξεις (από σενάρια της τηλεόρασης) σε αλφαβητική σειρά:

a · about · all · and · are · as · at · back · be · because · been · but · can · can't · come · could · did · didn't · do · don't · for · from · get · go · going · good · got · had · have · he · her · here · he's · hey · him · his · how · I · if · I'll · I'm · in · is · it · it's · just · know · like · look · me · mean · my · no · not · now · of · oh · OK · okay · on · one · or · out · really · right · say · see · she · so · some · something · tell · that · that's · the · then · there · they · think · this · time · to · up · want · was · we · well · were · what · when · who · why · will · with · would · yeah · yes · you · your · you're

Εδώ είναι κατά σειρά πλήθους συχνοτήτων:

1-1000 · 1001-2000 · 2001-3000 · 3001-4000 · 4001-5000 · 5001-6000 · 6001-7000 · 7001-8000 · 8001-9000 · 9001-10000

Από την 10000η έως την 40000η :

10001-12000 · 12001-14000 · 14001-16000 · 16001-18000 · 18001-20000 · 20001-22000 · 22001-24000 · 24001-26000 · 26001-28000 · 28001-30000 · 30001-32000 · 32001-34000 · 34001-36000 · 36001-38000 · 38001-40000
40001-41284 (κι εδώ τα απομεινάρια σε ένα τελικό αρχείο)

Προφανώς αυτές θα είναι όλες. Και αποτελούν το ένα τρίτο όλων των μοναδικών λέξεων. Η υπόλοιπες χρησιμοποιήθηκαν 5 ή και λιγότερες φορές η κάθε μια.

Το Εγχείρημα Gutenberg[επεξεργασία]

Οι πιο συνήθεις λέξεις στο εγχείρημα Gutenberg:

Αυτές οι λίστες περιέχουν τις πιο συχνές λέξεις, όταν εκτελούμε μια απλή, άμεση (προφανώς) καταμέτρηση της συχνότητας όλων των βιβλίων που βρίσκονται στο Project Gutenberg. Αυτή η λίστα των βιβλίων μεταφορτώθηκε τον Ιούλιο του 2005, και "επανασυγχρονίστηκαν" κάθε μήνα από τότε. Αυτές είναι ως επί τω πλείστον Αγγλικές λέξεις, με την συμμετοχή κάποιων άλλων γλωσσών σε μικρότερο βαθμό. Πολλά βιβλία του Project Gutenberg σκανάρονται μόλις λήξει το copyright τους, τυπικά δηλαδή εκείνες οι εκδόσεις βιβλίων που δημοσιεύθηκαν πριν το 1923, κι επομένως η γλώσσα δεν αντικατοπτρίζει την σύγχρονη χρήση της. Για παράδειγμα, "thy" εμφανίζεται στην λίστα ως η 253η πιο συνηθισμένη λέξη. Επίσης, με σε περισσότερα από 24,000 βιβλία, το στερεότυπο κείμενο αποποίησης ευθυνών του Project Gutenberg εμφανίζεται στο καθένα απ΄αυτά.

Ακολουθούν οι 100 πρώτες λέξεις (από τα κείμενα του Project Gutenberg) σε αλφαβητική σειρά:

a · about · after · all · and · any · an · are · as · at · been · before · be · but · by · can · could · did · down · do · first · for · from · good · great · had · has · have · her · he · him · his · if · into · in · is · its · it · I · know · like · little · made · man · may · men · me · more · Mr · much · must · my · not · now · no · of · on · one · only · or · other · our · out · over · said · see · she · should · some · so · such · than · that · the · their · them · then · there · these · they · this · time · to · two · upon · up · us · very · was · were · we · what · when · which · who · will · with · would · you · your
  • Αυτοί οι βικιποιημένοι όροι μπορούν να αντιγραφούν στα βικιλεξικά των άλλων γλωσσών, και αυτός είναι ακριβώς ο σκοπός για τον οποίο προορίζονται. Αν το κάνεις, πρόσθεσε ένα σύνδεσμο w:en:interwiki γι'αυτήν την σελίδα.
Νέα λίστα ως είχε στις 16/4/2006:
Νέα λίστα όπως είχε στις 10/10/2005:
Ο ίδιος κατάλογος χωρισμένος ανά χιλιάδα λέξεων:
1-1000 1001-2000 2001-3000 3001-4000 4001-5000 5001-6000 6001-7000 7001-8000 8001-9000 9001-10000
περισσότερες αναμένονται...
Παλαιότερες λίστες
Οι πιο συνηθισμένες λέξεις, κατά σειρά κατάταξης:
Κατά προσέγγιση 24,197 αρχεία, 1,712,082,956 λέξεις, 70,756.0 λέξεις κατά μέσο όρο ανά αρχείο. από τις οποίες έχουν σταχυολογηθεί περίπου 9,053,310 μοναδικές "λέξεις."
  • Από την οπτική της ευθείας καταμέτρηση της συχνότητας, το τρέχον αντίγραφο του Wiktionary απομακρύνθηκε τότε από τον κατάλογο. Ακόμα και εγγραφές που έχουν μόνον μια ανακατεύθυνση έχουν απομακρυνθεί.
  1. Wiktionary:Frequency lists/Project Gutenberg undefined 1-1000
  • Με κάπως διαφορετικό φιλτράρισμα/επιλογή κριτηρίων:
  1. Wiktionary: Frequency Lists/Project Gutenberg undefined B 1-1000
  • Η τελευταία έκδοση μπορεί πάντοτε να βρεθεί στο:

Σύχρονη επιστημονική φαντασία[επεξεργασία]

Οι 2,000 πιο συνηθισμένες λέξεις στην σύχρονη λογοτεχνία επιστημονικής φαντασίας που μπορείτε να βρείτε εδώ:

The 2,000 most common words in contemporary fiction can be found here divided into 60 subject categories.

This lumps regular lemmas of the same word together, unlike most of these lists.

Σύγχρονη ποίηση[επεξεργασία]

Οι 2,000 περισσότερο κοινές λέξεις στην σύγχρονη ποίηση που μπορούν να βρεθούν εδώ:

Άλλη μια λίστα ανά λήμμα.

Κορυφαίες λίστες λέξεων στα Αγγλικά[επεξεργασία]

Οικογένειες λέξεων[επεξεργασία]

Τσέχικα[επεξεργασία]

Ολλανδικά[επεξεργασία]

Οι δεκατρείς πιο δημοφιλείς Ολλανδικές λέξεις[επεξεργασία]

Από τον Max Havelaar (οι αριθμοί ανάμεσα στις παρενθέσεις υποδηλώνουν την συχνότητα):

  1. de (4770)
  2. en (2709)
  3. het, 't (2469)
  4. van (2259)
  5. ik (1999)
  6. te (1935)
  7. dat (1875)
  8. die (1807)
  9. in (1639)
  10. een (1637)
  11. hij (1328)
  12. niet (1162)
  13. zijn (1049)

Λίστες συχνοτήτων του Πανεπιστημίου της Λειψίας[επεξεργασία]

Συχνότητα των διακριτικών χαρακτήρων στα Ολλανδικά[επεξεργασία]

Από διακριτικοί χαρακτήρες στην Ολλανδική γλώσσα:

Συχνότητα Χαρακτήρων
ë 1762
ï 599
é 468
è 248
ö 171
ê 71
ü 61
ó 35
ç 30
á 24
à 17
ä 16
û 8
î 7
í 5
ô 4
ú 4
ñ 4
â 3
Å 1

Γαλλικά[επεξεργασία]

Λίστες συχνοτήτων από το http://wortschatz.uni-leipzig.de/html/wliste.html με την επίσημη άδεια από το εργαστήριο.

Σημείωση: αυτές οι ενδεικτικές λίστες απαιτούν ακόμα κάποια εκκαθάριση, επειδή:

Γαλικιανή[επεξεργασία]

Γερμανικά[επεξεργασία]

Γερμανικές λέξεις στην Wikipedia:

Δείτε ακόμα τις 100, 1000, ή 10 000 περισσότερο επαναλαμβανόμενες λέξεις.

Top 2000 German words from subtitles:

Ουγγρικά[επεξεργασία]

Οι πιο συχνές 100.000 λέξεις στα Ουγγρικά κείμενα: http://mokk.bme.hu/resources/webcorpus

Ουγγρική Λίστα 1-10000

Ισλανδικά[επεξεργασία]

Ισλανδικά ρήματα:

Ιταλικά[επεξεργασία]

Οι 1000 συχνότερες Ιταλικές λέξεις από υπότιτλους:

Κορεατικά[επεξεργασία]

Οι πιο συχνές 200 Κορεατικές λέξεις:

Πολωνικά[επεξεργασία]

Οι συχνότερες 200 Πολωνικές λέξεις:

Ρωσικά[επεξεργασία]

Σέρβικα[επεξεργασία]

  • Οι πιο συχνά εμφανιζόμενες 200 λέξεις της Σερβικής γλώσσας

Σλοβενικές λίστες συχνοτήτων[επεξεργασία]

Οι 50 περισσότερο πιο συχνές Σλοβενικές λέξεις, σύμφωνα με την έρευνα του Primož Jakopin:

je , in , se , v , da , na , so , ne , pa , ki , bi , za , z , ni , sem , ga , še , po , s , tako , ko , tudi , to , bil , ali , si , mu , od , bilo , kot , že , iz , kaj , bo , če , vse , bila , kakor , mi , pri , jo , kar , jih , sta , o , do , ti , kako , samo , me

Ισπανικά[επεξεργασία]

Οι 10000 πιο συχνά εμφανιζόμενες Ισπανικές λέξεις από υποτίτλους:

Σουηδικά[επεξεργασία]

Ταϋλανδέζικα[επεξεργασία]

If this is just "basic" words, not statistically the "most frequent" words, it shouldn't be here, it should be in the Appendix namespace only. --Connel MacKenzie 20:59, 26 December 2006 (UTC)

Τούρκικα[επεξεργασία]

Γίντις[επεξεργασία]

Τα Γίντις σε άλλα Βικιλεξικά:

Δείτε ακόμα[επεξεργασία]

Εξωτερικοί σύνδεσμοι[επεξεργασία]

H λίστα συχνοτήτων λέξεων της Ισπανικής της Χιλής (Lifcach) είναι ένα σύνολο από 102 λίστες συχνοτήτων που προήλθαν από τα sub-corpora του Corpus Dinámico del Castellano de Chile (Dynamic Corpus of Chilean Spanish, Codicach), ένα corpus των σύγχρονων γραπτών Ισπανικών της Χιλής που αναπτύχθηκε από τον Sadowsky ανάμεσα στο 1997 και το 2002. Αυτό το corpus περιείχε κατά προσέγγιση 450 εκατομμύρια λέξεις όταν δημιουργήθηκε το Lifcach (που σήμερα περιέχει περίπου 800 εκατομμύρια λέξεις). Το Lifcach περιέχει επίσης a non-weighted κατάλογο των συνολικών συχνοτήτων (τη στήλη του Συνόλου των Περιπτώσεων), που είναι απλά το σύνολο των συχνοτήτων από 102 ανεξάρτητες λίστες (με άλλα λόγια, η λίστα των συχνοτήτων του συνόλου του Codicach corpus).