A aplicação à qual dei o nome Most Common Word (MOST COMMON WORD COUNT.zip) foi desenvolvida com o objectivo de perceber quais as palavras mais frequentes na língua inglesa. Não era necessário tanto trabalho porque já existem diversos estudos sobre este assunto e provavelmente aplicações que o fazem.

Para tentar medir as palavras mais frequentes utilizarei livros em formato electrónico em inglês.

A questão que se coloca é: Será que os livros escolhidos são os mais representativos no que se refere à linguagem correntemente utilizada?

De qualquer forma, para termos uma ideia das palavras mais utilizadas utilizarei os dez livros mais descarregados nos últimos 30 dias (11/7 a 11/8 de 2010) do site  www.gutenberg.org


  1. The Kama Sutra of Vatsyayana by Vatsyayana (25729)
  2. The Adventures of Sherlock Holmes by Sir Arthur Conan Doyle (18491)
  3. Pride and Prejudice by Jane Austen (14551)
  4. How to Analyze People on Sight by Elsie Lincoln Benedict and Ralph Paine Benedict (12694)
  5. The Art of War by Sunzi 6th cent. B.C. (11743)
  6. The Notebooks of Leonardo Da Vinci — Complete by Leonardo da Vinci (11664)
  7. Calculus Made Easy by Silvanus Phillips Thompson (11566)
  8. Alice's Adventures in Wonderland by Lewis Carroll (11366)
  9. Ulysses by James Joyce (11119)
  10. Adventures of Huckleberry Finn by Mark Twain (9788)
  11. History of Egypt, Chaldæa, Syria, Babylonia, and Assyria, Volume 9 (of 12) by G. Maspero (9541)

Substitui o livro 7 pelo 11, porque é um livro de matemática, o qual apresenta bastantes fórmulas e está no formato pdf.

Aplicação que permite calcular as palavras mais frequentes

A utilização básica deste programa pode ser explicada em três passos : 1º seleccionar os ficheiros a analisar, 2º clicar em SPLIT e esperar que essa operação esteja concluída, 3º clicar no botão inferior esquerdo "CHECK THE MOST COMMON ... WORD" e desta forma obtemos o nº de palavras mais frequentes pretendidas.

Na tabela (abaixo) estão representadas as 250 palavras mais frequentes em inglês (tendo como base esta particular selecção de ficheiros). Da tabela original obtida da aplicação, foram retiradas algumas palavras que para esta demonstração não faziam sentido que aqui fossem apresentadas (valores numéricos, letras).

Estas 250 palavras representam cerca de 60% de todas as palavras utilizadas em todos estes 10 ebooks. Ou seja se os textos destes 10 ebooks representassem toda a língua inglesa então também poderíamos afirmar que estas 250 palavras representaria 60% da língua inglesa.

 

Word Frequency
THE 76296
OF 40560
AND 38119
TO 28599
A 25020
IN 21319
IT 14148
I 13805
THAT 13139
HE 12541
IS 11633
HIS 10402
WAS 10043
WITH 9057
YOU 8702
AS 8384
ON 8289
FOR 7811
BE 7187
BY 7062
HER 6553
AT 6357
NOT 5972
WHICH 5964
BUT 5747
FROM 5311
THIS 5206
SHE 5154
HAD 5116
HIM 4999
ALL 4925
THEY 4821
HAVE 4592
ARE 4498
OR 4294
SO 4049
NO 3801
THEIR 3638
ONE 3594
SAID 3432
WHEN 3425
WILL 3425
THEM 3398
THERE 3334
MY 3302
WE 3239
IF 3196
ME 3166
WHAT 2999
OUT 2985
AN 2957
UP 2870
WHO 2734
WERE 2635
THEN 2586
WOULD 2445
OTHER 2281
MAN 2272
YOUR 2248
DO 2221
BEEN 2215
SEE 2177
HAS 2045
MORE 2026
SHOULD 1980
TIME 1914
VERY 1867
ITS 1866
THAN 1856
INTO 1829
SOME 1823
ABOUT 1820
MR 1811
COULD 1807
LIKE 1790
DOWN 1688
ANY 1673
CAN 1667
TWO 1662
MAY 1614
WELL 1581
NOW 1576
ONLY 1571
THESE 1491
OVER 1483
SUCH 1470
MUST 1451
SAYS 1448
AFTER 1430
LITTLE 1402
FIRST 1391
GOOD 1379
HOW 1367
KNOW 1327
WAY 1310
MUCH 1304
SAME 1271
DID 1266
WHERE 1263
COME 1253
HERE 1240
MAKE 1213
THOSE 1209
MOST 1199
BEFORE 1193
MADE 1181
BECAUSE 1177
NEVER 1168
LIGHT 1160
EVERY 1105
TOO 1104
SAY 1102
BEING 1092
US 1075
UPON 1056
OFF 1046
OLD 1044
GO 1040
OUR 1032
AGAIN 1022
BLOOM 1000
OWN 995
FOOTNOTE 994
BACK 986
GREAT 983
MEN 978
LONG 976
GOT 968
DAY 964
JUST 958
BETWEEN 956
RIGHT 951
HAND 941
WITHOUT 928
GET 927
HIMSELF 919
PLACE 894
THROUGH 894
UNDER 848
AWAY 842
WOMAN 839
ALWAYS 836
EACH 822
BODY 819
SIDE 819
TAKE 815
GIVE 807
HEAD 802
EYE 801
THINK 801
PART 799
MANY 795
AM 794
THOUGH 788
MIGHT 787
NOTHING 781
DOES 780
THINGS 776
SEEN 774
WORK 761
SUN 755
THREE 749
WENT 748
LET 741
EVER 736
WATER 736
LAST 733
KING 732
THING 732
ALSO 730
PEOPLE 717
WHY 713
STILL 703
LOOK 700
LEFT 696
EYES 694
LIFE 680
YES 680
WHILE 671
PUT 670
DONE 660
TELL 658
NIGHT 656
HAVING 655
SHALL 654
EVEN 644
AGAINST 643
TOOK 640
ELIZABETH 638
HOUSE 638
FACE 637
ANOTHER 632
GOING 626
FATHER 625
LEONARDO 620
NAME 601
FOUND 598
MRS 598
LOVE 587
CAME 586
MISS 585
STEPHEN 581
ROUND 568
WHOLE 567
YOUNG 565
SHADOW 562
TOWARDS 561
HALF 554
WORLD 552
CALLED 541
ABOVE 537
FIND 537
SOON 531
GIVEN 530
THOUGHT 525
TYPE 525
SOMETHING 524
ONCE 521
HOWEVER 519
THUS 517
BETTER 510
YEARS 510
KIND 505
OTHERS 502
BOTH 498
FAR 494
POINT 488
ROOM 488
SEA 485
TILL 485
WANT 485
HERSELF 484
LARGE 482
HANDS 480
TOLD 473
HEARD 472
SMALL 471
LESS 470
OBJECT 470
COURSE 469
WOMEN 469
HOLMES 465
MIND 463
NATURE 462
ALONG 461
FOUR 461
END 459
FEW 459
AIR 458
YET 458

 

A seguir é mostrada uma tabela resultado de outra medição efectuada. Estão apresentadas as 50 palavras mais repetidas ( com 3 ou mais caracteres) nas notícias da primeira página do Jornal Sol Online de hoje:

 

Word Frequency
QUE 173
POR 51
PARA 49
NÃO 45
UMA 43
COM 35
DOS 32
FOI 27
AOS 21
COMO 21
DAS 21
INCÊNDIOS 21
SÃO 18
TAMBÉM 17
MAIS 16
MINISTRO 16
ANOS 15
HOJE 14
MAS 14
SEGUNDO 14
ANO 13
DEPOIS 13
GOVERNO 13
SEU 13
DESDE 12
PELO 12
PODE 12
PÚBLICA 12
TERRENO 12
DOIS 11
ESTÃO 11
FPF 11
JUSTIÇA 11
NACIONAL 11
PELA 11
CENTO 10
CIVIL 10
DIA 10
ENTRE 10
ESTÁ 10
FEIRA 10
ONDE 10
PARTE 10
PRIMEIRO 10
SER 10
SERRA 10
SUA 10
AINDA 9
ESTE 9
MUITO 9