Software R no The New York Times

terça-feira, 13 de janeiro de 2009

Poder da linguagem R fascina analistas
Sábado, 10 de janeiro de 2009, 15h14 - Ashlee Vance
Para algumas pessoas, o R é apenas a 18ª letra o alfabeto. Para outras, é uma classificação que a censura dos Estados Unidos atribui a filmes ousados, ou a exclamação preferida dos piratas de cinema. Mas R também é o nome de uma popular linguagem de programação que está em uso por crescente número de analistas de dados, em empresas e no mundo acadêmico.

A linguagem está se tornando padrão porque os processos de mineração de dados vivem uma era dourada, quer estejam em uso para determinar preços de publicidade, descobrir novos medicamentos mais rápido ou fazer a sintonia fina de modelos financeiros. Empresas as mais diversas, como por exemplo Google, Pfizer, Merck, Bank of America, InterContinental Hotels Group e Shell, estão usando a linguagem R.

Mas a R também encontrou rápida aceitação entre os estatísticos, engenheiros e cientistas que não conhecem bem a programação de computadores e a consideram fácil de usar. “A R é realmente importante - tanto que é difícil superestimá-la”, disse Daryl Pregibon, cientista do Google que usa o software para muitas finalidades. “Ela permite que os estatísticos realizem análises muito intricadas e complicadas sem que precisem conhecer em detalhe o funcionamento dos sistemas de computação”.

E a R também é grátis. Ela vem na forma de um programa de fonte aberta, e sua popularidade reflete uma virada no tipo de software preferido pelas empresas. O software de fonte aberta pode ser usado e modificado livremente por todos. IBM, Hewlett-Packard e Dell faturam milhões de dólares ao ano vendendo servidores acionados pelo sistema operacional aberto Linux, que concorre com o Windows, da Microsoft.

A maioria dos sites da web funciona com um aplicativo de fonte aberta chamado Apache, e as empresas dependem cada vez mais do software de banco de dados MySQL, de fonte aberta, para armazenar informações essenciais. Muita gente contempla os resultados finais de toda essa tecnologia por meio do navegador Firefox, mais um software de fonte aberta.

A R é semelhante a outras linguagens de programação, como C, Java e Perl, porque ajuda as pessoas a executar ampla variedade de tarefas de computação ao lhes fornecer acesso a diversos comandos. Para os estatísticos, porém, a R é especialmente útil porque contêm diversos mecanismos incorporados para a organização de dados, execução de cálculos sobre informações e criação de representações gráficas de conjuntos de dados.

Algumas pessoas que conhecem bem a linguagem R a descrevem como uma versão superdimensionada do software de planilhas Microsoft Excel, capaz de ajudar a iluminar certas tendências de dados mais claramente do que seria possível pela inserção de informações na forma de colunas e fileiras.

O que torna a R tão útil - e ajuda a explicar sua rápida aceitação - é que estatísticos, engenheiros e cientistas podem melhorar o código de software básico ou escrever variações para tarefas específicas. Pacotes escritos para a linguagem R acrescentam algoritmos avançados, gráficos coloridos e texturizados e técnicas de mineração para vasculhar bancos de dados mais a fundo.

Perto de 1,6 mil pacotes estão disponíveis em apenas um dos muitos sites dedicados à R, e o número de pacotes está crescendo exponencialmente. Um deles, chamado BiodiversityR, oferece uma interface gráfica cujo objetivo é realizar com mais facilidade cálculos de tendências ambientais. Outro pacote, conhecido como Emu, analisa padrões de fala, enquanto o GenABEL é usado para estudar o genoma humano.

O setor de serviços financeiros demonstrou especial afinidade pela R; existem diversos pacotes para análise de derivativos, por exemplo.

“A grande beleza da R é que se pode modificá-la para realizar diversas coisas diferentes”, disse Hal Varian, economista chefe do Google. “E há muito material pré-produzido disponível de imediato, de modo que você pode basear seu trabalho nas realizações de grandes predecessores”.


Criadores

A R apareceu inicialmente em 1996, quando os professores de estatística Ross Ihaka e Robert Gentleman, da Universidade de Auckland, Nova Zelândia, começaram a distribuir o código como um software de fonte aberta. De acordo com eles, a idéia de desenvolver algo como a R surgiu de conversas que tinham nos corredores da universidade.

Ambos desejavam tecnologia mais adaptada às necessidades de seus alunos de estatística, que precisam analisar dados e produzir modelos gráficos dessas informações. A maioria do software comparável havia sido criada por cientistas da computação, e seu uso era complicado.

Por não terem muito treinamento em computação, os professores viam seus esforços de criação de software mais como jogo acadêmico do que como qualquer coisa mais séria. Mas mesmo assim, a partir de 1991, eles passaram a dedicar muito tempo à R. “Por cinco ou seis anos, trabalhávamos juntos o tempo todo”, disse Gentleman. “Um digitava e o outro pensava”.

Alguns estatísticos que estudaram as primeiras versões do software consideraram que havia muito a refinar, mas a despeito dessas deficiências a R imediatamente conquistou adeptos entre as pessoas que viam as oportunidades que o software livre personalizado poderia oferecer.

Os co-criadores da R estão satisfeitos com o sucesso de seu trabalho e do trabalho de centenas de voluntários. Ihaka ainda leciona estatística em Auckland, e Gentleman hoje trabalha no Centro Fred Hutchinson de Pesquisa do Câncer, em Seattle.

“A R é uma demonstração real do poder da colaboração, e não creio que fosse possível criar algo parecido de qualquer outra maneira”, disse Ihaka. “Se tivéssemos escolhido lançar o software como produto comercial, teríamos vendido cinco cópias”.

Tradução: Paulo Migliacci

The New York Times


* * * * * * *

Dica da minha amiga e estatística Flaviane Peccin

Dicas sobre o software R, clique aqui!

Primeiro trabalho blogosférico reconhecido \o/

quinta-feira, 4 de dezembro de 2008

Nem bem foi publicada e os resultados da pesquisa do perfil do blogueiro paranaense já viraram notícias e espalham-se pela blogosfera.

A Ana Paula Ehlert do Jornal do Estado, portal Bem Paraná, publicou 2 notas sobre os resultados. Nem preciso dizer que estou orgulhosa, né? Como disse o Pedro, parabéns para nós!

Pesquisa traça o perfil do blogueiro do Paraná

Mais da metade deles estão em Curitiba (63,83%) e têm entre 26 e 30 anos de idade. A febre dos blogs há tempos chegou ao Paraná, tanto que os blogueiros paranaenses respondem por 7,86% dos blogs nacionais, segundo a Pesquisa Perfil do Blogueiro Brasileiro realizado pelo Pedro Cardoso do Receita do Sucesso (http://receitado sucesso.com/), postado ontem no blog http://www.forumdemidias digitais.com.br/quem-e-o-blogueiro-paranaense/, e analisado por Tine Araujo, do blog Este ou Aquele? — sobre a importância das estatísticas — e do Eu, Eu Mesma e Tine (esteouaquele.com, e tinearaujo. com)

Mais da metade do blogueiros estão em Curitiba (63,83%), que neste fim de semana, sábado e domingo, sediará o Fórum de Mídias Digitais e Socias ( http://www.forumdemidias digitais.com.br/ ), que reúne especialistas em blog (BlogCamp 2008) e especialistas em podcast (PodCon 2008) e o #ebc/Curitiblogs, participante ativo do evento.

A pesquisa mostrou que 71,28% dos blogueiros paranaenses começaram a postar nos blogs por hobby/lazer/passatempo, enquanto 15,96% iniciaram com o intuito de ajudar profissionalmente a si mesmo e/ou outras pessoas, contra, apenas, 1,06% que iniciou seu blog para ganhar dinheiro.

Um outro dado apontado pela pesquisa revela que, ao menos no mundo dos blogs, o domínio é masculino, com 74% das postagens feitas por homens cuja média de idade situa-se entre 26 e 30 anos —27,66% do total no Paraná.

Já em Curitiba, a idade média é de 27 anos enquanto no Interior a idade média é de 22 anos. O blogueiro curitibano também é mais experiente 32,97% já blogam a mais de 2 anos quanto a 20,21% no Interior. Já quando o assunto é o número de blogs, a diferença é grande. Enquanto no Interior 12,76% dos blogueiros tem mais de um blog, em Curitiba esse número chega a aproximadamente 32% (31,91%). 42,55% dos blogueiros curitibanos escrevem em mais de um blog contra 14,89% no Interior.

55% disseram ser proprietários apenas de 1 blog, quanto 45% tem mais que 1, sendo que os que tem mais de 4 blogs chega a 7%. Agora em relação a colaboração em outros blogs apenas 43% escrevem em apenas 1 blog contra 57% que escrevem em 2 ou mais. “Aqui é interessante, pois enquanto na visão Brasil apenas 5,53% escrevem em mais que cinco blogs a concentração no Paraná é de 11%”, aponta Tine Araujo.

Onde estão os blogueiros paranaenses
Curitiba 63,83%
Foz do Iguaçu 5,32%
Cascavel 5,32%
Maringá 5,32%
Londrina 4,26%
Ponta Grossa 4,26%
Paranavaí 2,13%
Outras cidades paranaenses 9,56%

Fonte: Pesquisa Perfil do Blogueiro Brasileiro

Paranaenses têm melhor nível de instrução
Pesquisa Perfil do Blogueiro Brasileiro realizado pelo Pedro Cardoso do Receita do Sucesso, apontou ainda que no quesito grau de instrução o blogueiro paranaense tem um índice maior que o Brasil.

Pesquisa Perfil do Blogueiro Brasileiro realizado pelo Pedro Cardoso do Receita do Sucesso, apontou ainda que no quesito grau de instrução o blogueiro paranaense tem um índice maior que o Brasil. Conforme a análise de Tine Araújo, no Brasil, segundo as informações da pesquisa, o nível de instrução Superior incompleto é de 39,02% no Estado. Mas, quando se trata de Doutorado, Mestrado, MBA, Pós graduação e Superior completo esse número aumenta. “Juntos representam 42,55% contra 38,44% no Brasil”, aponta Tine.

Outra informação interessante é que dos blogueiros paranaenses com menos de 21 anos que informaram ter superior incompleto representam 16%. “O que nos leva a supor, e eu disse supor, que ainda estejam estudando”, ressalta a analista.

Quanto aos equipamentos utilizados pelos blogueiros paranaenses 48,94% utilizam Desktop, 13,83% Notebook, 29,79% Desktop e Notebook, quanto apenas 7,45%, deles, utilizam Desktop, Notebook e Smartphone.

Já sobre o local de onde blogam 31,91% o fazem apenas de Casa e 30,85% de Casa e do Trabalho, mas apenas 2,13% blogam unicamente do trabalho.

O sistema operacional mais utilizado, assim como nos resultados Brasil, é o Windows XP. 59,57% disseram usar unicamente ele contra 12,77% que utilizam o Windows Vista e 5,32% Mac OS.

61,7% utilizam, unicamente, o navegador Firefox para blogar enquanto 9,57% utilizam apenas o IE e 4,26% utilizam os dois.

Em relação a plataforma utilizada para o blog tem-se 48,94% de usuários apenas do Wordpress contra 41,49% apenas do Blogger e 6,38% que utilizam as duas.
A maioria, aponta a pesquisa, não ganha nada para blogar. 52,13% dizem não monetizar seus blogs e 81,91% informam não viver de blogar, ou seja, não utilizam os blogs como única fontze de renda.
Uma informação interessante é que dos que monetizam apenas 6,4% tem o blog como única ocupação.


Bom isso, também, explica meu desaparecimento desse blog, mas em 2009 tudo será diferente, aguardem! ;)

Quem é o Blogueiro Paranaense?

Creio que você já sabe que foi realizada uma grande Pesquisa na Blogosfera para se descobrir o Perfil do Blogueiro Brasileiro, idealizada e executada pelo Pedro Cardoso e acompanhada por mim a pesquisa dispõe seus resultados em uma página exclusiva, confira clicando aqui.
Ontem, conversando com Pedro, resolvemos divulgar algumas informações pontuais, como foi feito para as Luluzinhas e divulgaremos aqui um pouco do Perfil do Blogueiro Paranaense.

Os blogueiros paranaenses representam 7,87% dos blogueiros brasileiros, a média de idade é de 26 anos, um pouco mais alta que a do Brasil que gira em 25 anos. Pela faixa etária pode-se observar melhor as diferenças.

Idade PR Brasil

até 15 3,19% 6,11%
16-20 23,40% 22,03%
21-25 25,53% 29,82%
26-30 27,66% 21,02%
31-35 11,70% 10,22%
36-40 6,38% 4,77%
41-45 0,00% 2,43%
46-50 1,06% 1,76%
51-55 1,06% 0,84%
56-60 0,00% 0,59%
61-65 0,00% 0,17%
+q 66 0,00% 0,25%


O sexo mostra valores bem próximos aos encontrados para o Brasil e, aqui, também temos mais blogueiros do que blogueiras, 74% são homens e 26% mulheres.

As cidades onde se concentram mais blogueiros são:


Curitiba 63,83%
Foz do Iguaçu 5,32%
Cascavel 5,32%
Maringá 5,32%
Londrina 4,26%
Ponta Grossa 4,26%
Paranavaí 2,13%
Outras cidades paranaenses 9,56%


55% disseram ser proprietários apenas de 1 blog, quanto 45% tem mais que 1, sendo que os que tem mais de 4 blogs chega a 7%. Agora em relação a colaboração em outros blogs apenas 43% escrevem em apenas 1 blog contra 57% que escrevem em 2 ou mais. Aqui é interessante, pois enquanto na visão Brasil apenas 5,53% escrevem em mais que 5 blogs a concentração no Paraná é de 11%.

Quanto ao tempo que bloga a média está próximo a 2 anos, olhando as faixas tem-se uma idéia melhor.

- de 1 24,47%
1 ano 22,34%
2 anos 18,09%
3 anos 6,38%
4 anos 7,45%
+ q 4 21,28%

71,28% dos blogueiros paranaenses iniciaram seus blogs por hobby/lazer/passatempo, enquanto 15,96% iniciaram com o intuito de ajudar profissionalmente a si mesmo e/ou outras pessoas, contra, apenas, 1,06% que iniciou seu blog para ganhar dinheiro.

No quesito grau de instrução o blogueiro paranaense tem um índice maior que o Brasil quanto ao Superior incompleto que é de 39,02% mas, quando se trata de Doutorado, Mestrado, MBA, Pós graduação e Superior completo esse número aumenta, juntos representam 42,55% contra 38,44% no Brasil. Outra informação interessante é que dos blogueiros paranaenses com menos de 21 anos que informaram superior incompleto representam 16% o que nos leva a supor, e eu disse supor, que ainda estejam estudando.

Quanto aos equipamentos utilizados pelos blogueiros paranaenses 48,94% utilizam Desktop, 13,83% Notebook, 29,79% Desktop e Notebook, quanto apenas 7,45%, deles, utilizam Desktop, Notebook e Smartphone.

Já sobre o local de onde blogam 31,91% o fazem apenas de Casa e 30,85% de Casa e do Trabalho, mas apenas 2,13% blogam unicamente do trabalho.

O sistema operacional mais utilizado, assim como nos resultados Brasil, é o Windows XP. 59,57% disseram usar unicamente ele contra 12,77% que utilizam o Windows Vista e 5,32% Mac OS.

61,7% utilizam, unicamente, o navegador Firefox para blogar enquanto 9,57% utilizam apenas o IE e 4,26% utilizam os dois.

Em relação a plataforma utilizada para o blog tem-se 48,94% de usuários apenas do Wordpress contra 41,49% apenas do Blogger e 6,38% que utilizam as duas.

52,13% dizem não monetizar seus blogs e 81,91% informam não viver de blogar, ou seja, não utilizam os blogs como única fonte de renda. Uma informação interessante é que dos que monetizam apenas 6,4% tem o blog como única ocupação.

Quanto ao veículo rádio 84,04% informaram não ouvir frequencia AM já a FM é ouvida por 67,02% dos blogueiros paranaenses.

Sobre à leitura 57,45% não leem jornal impresso diariamente, mas 73,40% leem mais de 4 livros por ano contra 3,19% que não leem livro algum e 36,17% leem mais que 4 revistas por mês contra 6,38% que não leem.

Mais sobre o Perfil do Blogueiro Brasileiro, clique aqui!

Este post foi publicado originalmente, por mim, no FMDS.

É isso! ;)