Na semana dos dias 3 a 7 de Feveiro de 2020, o CiDAMO realizou o I CiDWeek, uma semana de ciência de dados na universidade federal do Paraná. Este é o postmortem do evento, isto é, vamos analisar a criação, realização e resultado imediato do evento.
Seções:
Minicursos
Tivemos os seguintes minicursos:
- Aula 1 - Regressão Linear e Polinomial
- Aula 2 - Validação Cruzada, Overfitting e Underfitting
- Aula 3 - Classificação, KNN, Árvores e Florestas
- Aula 4 - Naive Bayes & Regressão Logística
- Aula 5 - Análise de Agrupamento
- Aula 6 - Tratamento de Dados
A seguinte lista de referência foi recomendado por pelo menos algum dos professores
- Alan Agresti, Categorical Data Analysis. New York: Wiley-Interscience, 2002
- Richard A. Berk, Statistical learning from a regression perspective. New York: Springer, 2008.
- Giuseppe Ciaburro, Prateek Joshi, Python Machine Learning Cookbook. Packt Publishing, 2019.
- Pedro Domingos, Michael Pazzani, On the optimality of the simple Bayesian classifier under zero-one loss. Machine Learning. 29 (2/3): 103–137, 1997.
- Julian J. Faraway, Linear models with R. Chapman and Hall/CRC, 2016.
- Julian J. Faraway, Extending the linear model with R: generalized linear, mixed effects and nonparametric regression models. Chapman and Hall/CRC, 2016.
- A. Géron, Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow: Conceitos, Ferramentas e Técnicas para a Construção de Sistemas Inteligentes. Alta Books Editora, 2019.
- Joel Grus, Data Science from Scratch. O’Reilly, 2015.
- Frank E. Harrell, Regression Modeling Strategies. Springer Series in Statistics (2nd ed.). New York; Springer, 2015.
- David W. Hosmer, Stanley Lemeshow, Applied Logistic Regression, (2nd ed.). Wiley., 2002
- G. James, D. Witten, T. Hastie e R. Tibshirani, An Introduction to Statistical Learning with Applications in R. Springer, 2013.
- Andrew McCallum, Graphical Models, Lecture2: Bayesian Network Represention.
- Wes McKinney, Python para Análise de Dados. O’Reilly, 2018.
- Andrew Y. Ng, Michael I. Jordan, On discriminative vs. generative classifiers: A comparison of logistic regression and naive Bayes. NIPS. 14, 2002.
- Harry Zhang, The Optimality of Naive Bayes. FLAIRS2004 conference
Nota de transparência: Os links acessados dão uma porcentagem da caso os livros sejam comprados.
Estatísticas
Primeiro, o número de participantes no evento foi por volta de
Seg | Ter | Qua | Qui | Sex | |
---|---|---|---|---|---|
Manhã | 160 | 140 | 130 | 160 | 10 times 37 pessoas |
Tarde | 40 | 20 | --- |
O minicurso foi bastante bem frequentado. Tivemos 313 inscrições e pouco mais da metade veio ao evento. Considerando que o evento foi nas férias, e sem custo, consideramos que a quantidade de pessoas é bastante boa.
As palestras da tarde de segunda e terça não tiveram uma participação tão grande, o que é comum para eventos acadêmicos. No futuro tentaremos abordagens diferentes para as palestras desse tipo.
As palestras de empresas foram um sucesso. Tivemos 318 inscrições, mas muitas pessoas não apareceram, infelizmente. Como o evento foi durante a semana e a entrada foi apenas um 1 kg de alimento, ainda assim consideramos um grande resultado.
O job fair também aconteceu na quinta, com duas empresas participando: Olist e James. Várias pessoas tiveram a chance de conversar com as duas.
Fotos
Algumas montagens:
Próximo CiDWeek
Já estamos empolgados com o próximo CiDWeek. Com a experiência do primeiro queremos fazer um evento muito melhor. Tivemos alguns problemas na organização deste evento, como é esperado, e alguns destes poderiam ser evitados. Portanto, vale a pena abordá-los, para lermos daqui a alguns meses, e também para outros querendo fazer eventos como esse.
- Planejar com mais antecedência: Decidimos fazer o evento com menos de 3 meses de antecedência. Precisamos de mais tempo. Esse período ainda incluiu o Natal e o Ano novo, e essas datas caíram em quarta-feiras, de modo que o trabalho nessas semanas ficou bastante reduzido.
- Arrumar um coffee break de antecedência: Infelizmente não conseguimos muito financiamento de coffee break - obrigado novamente à EBANX e a Olist por conseguir algum financiamento - sendo assim tivemos apenas um dia de coffee break. Como o evento foi gratuito, não tivemos dinheiro para criar coffee break, e como fizemos com pouco tempo, não conseguimos outros financiamentos.
- Preparar a arte com mais antecedência: Se a arte fosse feita com mais antecedência, ela poderia ter sido financiada. Da maneira que fizemos, tivemos que tirar do bolso.
- Procurar por um lugar com ar condicionado, se tivermos financiamento: Como o evento foi no verão, e o auditório utilizado não tinha ar condicionado. Por sorte, a maior parte dos dias não foi muito quente. Não existe solução simples para isso, mas uma possibilidade é considerar o aluguel de um espaço nos custos.
- Convidar palestrantes acadêmicos com muita antecedência, e buscar organizadores de sessões: No ambiente acadêmico é um pouco mais difícil montar um evento de ciência de dados genérico. O assunto, do ponto de vista acadêmico, é bastante fragmentado, então existem professores de diversos departamentos diferentes que trabalham em assuntos que podem se encaixar no evento. Isso quer dizer que é mais difícil um professor sair da zona de conforto para apresentar num evento não específico. Uma possibilidade, bastante utilizada em eventos acadêmicos grandes, é buscar organizadores de sessões. Podemos pedir para professores de assuntos relevantes e diferentes que montem uma sessão convidados pessoas que eles gostariam que participassem. Para isso funcionar bem, no entanto, é necessário muito mais antecedência que o normal.
- Separar um tempo para o job fair: O job fair foi muito bom, mas poucas empresas participaram. Além disso, os stands concorreram com as palestras e o coffee, então poderia ter sido mais proveitoso.
- Contratar fotógrafo (ou media manager): Seria ideal se alguém com uma câmera boa ficasse dedicado às fotos. Não é um serviço barato no entanto. Melhor ainda se pudesse postar as fotos logo depois de tirá-las. Na quinta isso foi impossível.
Timeline
A criação desse evento foi bastante espontânea, e aconteceu em um tempo bastante curto. Abaixo, detalho um pouco a timeline.
- 27/Nov/2019 - Como precisávamos atrair novos membros para o semestre seguinte, decidimos criar um mini-curso para preparar os alunos interessados. Em seguida, nos questionamos por que não fazer o evento aberto para mais pessoas? Com essa possibilidade, já pensamos se não seria interessante ter algumas palestras no evento, e daí se algumas empresas topariam vir participar. A proposta parecia boa, então decidimos seguir por esse caminho.
- 06/Dez/2019 - O site do CiDAMO é colocado numa versão estável no ar, preparando para o lançamento do evento.
- 10/Dez/2019 - Conversamos com a Math Analytics para pedir ajuda na organização das palestras de empresas.
- 18/Dez/2019 - Inscrições para submissões de trabalhos é criada e chamada para essa submissão é feita por e-mail para diversos programas de pós-graduação, departamentos e setores da universidade. Primeira empresa confirma presença no evento.
- 09/Jan/2020 - A oitava e última empresa confirma participação no evento.
- 10/Jan/2020 - O desenvolvimento do flyer e do site começam. Pedidos de uso dos logos são enviados.
- 15/Jan/2020 - O flyer e o site ficam prontos. O domínio cidamo.com.br é comprado e o site é colocado lá.
- 20/Jan/2020 - Adicionamos Google Analytics no site. As inscrições são abertas por volta das 16h. Posts no linkedin e twitter são criados, e e-mails são enviados. As primeiras 43 inscrições são feitas.
- 31/Jan/2020 - As inscrições são fechadas.
Agradecimentos
Aproveito para deixar os agradecimentos a todos os envolvidos na organização e realização do evento. Todos os membros do CiDAMO estão de parabéns pelo envolvimento. Além dos membros do CiDAMO, também agradeço:
- Boticário, por fornecer o problema do Hackathon e os prêmios;
- Math Analytics, que ajudou na realização técnica do Hackathon;
- EBANX e Olist, pelo apoio financeiro ao café;
- Os professores César Taconeli e Walmes Zeviani, e o aluno Henrique Laureano do LEG/Departamento de Estatística da UFPR, por se disporem a dar aulas no minicurso;
- Wagner Bonat, por organizar a sessão de estatística;
- Os palestrantes de empresas;
- Os participantes;
- Departamento de Matemática;
- UFPR;
- Foto de Curitiba usada no Poster por Bruno Adamo Bruno Adamo.
Artes
Flyer
Poster
Imagem por Roel Dierckens