Ciência de Dados

ÁREA

Tecnologia da Informação

O que é o Curso

A pós-graduação em Ciência de Dados possui um programa inovador concebido para formar profissionais de diversas áreas multidisciplinares, que buscam combinar competências, como programação, estatística e análise de negócio, para extrair conhecimento de diversas bases de dados. Os profissionais aplicam algoritmos de aprendizado de máquina a diferentes tipos de dados para desenvolver sistemas automatizados capazes de executar tarefas que normalmente exigem inteligência humana.

Nos últimos anos a demanda por cientistas de dados aumentou em função da necessidade cada vez mais rápida e competitiva das empresas a respostas do mercado, analisando dados e extraindo soluções e oportunidades que possam surgir. Os cientistas de dados são muito requisitados, pois agregam muito valor ao negócio. E em função da falta de profissionais qualificados, proporciona bons salários e muita satisfação no trabalho.

O principal objetivo deste curso é formar profissionais multidisciplinares, capacitando-os com conhecimentos teóricos científicos, técnicos e informacionais, práticos e em sintonia com as novas tecnologias disponíveis em ciência de dados.

Estas, irão lhe proporcionar apreender métodos de coleta, compilação e análise de dados que são essenciais para acompanhar as demandas competitivas do mercado corporativo.

Matriz Currícular

Objetivos do Curso

Formar profissionais capazes de analisar o estado da arte de Big Data e Business Analytics com forte embasamento conceitual e prático;
Capacitar os participantes na análise dos problemas empresariais e a projetar, desenvolver e gerenciar projetos que demandam técnicas atuais para análise de grandes volumes de dados, de maneira a apoiar a empresa para que ela alavanque sua competitividade;
Mostrar a importância dos dados no âmbito da organização, bem como elaborar e executar o processo de garantia de qualidade dos mesmos e desenvolver os conceitos relacionados à sua governança;
Curso com viés prático, análises e estudos de casos;
Professores com experiência e formação comprovada;
Módulos condensados, com calendário pré-estabelecido, facilitando a organização do tempo do estudante.

Estrutura Curricular:

Módulo 1: Probabilidade Estatística

Ementa: Papel da Estatística em Ciência de Dados; As três grandes áreas da estatística, População e Amostra; Garantia representativa da amostra; Parâmetros x Estatísticas; Fonte de Dados, Informação, Observação; Variáveis, Estatística Descritiva, Medidas de tendência central, Medidas de Posição relativa, Medidas de Dispersão, Histograma, Covariância, Probabilidade Clássica, Empírica e Subjetiva, Eventos, Variáveis, aleatórias, discretas e contínuas, Papel da Probabilidade em Ciência de Dados, Conceitos e Tipos de Distribuição de Probabilidade, Amostragem Probabilística, Escore z, Nível e intervalo de confiança, valor crítico, Análise de regressão, Teste de Hipótese.

Módulo 2: Linguagem de programação para ciência de dados

Ementa: Lógica de programação, uso das linguagens Python e R aplicadas à ciência de dados. Os tópicos abordam desde tipos de variáveis, estruturas de programação até a utilização de bibliotecas que permitam a manipulação e análise de diferentes tipos de dados.

Módulo 3: Análise de dados

Ementa: Produção de Dados; Armazenamento Analítico; Análise de Dados; Problemas e Soluções em Análise de Dados; Análise de Dados Categóricos; Métricas de Desempenho; Indicadores; Sistemas de Medição. Formatar e combinar dados. Tabelas Dinâmicas. Uso do Power BI. Criação de Painéis (Dashboard’s). Auditoria de dados. Importação de dados (Texto, Redes Sociais e Bancos Relacionais).

Módulo 4: Métricas e visualização de dados

Ementa: Storytelling e técnicas de apresentação, Métodos de visualização, O aspecto humano da Visualização, A importância das imagens, Organização Visual e Técnicas de visualização, Iconografia e avaliação de estratégias de visualização.

Módulo 5: Banco de Dados

Ementa: Modelagem de dados, armazenamento e recuperação de dados, além do uso de Sistemas Gerenciadores de Banco de Dados Relacionais (SGBDRs). Conceitos de bancos de dados (níveis conceitual, lógico e físico), modelo Entidade-Relacionamento Estendido, Modelo Relacional, mapeamento entre modelos conceitual e lógico, linguagem de consulta SQL, organização física de dados (páginas de disco, arquivos, campos e registros) e estruturas de indexação (árvore-B e variantes, hashing e bitmap). Bancos de Dados NoSQL. Bancos de Dados RDF. Manipulação de bases de dados publicamente disponíveis.

Módulo 6: Extração, tratamento e carregamento de dados (ETL)

Ementa: Extração de dados, tratamento, limpeza de dados e engenharia de novos atributos (Feature Engineering), para posterior carregamento e armazenamento em um sistema que possibilitará a realização de exploração, análises e cruzamentos dessas informações.

Módulo 7: Modelos de Classificação e Clusterização

Ementa: Apresentar modelo de aprendizado de máquina supervisionado e não supervisionado de modelos com variáveis categóricas e técnicas de modelagem e criação desses modelos para solução de problemas reais. Entender como avaliar performance e propor a melhoria contínua dos produtos. Dentre eles podemos destacar KMN, Naive Bayes, K-means, arvores de decisão e redes neurais artificiais.

Módulo 8: Modelos de Regressão

Ementa: Modelo de Regressão Linear Simples; Modelo de Regressão Linear Múltipla; Inferência: testes de hipótese e intervalos de confiança; Forma funcional, critérios de ajuste, previsão e resíduos; Multicolinearidade: natureza, consequência e diagnósticos; Regressores qualitativos (variáveis dummy), interações e teste de estabilidade estrutural; Heterocedasticidade: natureza, consequência e testes; Problemas de especificação em regressão; Modelo de regressão logística para dados binários.

Módulo 9: Modelos de Processamento de Linguagem Natural (ChatGPT)

Ementa: Definição, Escopo e Terminologia: Linguística Computacional, Processamento de Linguagem Computacional, Processamento de Linguagem Natural (PNL). Uma introdução à linguística computacional por meio de aplicativos. Uma elaboração de diferentes perspectivas linguísticas em inteligência artificial e dos principais recursos linguísticos utilizados na computação linguística.

Módulo 10: Versionamento e Publicação de soluções para Data Science

Ementa: Trazer boas práticas de versionamento, trabalho com múltiplo desenvolvedores e cientistas, manutenção e ciclo de vida de modelos, e publicação de soluções de ciência de dados. Deploy em ambientes On Primise e Cloud, apresentar proposta de trabalho e versionamento de soluções através de git e github.

Metodologia de Ensino:

Aulas Síncronas;
Estudos de caso e simulações;
Discussões em grupo e análise de situações reais;
Visitas técnicas e estágios supervisionados.

Periodicidade

Aulas síncronas: uma vez por semana, das 19h às 22h.

Avaliação

Provas escritas;
Participação em atividades práticas;
Trabalho de conclusão de curso;
Avaliação contínua ao longo dos módulos.

Modalidade

Digital

Turno

Noturno

Duração

10 Meses

Desconto válido para pagamento da mensalidade no dia 01 do mês para ingressantes do 2024..1. Para demais condições e/ou datas de pagamento,, consulte nosso site e editais.

Como funciona a Pós-Graduação Digital no UNISANTACRUZ

Você tem alguma dúvida?
Entre em contato:

41 3052-4900

Redes Sociais

Institucional

Horário de Atendimento

Endereço: Rua: Affife Mansur, 565 | Novo Mundo | Curitiba-PR