Eu sei que isso seria uma fecunda inferência estatística, mas eu realmente só estou preocupado em obter o mais próximo possível de um modelo preciso. Eu tenho uma variável de resultado dicotômica, com um grande conjunto de preditores dicotômicos. Estou pensando que eu gostaria de tentar usar o LASSO para selecionar quais variáveis eu deveria incluir no meu modelo e, em seguida, insira as variáveis selecionadas em uma regressão Logit. Há algo que eu estou negligenciando quando se trata da praticidade dessa abordagem perguntada 26 de janeiro 15 às 21:35 Primeiro, não há garantia de que um modelo de probabilidade linear aproximará um modelo de logit muito bem, conseqüentemente, o subconjunto de variáveis selecionadas para um pode ser Menos apropriado para o outro. Em segundo lugar, a re-montagem não aplica nenhum encolhimento, apesar da seleção de variáveis que ocorreu no primeiro passo, levando em risco um mis-calibração grave, talvez uma pequena perda de discriminação. Você pode validar o procedimento em um determinado conjunto de dados, mas não parece seguro em geral, nem oferecer qualquer vantagem sobre uma regressão logística gradual. E é claro que a penalidade desnecessária LASSOs L1-norma pode ser usada para seleção de amplificador de encolhimento em regressão logística. Respondeu Jan 27 15 às 13: 56 Estou tendo confusão e dificuldades usando glmnet com lLASSOasso onde meu resultado de interesse é dicotômico. Eu criei um pequeno quadro de dados falso abaixo: As colunas (variáveis) no conjunto de dados acima são as seguintes: idade (idade da criança em anos) - gênero contínuo - binário (1 macho de 0 fêmea) bmip (percentil de IMC) - medalha contínua (Nível de ensino superior da mãe) - ordinais (0 menos do que o ensino médio 1 diploma do ensino médio 2 grau de bacharelado 3 pós-bacharelado) pedu (nível de ensino superior do pai) - ordinal (mesmo como medu) fcolor (cor primária favorita) - nominal (igual a medu) Azul, vermelho ou amarelo) asma (estado da asma infantil) - binário (1 asma 0 sem asma) O objetivo deste exemplo é fazer uso do LASSO para criar um modelo que preveja o estado da asma infantil a partir da lista de 6 possíveis variáveis preditoras ( Idade, gênero, bmip. Medu. Pedu. E fcolor). Obviamente, o tamanho da amostra é um problema aqui, mas espero obter mais informações sobre como lidar com os diferentes tipos de variáveis (isto é, contínuo, ordinário, nominal e binário) dentro da estrutura do glmnet quando o resultado é binário (1 asma 0 Sem asma). Como tal, alguém estaria disposto a fornecer um exemplo de script R, juntamente com as explicações para este exemplo tolo usando LASSO com os dados acima para prever o status de asma. Embora muito básico, eu sei que eu, e provavelmente muitos outros em CV, apreciaria muito isso, perguntou 8 de outubro às 15:56 A linha xfactors lt-model. matrix (asthma gender medu pedu fcolor), - 1 codifica a variável categórica fcolor (como declarado por as. factor nas linhas anteriores). Ele deve usar a codificação de variável dummy padrão de R, a menos que o argumento contrastts. arg seja fornecido. Isso significa que todos os níveis de fcolor são igualmente ponderados e não direcionais, exceto para o primeiro que é usado como a classe de referência e absorvido na intercepção. Ndash Alex Out 27 15 às 5:16
Comments
Post a Comment