Análise de string em C

Supõe-se que seja um código ANSI C89 pedante estrito. Deve extrair word1, word2 e word3 de uma string formatada [palavra1] palavra2 [ word3] e falha de retorno em qualquer outro formato.

Parece funcionar, mas parece tão feio. Não há necessidade de comentar sobre o fato de que GetTokenBetweenSquareBraces e GetTokenBtweenOpositeSquareBraces são duplicatas.

Eu adoraria algumas dicas sobre como fazer limpe isso.

#include <stdio.h> #include <string.h> #include <ctype.h> char * TrimWhiteSpaces(char *str) { char *out = str; int i; int len = strlen(str); for (i=0; i<len && isspace(str[i]); i++, out++); /*scan forward*/ for (i=len-1; i>=0 && isspace(str[i]); str[i]=0, i--);/*scan backward*/ return out; } char * GetTokenBetweenSquareBraces(char * input, char **output, int * output_size) { char *p = TrimWhiteSpaces(input); *output_size=0; if (p[0] == "[") { *output = TrimWhiteSpaces(p + 1); do { (*output_size)++; }while((*output)[*output_size] != "]" && isalnum((*output)[*output_size])); } else { return NULL; } return (*output) + *output_size; } char * GetTokenBtweenOpositeSquareBraces(char * input, char **output, int * output_size) { char *p = TrimWhiteSpaces(input); *output_size=0; if (p[0] == "]") { *output = TrimWhiteSpaces(p + 1); do { (*output_size)++; }while((*output)[*output_size] != "[" && isalnum((*output)[*output_size])); } else { return NULL; } return (*output) + *output_size; } int GetWords(char * str,char * word1,char * word2,char * word3) { char * next=NULL,*output=NULL; int outputsize; printf ("\nSplitting string \"%s\" into tokens:\n",str); next = GetTokenBetweenSquareBraces (str,&output,&outputsize); strncpy(word1,output,outputsize); word1[outputsize] = "\0"; strcpy(word1,TrimWhiteSpaces(word1)); if(!next) return 0; next = GetTokenBtweenOpositeSquareBraces (next,&output,&outputsize); strncpy(word2,output,outputsize); word2[outputsize] = "\0"; strcpy(word2,TrimWhiteSpaces(word2)); if(!next) return 0; next = GetTokenBetweenSquareBraces (next,&output,&outputsize); strncpy(word3,output,outputsize); word3[outputsize] = "\0"; strcpy(word3,TrimWhiteSpaces(word3)); if(!next) return 0; return 1; } void TestGetWords(char * str ) { char word1[20],word2[20],word3[20]; if (GetWords(str,word1,word2,word3)) { printf("|%s|%s|%s|\n",word1,word2,word3); } else { printf("3ViLLLL\n"); } } int main (void) { char str[] ="[ hello ] gfd [ hello2 ] "; char str2[] ="[ hello [ gfd [ hello2 ] "; char str3[] ="the wie321vg42g42g!@#"; char str4[] ="][123[]23][231["; TestGetWords(str); TestGetWords(str2); TestGetWords(str3); TestGetWords(str4); getchar(); return 1; } 

Comentários

  • Primeiro, corrija seu recuo. O mecanismo de markdown não ‘ gosta de guias – substitui-as por espaços.
  • @LokiAstari: parece que você substituiu seu código original.
  • Ops. Desculpe. Corrigido meu problema, espero. Peguei o código do artigo no meta. corrigiu o problema da guia e colocou-o de volta. Se isso não estiver correto, sinto muito, mas não consigo ‘ não reverter uma versão.
  • @LokiAstari: Sim, parece muito melhor.

Resposta

#include <stdio.h> #include <string.h> #include <ctype.h> char * TrimWhiteSpaces(char *str) { char *out = str; int i; int len = strlen(str); for (i=0; i<len && isspace(str[i]); i++, out++); /*scan forward*/ 

Eu “d pelo menos teria um corpo com um comentário aqui. É fácil perder o ponto-e-vírgula. Não acho que você precise do i < len teste. O 0 no final da string deve falhar no teste isspace e, portanto, você não precisa verificar o comprimento também. Também não faz sentido manter o controle de i. Em vez disso, use apenas out.

 for (i=len-1; i>=0 && isspace(str[i]); str[i]=0, i--);/*scan backward*/ 

Não é realmente necessário definir todos esses espaços para 0. No geral, você está trabalhando muito nessa linha. Você deve pelo menos fazer apenas a configuração 0 dentro do corpo do loop porque não tem nada a ver com o controle do loop.

 return out; 

Geralmente, é melhor modificar seus parâmetros ou retornar novos. Não faça as duas coisas. Aqui você retorna um novo ponteiro de string e modifica a string original.

} char * GetTokenBetweenSquareBraces(char * input, char **output, int * output_size) { char *p = TrimWhiteSpaces(input); *output_size=0; if (p[0] == "[") { *output = TrimWhiteSpaces(p + 1); do { (*output_size)++; }while((*output)[*output_size] != "]" && isalnum((*output)[*output_size])); 

] não é um número ou uma letra. Você não precisa de ambos os testes.

 } else { return NULL; } return (*output) + *output_size; } char * GetTokenBtweenOpositeSquareBraces(char * input, char **output, int * output_size) { char *p = TrimWhiteSpaces(input); *output_size=0; if (p[0] == "]") { *output = TrimWhiteSpaces(p + 1); do { (*output_size)++; }while((*output)[*output_size] != "[" && isalnum((*output)[*output_size])); } else { return NULL; } return (*output) + *output_size; } 

Deja Vu! É quase exatamente igual à função anterior. Apenas as direções dos colchetes foram invertidas. Parece que você deve ser capaz de compartilhar esse código.

int GetWords(char * str,char * word1,char * word2,char * word3) { char * next=NULL,*output=NULL; int outputsize; printf ("\nSplitting string \"%s\" into tokens:\n",str); 

Geralmente, eu não recomendo que suas funções de trabalho façam qualquer saída. Também escolha estranha de onde colocar novas linhas.

 next = GetTokenBetweenSquareBraces (str,&output,&outputsize); strncpy(word1,output,outputsize); word1[outputsize] = "\0"; strcpy(word1,TrimWhiteSpaces(word1)); 

Por que você está cortando os espaços em branco aqui? Você ainda não fez isso. Você está trabalhando muito para copiar o texto. Talvez seja algo que GetTokenBetweenSquareBraces deveria ter feito?

 if(!next) return 0; next = GetTokenBtweenOpositeSquareBraces (next,&output,&outputsize); strncpy(word2,output,outputsize); word2[outputsize] = "\0"; strcpy(word2,TrimWhiteSpaces(word2)); if(!next) return 0; 

Deja Vu!

 next = GetTokenBetweenSquareBraces (next,&output,&outputsize); strncpy(word3,output,outputsize); word3[outputsize] = "\0"; strcpy(word3,TrimWhiteSpaces(word3)); if(!next) return 0; 

Deja Vu!

 return 1; } void TestGetWords(char * str ) { char word1[20],word2[20],word3[20]; 

Seu código não é cuidadoso para se certificar de que você não estourou essas variáveis. Você pode querer fazer algo sobre isso

 if (GetWords(str,word1,word2,word3)) { printf("|%s|%s|%s|\n",word1,word2,word3); } else { printf("3ViLLLL\n"); } } int main (void) { char str[] ="[ hello ] gfd [ hello2 ] "; char str2[] ="[ hello [ gfd [ hello2 ] "; char str3[] ="the wie321vg42g42g!@#"; char str4[] ="][123[]23][231["; TestGetWords(str); TestGetWords(str2); TestGetWords(str3); TestGetWords(str4); 

Para fins de teste automatizado, é realmente melhor se você fornecer a resposta correta e verificar no código. Dessa forma, o programa avisará quando estiver errado.

 getchar(); return 1; 

0 é usado para indicar uma execução bem-sucedida do programa.

} 

Em geral, seu programa é feio porque você está usando o vocabulário errado. Você considerou o vocabulário dado em vez de definir o vocabulário que tornou a tarefa fácil de descrever. Aqui está minha abordagem para o seu problema

char * Whitespace(char * str) /* This function return the `str` pointer incremented past any whitespace. */ { /* when an error occurs, we return NULL. If an error has already occurred, just pass it on */ if(!str) return str; while(isspace(*str)) { str++; } return str; } char * Character(char * str, char c) /* This function tries to match a specific character. It returns `str` incremented past the character or NULL if the character was not found */ { if(!str) return str; /* Eat any whitespace before the character */ str = Whitespace(str); if(c != *str) { return NULL; } else { return str + 1; } } char * Word(char * str, char * word) /* This function reads a sequence of numbers and letter into word and then returns a pointer to the position after the word */ { /* Handle errors and whitespace */ if(!str) return str; str = Whitespace(str); /* copy characters */ while(isalnum(*str)) { *word++ = *str++; } *word = 0; /* don"t forget null!*/ return str; } int GetWords(char * str,char * word1,char * word2,char * word3) { str = Character(str, "["); str = Word(str, word1); str = Character(str, "]"); str = Word(str, word2); str = Character(str, "["); str = Word(str, word3); str = Character(str, "]"); str = Character(str, "\0"); return str != NULL; } 

O que eu ” O que fizemos (ou tentei) foi escrever as funções de caractere, espaço em branco e palavra de forma que fossem realmente muito simples. Se você entende char *, não deve ter nenhum problema com eles. Mas essas ferramentas simples combinam muito bem para permitir uma implementação direta de seu analisador.

Comentários

  • +1 para ” Geralmente, não recomendo que suas funções de trabalho gerem qualquer saída “. Além disso, uma solução muito boa e limpa.

Resposta

Isso talvez seja um pouco menos feio, mas o manuseio de strings nunca será bonito em C.

static const char * skip_space(const char *s) { return s + strspn(s, " "); } static const char * skip_bracket(const char * s, int bracket) { s = skip_space(s); if (*s != bracket) return NULL; return skip_space(++s); } static const char * skip_word(const char * s) { return s + strcspn(s, " []"); } static const char * copy_word(char *w, const char *s, size_t size) { const char * end = skip_word(s); size_t len = end - s; if (len >= size) /* silently truncate word to buffer size */ len = size - 1; memcpy(w, s, len); w[len] = "\0"; return skip_space(end); } static int get_words(const char *s, char *w1, char *w2, char *w3, size_t size) { if ((s = skip_bracket(s, "[")) == NULL) return 0; s = copy_word(w1, s, size); if ((s = skip_bracket(s, "]")) == NULL) return 0; s = copy_word(w2, s, size); if ((s = skip_bracket(s, "[")) == NULL) return 0; s = copy_word(w3, s, size); if ((s = skip_bracket(s, "]")) == NULL) return 0; return 1; } 

Resposta

Você pode usar uma máquina de estado para concluir esta tarefa,

#include <stdio.h> #include <string.h> void Tokenize(char* s) { // the following array return new state based on current state and current scanned char // Input: * [ ] space Print Tokenize Current State Expression /*Next state:*/char StateArray[12][3][4] = {{{11,1,11,0} ,{0,0,0,0},{0,0,0,0} }, //0 {space}*{[} {{2,11,11,1} ,{1,0,0,0},{0,0,0,0}}, //1 {space}*{char} {{2,11,4,3} ,{1,0,0,0},{0,0,1,0}}, //2 {char}*{space}?{]} {{11,11,4,3} ,{0,0,0,0},{0,0,1,0}}, //3 {space}*{]} {{5,11,11,4} ,{1,0,0,0},{0,0,0,0}}, //4 {space)*{char} {{5,7,11,6} ,{1,0,0,0},{0,1,0,0}}, //5 {char}*{space}?{[} {{11,7,11,6} ,{0,0,0,0},{0,1,0,0}}, //6 {space}*{[} {{8,11,11,7} ,{1,0,0,0},{0,0,0,0}}, //7 {space}*{char} {{8,11,10,9} ,{1,0,0,0},{0,0,1,0}}, //8 {char}*{space}?{]} {{11,11,10,9} ,{0,0,0,0},{0,0,1,0}}, //9 {space}*{]} {{11,11,11,10} ,{0,0,0,0},{0,0,0,0}}, //10 {space}* {{11,11,11,11} ,{0,0,0,0},{0,0,0,0}} }; char state=0; int len = strlen(s); for(int i =0;i<len;i++) { if(StateArray[state][1][(s[i]^91)? ((s[i]^93)?((s[i]^32)? 0:3):2):1]) printf("%c",s[i]); if(StateArray[state][2][(s[i]^91)? ((s[i]^93)?((s[i]^32)? 0:3):2):1]) printf("\n"); state=StateArray[state][0][(s[i]^91)? ((s[i]^93)?((s[i]^32)? 0:3):2):1]; switch(state) { case 11: printf("Error at column %d",i); case 10: if(i==len-1) { printf("\nParsing completed"); } } } } int main(void) { char* s= " [ word1 ] word2word [ 3 ] "; // test string Tokenize(s); } 

Comentários

  • Olá, e bem-vindo à revisão do código. Este código não é realmente uma revisão. Em vez disso, é uma maneira alternativa de fazer as coisas com poucas explicações sobre o que faz, por que funciona e por que é melhor do que o original. Além disso, acho que atravesse-o e se preocupe com a falta de colchetes, falsos casos de declarações e obscuras manipulações bit a bit que não estão documentadas. Considere adicionar detalhes sobre por que isso é melhor, o que ele resolve de forma diferente para o OP e por que essas escolhas contribuem para um código melhor.
  • Você criou isso manualmente ou há alguma ferramenta envolvida? Gosto do conceito, mas ‘ d ficaria com medo de apoiá-lo. Existem tantos números mágicos.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *