C언어 문자열 함수

문자열을 다룰때 어떤 문자열 단위로 자르고 싶은 경우나 어떤 문자열에서 임의의 문자열을 찾고 싶은 경우가 있지 않았나요?

그 경우에 사용할 수 있는 문자열 함수를 소개하려고 합니다. 문자열 함수를 사용하기 위해서는 항상 string.h 헤더 파일을 include해야한다는 것을 잊지 마세요.


strtok

이 함수가 문자열을 어떤 문자열 기준으로 자르는 역할을 하는 함수입니다. 일단 함수의 원형을 보시죠.


char *strtok(char *str, const char *delimiters);


2개의 파라미터를 갖고 있죠.


- str : 우리가 어떤 문자열을 자를지 넘겨받는 매개변수입니다.

- delimiters: 구분자라고 합니다. 여기서 자를 기준을 결정하는 것이지요.


예를 들어 str이 "show_me_the_money"라고 합시다. 그리고  문자열을 "_"(구분자)를 기준으로 자른다고 합시다. 그렇다면 show, me, the, money라는 4개의 문자열로 잘리겠죠.


- 반환값 : 잘린 문자열을 반환합니다. 만약 문자열이 전부 끝났다면 NULL을 반환하게 되지요.




이제 함수의 기본적인 설명은 여기까지하고 코드를 보면서 사용법을 확실히 알아보도록 하겠습니다.



strtok source code

#include <stdio.h>
#include <string.h>
int main() {
	
	char str[32] = "show_me_the_money";
	char *tok=strtok(str, "_");

	while (tok != NULL) {
		printf("token : %s\n", tok);
		tok = strtok(NULL, "_");
	}
	printf("기존 문자열 :%s\n", str);
}


우선 결과를 보고 왜 이런 결과가 나왔는지 알아보도록 하지요.


결과


token : show

token : me

token : the

token : money

기존 문자열 :show



이 코드에서는 위의 예와 마찬가지로 "show_me_the_money"라는 문자열을 자르고 있습니다.

strtok는 처음 str 매개변수에 NULL이 아닌 문자열을 사용하면 자를 문자열을 넘겨받은 문자열로 결정합니다.

이후 실행할때 str에 NULL을 전달하면 이전에 설정했던 문자열을 계속해서 자르는 것이죠.


그래서 반복문 while루프 안에서는 strtok에 str인자를 NULL로 넘겨주고 있는 것이죠. 잘 잘려지고 있기는 합니다.


하지만 마지막 줄을 보세요.

마지막 줄은 기존의 문자열 str을 출력하고 있는데 "show_me_the_money"가 출력되지 않고 "show"만 출력이 되고 있습니다. 왜 기존의 문자열인str[32]="show_me_the_money"가 출력이 되지 않는 것일까요?


strtok는 눈치채셨겠지만 자를 문자열을 변환시키면서 문자열을 잘라나갑니다.

우리는 문자열의 마지막 문자가 NULL문자로 끝난다는 것을 알고 있습니다. 그렇다면 마지막에 str이 "show"만을 출력했다는 것은 "show\0"가 된 것을 짐작할 수 있을까요?


"show"이후 문자는 바로 '_' 문자인데, '_'문자가 '\0'인 NULL문자로 바뀌게 된 것 아닐까요?

결론부터 얘기하자면 맞습니다. 우리는 이 한가지만 기억합시다.


문자열의 끝은 모두 '\0'(NULL) 문자로 끝이난다.



이거 하나만 기억하고 strtok가 어떻게 문자열을 자르게 되는지 그 과정을 살펴보도록 합시다.


우선 str이라는 문자열은 다음과 같이 메모리에 잡혀있을 겁니다.





이제 strtok(str,"_")를 호출하는 순간 str에서 "_"라는 문자열이 나올때 그 문자열 자리를 \0로 채우게 됩니다. 그 뒤에 ptr을 반환하게 됩니다. 바로 str[0]의 주소지요.


ptr은 위의 코딩에서 tok가 넘겨받게 되지요. 그래서 tok는 \0까지를 문자열로 인식하게 되므로 처음에는 "show"가 출력되게 되는 것이죠.




이후 ptr을 '\0'다음으로 위치시킵니다. 또 "_"가 나오면 그 자리를 NULL문자로 채우고 ptr의 주소를 반환합니다. 그렇다면 str[5]의 주소가 되겠지요.




이 후 ptr을 str[8]자리로 위치시킵니다. 이 자리는 '\0' 다음 위치지요. 다음에 나오는 "_"를 NULL로 채운 후 ptr을 반환시킵니다.




이제 '\0' 이후에 ptr을 위치시켜 다음 "_"를 찾는데 이제 "_"를 찾을 수 없고 '\0'문자를 만나게 되니까 "money"만을 출력하게 되는 것이죠. 




이 후에는 문자열이 종료되었으므로 strtok는 NULL을 반환하고 while반복문은 종료가 됩니다.


그렇다면 이제 다음 드는 의문은 strtok는 어떻게 ptr의 주소를 기억하고 있을까라는 점입니다. 그런 의문 안드세요?

왜냐면 함수는 종료가 되면 모든 지역변수를 반환하게 되는데 어떻게 ptr이라는 변수는 기억하고 있을까요?

바로 지역변수가 아니기 때문입니다. 변수나 자료형, 메모리 공간을 충분히 알고 있다면 ptr은 정적변수로 선언이 되었다는 것을 눈치챘을 겁니다. 그렇기 때문에 함수가 종료되어도 ptr은 다음 자를 문자열의 주소를 기억하고 있는 겁니다.




제가 한 설명이 의심이 된다면 한번 실험을 해보는 것도 나쁘지 않습니다.

다음의 코드를 실행시켜보세요.


strtok source code2

#include <stdio.h>
#include <string.h>

int main() {

	char str[32] = "show_me_the_money";
	int len = strlen(str);
	int i;
	char *tok;

	for (i = 0; i < len; i++)
		printf("'%c' : str[%d]의 주소:%p\n", str[i], i, &str[i]);
	printf("\n");

	tok = strtok(str, "_");
	while (tok != NULL) {
		printf("token : %s, address:%p\n", tok,tok);
		tok = strtok(NULL, "_");
	}
	printf("\n");

}


만일 제 설명이 맞다면 str을 자른 tok의 주소들이 "_" 이후의 주소들과 같을 겁니다. 왜냐면 "_"이후가 바로 자른 문자열의 시작주소이기 때문이죠.


결과를 보면서 확인해보세요.


결과

token : show, address:008FFC68

token : me, address:008FFC6D

token : the, address:008FFC70

token : money, address:008FFC74


's' : str[0]의 주소:008FFC68

'h' : str[1]의 주소:008FFC69

'o' : str[2]의 주소:008FFC6A

'w' : str[3]의 주소:008FFC6B

' ' : str[4]의 주소:008FFC6C

'm' : str[5]의 주소:008FFC6D

'e' : str[6]의 주소:008FFC6E

' ' : str[7]의 주소:008FFC6F

't' : str[8]의 주소:008FFC70

'h' : str[9]의 주소:008FFC71

'e' : str[10]의 주소:008FFC72

' ' : str[11]의 주소:008FFC73

'm' : str[12]의 주소:008FFC74

'o' : str[13]의 주소:008FFC75

'n' : str[14]의 주소:008FFC76

'e' : str[15]의 주소:008FFC77

'y' : str[16]의 주소:008FFC78



strstr

문자열에서 임의의 문자열을 찾을 수 있는 함수가 string.h에 존재합니다. 바로 strstr이라는 함수이지요.

char *strstr( char *str1, const char *str2);


- str1 : 전체 문자열을 의미합니다. str1이 이제 문자열을 찾을 대상이 되지요.

- str2 : 찾을 문자열을 의미합니다. 이 문자열을 str1에서 찾는 것입니다.


반환값 : str1에서 str2를 찾는다면 그 시작주소를 반환하게 됩니다. 찾지못하면 NULL을 반환합니다.


이제 예제를 보면서 함수를 어떻게 사용하는지 보도록 하지요.


▼strstr source code

#include <stdio.h>
#include <string.h>
int main() {

	char str[64] = "When I was young, I was ugly. But now, I'm still ugly";
	char *word = "ugly";
	char *ptr = strstr(str, word);
	int jump = strlen(word);
	int found = 0;
	while (ptr != NULL) {
		printf("%s\n", ptr);
		ptr = strstr(ptr + jump, word);
		found++;
	}

	printf("단어 갯수 :%d\n", found);
}

위의 코드는 str이라는 문자열에서 word라는 문자열을 찾습니다. 한번만 찾는게 아니고 계속해서 찾는거죠.
그러기 위해서 만약 단어를 찾으면 그 다음부터 찾아야하죠. 물론 ptr+1로 그냥 바로 다음 문자부터 찾으면 되겠지만 조금 더 많이 건너 뛰기 위해서 jump라는 변수를 사용한것 뿐입니다. 




그리고 found는 str에 그 word가 몇개나 존재하는지 알려줍니다.

아차, strstr 역시 str의 문자열 중 word와 일치한다면 일치한 str의 시작 주소를 넘겨주게 됩니다.
못 믿겠으면 직접 실험해보도록 하세요.

이제 결과를 보면서 확인해보세요.

결과

ugly. But now, I'm still ugly

ugly

단어 갯수 :2



여기까지 문자열 처리함수를 2개나 알아보았는데요. 물론 저의 설명이 허접해서 이해를 못하는 부분이 있을 수 있으니, 모르면 그냥 외워서 사용하도록 합시다.

반응형
블로그 이미지

REAKWON

와나진짜

,

 

 

C언어 문자열 처리 함수

문자열 처리는 어느 언어에서나 중요하죠.

우선 C언어에서 문자열을 처리하려면 string.h를 반드시 포함해야합니다. 

 

※이제부터 설명하는 함수들은 보안적인 취약점이 발견되있는 함수들이 있습니다. 테스트를 해보시기 전에 SDL을 NO로 설정하세요.

Project - [Project Name] Properties - (왼쪽) C/C++ - SDL checks : No
또는 전처리 구문을 사용합니다.

#define _SECURE_CRT_NO_WARNINGS

 

가장 많이 쓰이는 4개의 함수에 대해서만 우선 알아 보도록 합시다.

 

 문자열 길이  size_t strlen(const char *str) 

문자열을 input으로 넣어주면 반환되는 문자열의 길이가 나오게 됩니다. NULL문자

까지가 아닌 순수 문자열의 길이를 반환해주게 됩니다.

 

ex)

char str[20] = "hello, world";

int len = strlen(str);

 

문자열 연결 char* strcat(char *_Destination, const char* _Source)

문자열을 합치게 됩니다. _Destination 뒤에 _Source를 이어주게 됩니다. 주의해야 할 점은 매개변수로 _Destination은 배열로써 그 크기가 지정되어진 문자열이어야 합니다. 

ex) 

char dst[30]="dst";    //char *dst="dst"; 로 바꾸게 되면 error가 나오게 됩니다.

char src[30]="src";

printf("%s \n", strcat(dst,src));

 

문자열 비교 int strcmp(const char *_Str1, const char *_Str2)

문자열을 비교하게 됩니다.  

_Str1이 _Str2보다 사전순으로 나중에 등장하면 1

_Str1이 _Str2보다 사전순으로 먼저 등장하면 -1

_Str1과 _Str2와 사전순이 같다면 0

 

보통 문자열을 비교할때 이 함수를 사용하는데 두 문자열이 같다면 0이 나오기 때문에 문자열이 같은 지 if문에서 확인하려면 !strcmp(str1,str2)로 확인해야 합니다. 왜냐면 str1,str2가 같다면 0(FALSE)가 반환되기 때문이죠.

 

문자열 복사 char* strcpy(char *_Dest, const char *_Source)

문자열 _Source를 _Dest에 복사합니다. strcat와 마찬가지로 _Dest는 배열의 형태로 넘겨받습니다. _Dest에 _Source문자열을 합치기 때문에 _Dest는 _Source의 문자열을 포함할 만큼 크기가 커야합니다.

 

ex)

char _dest[20] = "hello,";

char _src[10] = "world";

strcat(_dest, _src);

 

 

 

 

위 네 가지 함수를 실제로 적용시켜볼까요??

#include<stdio.h>
#include<string.h>

int main() {

	char country[32] = "korea";
	char south[32] = "south";
	char southkorea[32] = "southkorea";
	char south_korea[32] = "South Korea";

	printf("문자열의 길이 : %d\n", strlen(country));

	strcat(south, country);
	printf("문자열 결합 : %s\n", south);

	printf("문자열 비교 : ");
	if (!strcmp(south, southkorea)) {
		printf("%s = %s\n", south, southkorea);
	}
	else {
		printf("%s != %s\n", south, southkorea);
	}


	strcpy(southkorea, south_korea);
	printf("문자열 복사 : %s\n", southkorea);

}

 

그리고 그 결과입니다.

 

이상으로 문자열과 관련해서 자주쓰이는 함수 몇가지를 살펴보았습니다.

 

 

반응형
블로그 이미지

REAKWON

와나진짜

,