URL을 파싱하자

  1. 요약
    AfxParseURL()을 이용하여 URL을 파싱할 수 있다.
  2. 본문
    AfxParseURL()은 URL을 파싱하기위한 MFC 함수입니다. 사용법은 AfxParseURL의 인자로 URL의 문자열을 입력하면 서버와 프로토콜과 포트를 파싱해서 넘겨줍니다.

    BOOL AFXAPI AfxParseURL( LPCTSTR pstrURL, DWORD& dwServiceType, CString& strServer,
                             CString& strObject, INTERNET_PORT& nPort );

    여기까지만 하면 너무 허전하죠… 그래서 MFC를 쓰지않는 프로그램에서는 이런 기능을 구현하기 위해 MFC소스를 분석해 보겠습니다.

    BOOL AFXAPI AfxParseURL(LPCTSTR pstrURL, DWORD& dwServiceType, CString& strServer,
                            CString& strObject, INTERNET_PORT& nPort) 
    { 
        dwServiceType = AFX_INET_SERVICE_UNK;
        ASSERT(pstrURL != NULL); 
        if (pstrURL == NULL) 
            return FALSE;
    
        URL_COMPONENTS urlComponents; 
        memset(&urlComponents, 0, sizeof(URL_COMPONENTS)); 
        urlComponents.dwStructSize = sizeof(URL_COMPONENTS);
    
        urlComponents.dwHostNameLength = INTERNET_MAX_URL_LENGTH; 
        urlComponents.lpszHostName = strServer.GetBuffer(INTERNET_MAX_URL_LENGTH+1); /* ④ */ 
        urlComponents.dwUrlPathLength = INTERNET_MAX_URL_LENGTH; 
        urlComponents.lpszUrlPath = strObject.GetBuffer(INTERNET_MAX_URL_LENGTH+1); /* ⑤ */
    
        BOOL bRetVal = _AfxParseURLWorker(pstrURL, &urlComponents, dwServiceType, nPort,
                                          ICU_BROWSER_MODE); /* 이게 진짜 */
    
        strServer.ReleaseBuffer(); 
        strObject.ReleaseBuffer(); 
        return bRetVal; 
    }

    소스를 보시면 아시겠지만 구조체를 초기화 한다음에 _AfxParseURLWorker에서 모든 처리를 하게한 느낌을 줍니다. 그럼 _AfxParseURLWorker를 한번 보죠.

    AFX_STATIC BOOL AFXAPI _AfxParseURLWorker(LPCTSTR pstrURL, 
                  LPURL_COMPONENTS lpComponents, DWORD& dwServiceType, 
                  INTERNET_PORT& nPort, DWORD dwFlags) 
    { 
        /* this function will return bogus stuff if lpComponents */ 
        /* isn't set up to copy the components */
    
        ASSERT(lpComponents != NULL && pstrURL != NULL); 
        if (lpComponents == NULL || pstrURL == NULL) 
            return FALSE; 
        ASSERT(lpComponents->dwHostNameLength == 0 || 
            lpComponents->lpszHostName != NULL); 
        ASSERT(lpComponents->dwUrlPathLength == 0 || 
            lpComponents->lpszUrlPath != NULL); 
        ASSERT(lpComponents->dwUserNameLength == 0 || 
            lpComponents->lpszUserName != NULL); 
        ASSERT(lpComponents->dwPasswordLength == 0 || 
            lpComponents->lpszPassword != NULL);
    
        ASSERT(AfxIsValidAddress(lpComponents, sizeof(URL_COMPONENTS), TRUE)); /* ① */
    
        LPTSTR pstrCanonicalizedURL; 
        TCHAR szCanonicalizedURL[INTERNET_MAX_URL_LENGTH]; 
        DWORD dwNeededLength = INTERNET_MAX_URL_LENGTH; 
        BOOL bRetVal; 
        BOOL bMustFree = FALSE; 
        DWORD dwCanonicalizeFlags = dwFlags & 
            (ICU_NO_ENCODE | ICU_DECODE | ICU_NO_META | 
            ICU_ENCODE_SPACES_ONLY | ICU_BROWSER_MODE); 
        DWORD dwCrackFlags = dwFlags & (ICU_ESCAPE | ICU_USERNAME);
    
        bRetVal = InternetCanonicalizeUrl(pstrURL, szCanonicalizedURL, 
            &dwNeededLength, dwCanonicalizeFlags); /* ② */
    
        if (!bRetVal) 
        { 
            if (::GetLastError() != ERROR_INSUFFICIENT_BUFFER) 
                return FALSE;
    
            pstrCanonicalizedURL = new TCHAR[dwNeededLength]; 
            bMustFree = TRUE; 
            bRetVal = InternetCanonicalizeUrl(pstrURL, pstrCanonicalizedURL, 
                &dwNeededLength, dwCanonicalizeFlags); 
            if (!bRetVal) 
            { 
                delete [] pstrCanonicalizedURL; 
                return FALSE; 
            } 
        } 
        else 
            pstrCanonicalizedURL = szCanonicalizedURL;
    
        /* now that it's safely canonicalized, crack it */
    
        bRetVal = InternetCrackUrl(pstrCanonicalizedURL, 0, 
            dwCrackFlags, lpComponents); /* ③ */ 
        if (bMustFree) 
            delete [] pstrCanonicalizedURL;
    
        /* convert to MFC-style service ID */
    
        if (!bRetVal) 
            dwServiceType = AFX_INET_SERVICE_UNK; 
        else 
        { 
            nPort = lpComponents->nPort; 
            switch (lpComponents->nScheme) 
            { 
            case INTERNET_SCHEME_FTP: 
                dwServiceType = AFX_INET_SERVICE_FTP; 
                break;
    
            case INTERNET_SCHEME_GOPHER: 
                dwServiceType = AFX_INET_SERVICE_GOPHER; 
                break;
    
            case INTERNET_SCHEME_HTTP: 
                dwServiceType = AFX_INET_SERVICE_HTTP; 
                break;
    
            case INTERNET_SCHEME_HTTPS: 
                dwServiceType = AFX_INET_SERVICE_HTTPS; 
                break;
    
            case INTERNET_SCHEME_FILE: 
                dwServiceType = AFX_INET_SERVICE_FILE; 
                break;
    
            case INTERNET_SCHEME_NEWS: 
                dwServiceType = AFX_INET_SERVICE_NNTP; 
                break;
    
            case INTERNET_SCHEME_MAILTO: 
                dwServiceType = AFX_INET_SERVICE_MAILTO; 
                break;
    
            default: 
                dwServiceType = AFX_INET_SERVICE_UNK; 
            } 
        }
    
        return bRetVal; 
    }

    죄송합니다. 너무 길군요. 이렇게 긴것 같지 않았는데. ^ ^ㆀ

    ①에서 AfxIsValidAddress()를 이용하여 값이 유효한지 확인합니다.

    AfxIsValidAddress()가 마치 URL이 옳바르게 쓰여는지 검사하는것 같은 분위기를 풍기는데 그냥 IsBadReadPtr()만 사용하여 메모리가 유효한지만 검사합니다.

    ②에서 InternetCanonicalizeUrl()를 통하여 URL이 정돈됩니다.

    ③에서 InternetCrackUrl()를 이용하여 실질적인 파싱을하는데 URL_COMPONENTS 라는 구조체를 이용했습니다. 그리고 나서 그냥 끝인데… 그럼 다시 AfxParseURL() 소스로 돌아가서 값이 어떻게 넘겨지는지 봐야겠습니다.

    ④에서 서버명을 그리고 ⑤에서 객체(파일)명의 CString 객체의 버퍼를 지정한것을 알 수 있습니다. 이렇게 분석을 해보니 우리가 이런 역활을 하는 프로그램을 만드는데 필요한것은 결국 InternetCrackUrl()뿐이군요. ^ ^

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다