728x90

문제 설명

카카오에 입사한 신입 개발자 네오는 "카카오계정개발팀"에 배치되어, 카카오 서비스에 가입하는 유저들의 아이디를 생성하는 업무를 담당하게 되었습니다. "네오"에게 주어진 첫 업무는 새로 가입하는 유저들이 카카오 아이디 규칙에 맞지 않는 아이디를 입력했을 때, 입력된 아이디와 유사하면서 규칙에 맞는 아이디를 추천해주는 프로그램을 개발하는 것입니다.
다음은 카카오 아이디의 규칙입니다.

아이디의 길이는 3자 이상 15자 이하여야 합니다.
아이디는 알파벳 소문자, 숫자, 빼기(-), 밑줄(_), 마침표(.) 문자만 사용할 수 있습니다.
단, 마침표(.)는 처음과 끝에 사용할 수 없으며 또한 연속으로 사용할 수 없습니다.

"네오"는 다음과 같이 7단계의 순차적인 처리 과정을 통해 신규 유저가 입력한 아이디가 카카오 아이디 규칙에 맞는 지 검사하고 규칙에 맞지 않은 경우 규칙에 맞는 새로운 아이디를 추천해 주려고 합니다.
신규 유저가 입력한 아이디가 new_id 라고 한다면,


1단계 new_id의 모든 대문자를 대응되는 소문자로 치환합니다.

2단계 new_id에서 알파벳 소문자, 숫자, 빼기(-), 밑줄(_), 마침표(.)를 제외한 모든 문자를 제거합니다.

3단계 new_id에서 마침표(.)가 2번 이상 연속된 부분을 하나의 마침표(.)로 치환합니다.

4단계 new_id에서 마침표(.)가 처음이나 끝에 위치한다면 제거합니다.

5단계 new_id가 빈 문자열이라면, new_id에 "a"를 대입합니다.

6단계 new_id의 길이가 16자 이상이면, new_id의 첫 15개의 문자를 제외한 나머지 문자들을 모두 제거합니다.
만약 제거 후 마침표(.)가 new_id의 끝에 위치한다면 끝에 위치한 마침표(.) 문자를 제거합니다.

7단계 new_id의 길이가 2자 이하라면, new_id의 마지막 문자를 new_id의 길이가 3이 될 때까지 반복해서 끝에 붙입니다.


예를 들어, new_id 값이 "...!@BaT#*..y.abcdefghijklm" 라면, 위 7단계를 거치고 나면 new_id는 아래와 같이 변경됩니다.

1단계 대문자 'B'와 'T'가 소문자 'b'와 't'로 바뀌었습니다.

"...!@BaT#..y.abcdefghijklm" → "...!@bat#..y.abcdefghijklm"

2단계 '!', '@', '#', '*' 문자가 제거되었습니다.

"...!@bat#*..y.abcdefghijklm" → "...bat..y.abcdefghijklm"

3단계 '...'와 '..' 가 '.'로 바뀌었습니다.

"...bat..y.abcdefghijklm" → ".bat.y.abcdefghijklm"

4단계 아이디의 처음에 위치한 '.'가 제거되었습니다.

".bat.y.abcdefghijklm" → "bat.y.abcdefghijklm"

5단계 아이디가 빈 문자열이 아니므로 변화가 없습니다.

"bat.y.abcdefghijklm" → "bat.y.abcdefghijklm"

6단계 아이디의 길이가 16자 이상이므로, 처음 15자를 제외한 나머지 문자들이 제거되었습니다.

"bat.y.abcdefghijklm" → "bat.y.abcdefghi"

7단계 아이디의 길이가 2자 이하가 아니므로 변화가 없습니다.

"bat.y.abcdefghi" → "bat.y.abcdefghi"

따라서 신규 유저가 입력한 new_id가 "...!@BaT#*..y.abcdefghijklm"일 때, 네오의 프로그램이 추천하는 새로운 아이디는 "bat.y.abcdefghi" 입니다.


풀이

import re

def solution(new_id):

    # Step 1 : 대문자를 소문자로 치환하기
    new_id = new_id.lower()

    # Step 2 : 알파벳 소문자, 숫자, 빼기(-), 밑줄(_), 마침표(.)를 제외한 모든 문자를 제거
    new_id = re.sub('[^a-z0-9-_.]', "", new_id)

    # Step 3 : 마침표(.)가 2번 이상 연속된 부분을 하나의 마침표(.)로 치환
    new_id = re.sub('\.\.+', ".", new_id)

    # Step 4 : 마침표(.)가 처음이나 끝에 위치한다면 제거
    new_id = re.sub('^(\.)', "", new_id)
    new_id = re.sub('(\.$)', "", new_id)

    # Step 5 : 빈 문자열이라면, new_id에 "a"를 대입
    if new_id == '':
        new_id = 'a'

    # Step 6 :
    # 길이가 16자 이상이면, new_id의 첫 15개의 문자를 제외한 나머지 문자들을 모두 제거,
    # 만약 제거 후 마침표(.)가 new_id의 끝에 위치한다면 끝에 위치한 마침표(.) 문자를 제거합니다.

    if len(new_id) >= 16:
        new_id = new_id[:15]
        new_id = re.sub('(\.$)', "", new_id)

    # Step 7 : 7단계 new_id의 길이가 2자 이하라면, new_id의 마지막 문자를 new_id의 길이가 3이 될 때까지 반복해서 끝으로

    if len(new_id) <= 2:
        while len(new_id) < 3:
            new_id += new_id[len(new_id)-1]

    return new_id

정규식을 사용할줄 아는 것인지 물어보는 문제였다. 물론 나는 쓸줄 몰라서 푸는데 꽤 시간이 걸렸다.

변수

new_id : 입력 받은 문자열


Step 1 : 대문자를 소문자로 치환하기

대문자를 소문자로 치환한다. Python 에서 제공하는 문자열 메서드 lower() 를 사용하여
new_id 에 그 값을 재할당한다.


Step 2 : 알파벳 소문자, 숫자, 빼기(-), 밑줄(_), 마침표(.)를 제외한 모든 문자를 제거

re 라이브러리를 import 하면, re.sub() 메서드를 사용할 수 있다.

re.sub('특정패턴', '패턴과 일치하면 이 문자열로 치환', 문자열 대상)

위와 같이 매개변수가 구성되어있다.

정규식에서 [] 내부의 ^해당하는 패턴이 아니면 이라는 의미를 가지고 있다.

new_id 를 a-z 0-9 - _ . 이 아니면 "" 으로 치환하는 단계였다.


Step 3 : 마침표(.)가 2번 이상 연속된 부분을 하나의 마침표(.)로 치환

마침표가 2번 이상 연속된 부분을 찾는 정규식을 짜는 것이었다.

처음에, 마찬가지로 re.sub() 메서드를 활용했었는데

new_id = re.sub('..+', ".", new_id)

위와 같이 패턴을 넣어줬더니 문자열이 사라졌었다.

. 이라는 자체가 정규식에서 표현하는 값이 있기 때문에 '' 이스케이프 문자를 꼭 붙여줘야한다.


new_id = re.sub('..+), ".", new_id)

위와 같이 수정하면 3단계도 완성이다.

'+' 기호는 + 앞의 패턴이 하나 이상이여야 한다는 의미가 있다.


Step 4 : 마침표(.)가 처음이나 끝에 위치한다면 제거

정규식에서 맨 앞, 맨 뒤에 있는 문자열을 필터링 하는 방법을 물어보는 단계다.

아까 Step 2 에서의 ^ 기호는, 해당하는 패턴이 아니면 이라는 기호였지만

그 상황은 [] 내부에 ^ 기호가 있었기 때문이고 그렇지 않으면

^는 해당하는 문자로 시작하는 것을 의미한다.

주의 해야 할 점은 그룹핑을 해줘야하는 것인데 이게 무슨 말이냐면

new_id = re.sub('^(\.)', "", new_id)
new_id = re.sub('(\.$)', "", new_id)

그룹핑은 위 코드에서 () 를 의미하는 것이다. 즉, . 하나가 한 그룹이 되어서

그 그룹에 해당하는 내용이 있는지를 패턴체크 하는 것이다.

그룹핑을 하지 않으면 '.' 이 포함된 문자열 전체가 치환되어 버리게 된다.

또한 문자열의 맨 앞을 검사하는 ^ 기호는 패턴 문자 앞에,
문자열의 맨 뒤를 검사하는 $ 기호는 패턴 문자 뒤에 위치하면 된다.

Step 5 : 빈 문자열이라면, new_id에 "a"를 대입

# Step 5 : 빈 문자열이라면, new_id에 "a"를 대입
if new_id == '':
    new_id = 'a'

딱히 해설할 부분이 없다.


Step 6 : 길이가 16자 이상이면, new_id의 첫 15개의 문자를 제외한 나머지 문자들을 모두 제거

만약 제거 후 마침표(.)가 new_id의 끝에 위치한다면 끝에 위치한 마침표(.) 문자를 제거


if len(new_id) >= 16:
    new_id = new_id[:15]
    new_id = re.sub('(\.$)', "", new_id)

이번 단계는 문자열 길이가 16 이상인지 판별하고,

그 조건에 맞는다면, 15개의 문자만 남기고 나머지 문자들을 제거해야한다. 이는 문자열 슬라이싱으로 구현하면된다.

그 직후, '.' 가 문자열의 맨 마지막에 있는지 정규식을 적용하여, 제거한다.


Step 7 : 7단계 new_id의 길이가 2자 이하라면, new_id의 마지막 문자를 new_id의 길이가 3이 될 때까지 반복해서 끝으로

if len(new_id) <= 2:
    while len(new_id) < 3:
        new_id += new_id[len(new_id)-1]

조건문으로 문자열 길이를 확인하고, 2자리 이하면

반복문을 순회하며 문자열의 마지막에 해당하는 문자로 채워넣는다.

728x90
복사했습니다!