안녕하세요 진자이입니다 :) 이번 포스팅에서는 자료구조의 기초 내용을 훑고, BFS, DFS에 대한 개념을 정리하고자 합니다. 실습 문제는 따로 올리겠습니다.
자료구조 기초
탐색은 많은 양의 데이터 중에서 원하는 데이터를 찾는 과정이다. 프로그래밍에서는 그래프, 트리 등의 자료구조 안에서 탐색을 하는 문제를 자주 다룬다. 그리고 DFS, BFS를 이해하기에 앞서, 기본 자료구조인 스택과 큐에 대한 이해가 전제되어야 한다.
자료구조란, 데이터를 표현하고 관리하고 처리하기 위한 구조로, 스택과 큐는 자료구조의 기초 개념으로 다음 두 핵심 함수로 구성된다. 물론, 실제로 스택과 큐를 사용할 때는 오버플로와 언더플로를 고민해야 한다.오버플로는 특정한 자료구조가 수용할 수 있는 크기를 가득찬 상태에서 삽입 연산을 수행할 때 발생하는 것이고, 언더플로는 특정한 자료구조에 데이터가 전혀 들어 있지 않은 상태에서 삭제 연산을 수행할 때 발생한다.
- 삽입(Push) : 데이터를 삽입한다
- 삭제(Pop) : 데이터를 삭제한다.
스택은 선입후출 구조 또는 후입선출 구조이다. (First in Last out / Last in First Out) 파이썬에서 스택을 이용할 때에는 별도의 라이브러리를 사용할 필요가 없다. 기본 리스트에서 append()와 pop() 메서드를 이용하면 스택 자료구조와 동일하게 동작한다.
큐는 선입선출(First in First Out) 구조이다.
from collections import deque
# queue 구현을 위해 deque 라이브러리 사용
queue = deque()
queue.append(5)
queue.append(2)
queue.append(3)
queue.append(7)
queue.popleft()
queue.append(1)
queue.append(4)
queue.popleft()
print(queue)
queue.reverse() #출력을 위해 역순으로 바꿈.
print(queue)
queue_list = list(queue)
print(queue_list)
deque는 스택과 큐의 장점을 모두 채택한 것으로, 데이터를 넣고 빼는 속도가 리스트 자료형에 비해 효율적이며 queue 라이브러리를 이용하는 것보다 더 간단하다. 코딩테스트에서는 collections 모듈과 같은 기본 라이브럴 사용을 허용하므로 안심하고 사용해도 된다.
재귀 함수는 자기 자신을 다시 호출하는 함수를 의미한다. 무한대로 재귀 호출을 진행할 수 없으므로, 종료 조건을 꼭 명시해야 한다. 예를 들어, 재귀 함수를 100번 호출하도록 작성한 코드를 보자.
def recursive_function(i):
# 100번째 출력했을 때 종료되도록 종료 조건명시
if i == 100:
return
print(i, '번째 재귀 함수에서', i+1, '번째 재귀 함수를 호출합니다,')
recursive_function(i+1)
print(i, '번째 재귀 함수를 종료합니다.')
recursive_function(1)
컴퓨터 내부에서 재귀 함수의 수행은 스택 자료구조를 활용한다. 따라서, 스택 자료구조를 활용해야 하는 상당수 알고리즘은 재귀 함수를 이용해서 간편하게 구현할 수 있다. DFS가 그 계이다. 재귀 함수를 이용하는 대표적인 예제로는 팩토리얼 문제가 있다. 팩토리얼 함수는 n이 1이하가 되었을 때 함수를 종료하는 재귀 함수의 형태로 구현할 수 있다.
반복적으로 구현한 팩토리얼(n!)
def factorial_iterative(n):
result = 1
# 1부터 n까지 수를 차례대로 곱하기
for i in range(1,n+1):
result = result + i
return result
재귀적으로 구현한 팩토리얼(n!)
def factorial_recursive(n):
if n <= 1: #n이 1 이하인 경우 1을 반환
return 1
return n * factorial_recursive(n-1)
재귀함수는 수학의 점화식(재귀식)을 그대로 소스코드로 옮겼다. 점화식은 특정한 함수를 자신보다 더 작은 변수에 대한 함수와의 관계로 표현한 것을 의미하며, 간결하게 작성할 수 있다.
DFS & BFS 기초
Depth - First Search로, 깊이 우선 탐색이라고 한다. 그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘으로 그래프는 노드(Node)와 간선(Edge)로 이루어지며, 이때 노드를 정점(Vertex)라고도 한다. 그래프 탐색이란, 하나의 노드를 시작으로 다수의 노드를 방문하는 것을 말한다. 간선으로 연결된 두 노드는 인접하다(Adjacent)라고 한다.
0 | 0 | 7 | 5 |
1 | 7 | 0 | 무한 |
2 | 5 | 무한 | 0 |
코딩 테스트에서는 그래프를 두 가지 방식으로 표현할 수 있다.
1) 인접 행렬(Adjacency Matrix) : 2차원 배열로 그래프의 연결 관계를 표현하는 방식
2차원 배열에 각 노드가 연결된 형태를 기록하는 방식으로, 2차원 리스트로 구현한다. 연결되어 있지 않은 노드끼리는 무한(infinity)의 비용이라고 작성한다. 실제 코드에서는 999999999, 987654321 등으로 초기화하는 경우가 많다.
INF = 9999999999 #무한의 비용 선언
grpah = [
[0,7,5],
[7,0,INF],
[5,INF,0]
]
print(graph)
2) 인접 리스트(Adjacency Lsit) : 리스트로 그래프의 연결 관계를 표현하는 방식
인접 리스트는 ‘연결 리스트’라는 자료구조를 이용하는데, 파이썬은 기본 자료형인 리스트 자료형이 append() 메소드를 제공하므로, 단순히 차원 리스트만 이용하면 된다.
#행이 3개인 2차원 리스트로 인접 리스트 표현
graph = [[] for _ in range(3)]
#노드 0에 연결된 노드 정보 저장(노드 거리)
graph[0].append((1,7))
graph[0].append((2,5))
#노드 1에 연결된 노드 정보 저장(노드, 거리)
graph[1].apend((0,7))
graph[2].append((0,5))
print(graph)
인접 행렬 방식은 모든 관계를 저장하므로 노드 개수가 많을수록 메모리가 불필요하게 낭비된다. 인접 리스트 방식은 연결된 데이터를 하나씩 확인해야 해서 특정한 두 노드가 연결되어 있는지에 대한 정보를 얻는 속도가 느리다.
DFS - DEPTH FIRST SEARCH
DFS는 탐색을 위해서 사용되는 깊이 우선 탐색 알고리즘이다. 다시 말해, 특정한 경로로 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가서 노드를 방문한 후, 다시 돌아가 다른 경로로 탐색하는 알고리즘이다. 스택 자료구조를 이용하며 구체적인 동작 과정은 다음과 같다.
- 탐색 시작 노드를 스택에 삽입하고 방문 처리 한다.
- 스택의 최상단 노드에 방문하지 않은 인접 노드가 있으면 그 인접 노드를 스택에 넣고 방문처리를 한다. 방문하지 않은 인접 노드가 없으면 스택에서 최상단 노드를 꺼낸다.
- 2번의 과정을 더 이상 수행할 수 없을 때까지 방문한다.
*방문 처리는 스택에 한 번 삽입되어 처리된 노드가 다시 삽입되지 않게 체크하는 것을 의미한다.또한, 일반적으로 인접한 노드 중에서 방문하지 않은 노드가 여러 개 있으면 번호가 낮은 순서부터 처리한다.
깊이 우선 탐색 알고리즘 DFS는 스택 자료구조에 기초한다는 점에서 구현이 간단한다. 실제로는 스택을 쓰지 않아도 되며 탐색을 수행함에 있어서 데이터의 개수가 N개인 경우 O(N)의 시간이 소요된다는 특징이 있다. DFS는 스택을 이용하는 알고리즘이기 때문에 실제 구현은 재귀 함수를 이용했을 때 매우 간결하게 구현할 수 있다.
def dfs(graph, v, visited):
#현재 노드를 방문 처리
visited[v] = True
print(v, end=' ')
#현재 노드와 연결된 다른 노드를 재귀적으로 방문
for i in graph[v]:
if not visited[i]:
dfs(graph, i, visited)
#각 노드가 연결된 정보를 리스트 자료형으로 표현(2차원 리스트)
graph = [
[],
[2,3,8],
[1,7],
[1,4,5],
[3,5],
[3,4],
[7],
[2,6,8],
[1,7]
]
#각 노드가 방문된 정보를 리스트 자료형으로 표현(1차원 리스트)
visited = [False] * 9
# 정의된 DFS 함수 호출
dfs(graph, 1, visited)
BFS - Breadth FIRST SEARCH
BFS는 너비 우선 탐색이라는 의미를 가지며, 가까운 노드부터 탐색하는 알고리즘이다. (최대한 멀리 있는 노드를 우선으로 탐색하는 DFS와 반대) BFS는 선입선출 방식인 큐 자료구조를 이용하며, 인접한 노드를 반복적으로 큐에 넣도록 알고리즘을 작성하면 된다. 알고리즘 작동 방식은 다음과 같다.
- 탐색 시작 노드를 큐에 삽입하고 방문 처리를 한다.
- 큐에서 노드를 꺼내 해당 노드의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리를 한다.
- 2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.
큐 자료구조에 기초해 구현이 간단하며, 앞서 언급한 대로 deque 라이브러리를 사용하는 것이 좋다. 탐색을 수행함에 있어서 O(N) 시간이 소요되며, DFS보다 실제 수행시간이 조금 더 짧다.
from collections import deque
def bfs(graph, start, visited):
queue = deque([start])
visited[start] = True #현재 노드는 방문 처리
while queue: #큐에 더이상 자료가 없을 때 까지
v = queue.popleft()
print(v,end=' ')
for i in graph[v]: #해당 원소와 연결된 아직 방문하지 않은 원소들을 큐에 삽입
if not visited[i]:
queue.append(i)
visited[i] = True
graph = [
[],
[2,3,8],
[1,7],
[1,4,5],
[3,5],
[3,4],
[7],
[2,6,8],
[1,7]
]
visited = [False]*9
bfs(graph, 1, visited)
DFS와 BFS의 차이
DFS BFS
동작원리 | 스택 | 큐 |
구현방법 | 재귀 함수 | 큐 자료구조 |
만약 1차원 배열이나 2차원 배열과 같이 데이터가 제공된다면 또한, 그래프 형식으로 바꿔서 문제를 풀어보아라. 예를들어, 3*3 형태의 2차원 배열의 게임판이 있고, 각 데이터를 좌표라고 생각해보라. 이때 각 좌표를 상하좌우로만 이동할 수 있다면 된다.
'REVIEW > CODING TEST' 카테고리의 다른 글
구현(implementation) 총 정리 (0) | 2023.06.29 |
---|---|
그리디(Greedy) 개념 정리 (0) | 2023.06.23 |
복잡도(Complexity) 개념 총 정리 (0) | 2023.06.23 |
이코테 시작, 코테 개요 (0) | 2023.06.23 |