지난 몇 년 동안 다양한 분야와 목적에 따라 통계 방법의 적용이 증가하는 것을 목격했습니다. 이러한 차이점들은 기존 방법들의 결함을 명확하게 만들었습니다. 그러나 1990년 인터넷이 인기를 끌기 전까지 당시의 통계 방법들에 대한 불만이 상당히 커졌습니다. 왜냐하면 그 방법들이 점점 더 불리해지고 있기 때문입니다. 이는 결국 대량의 정보를 분류하는 데 사용할 수 있는 보다 혁신적인 통계 접근 방식을 찾기 위한 부지런한 탐색을 촉발시켰습니다.
1990년대 초반, 블라디미르 바프닉은 다른 수학자 및 과학자 그룹과 함께 대규모 분류 문제를 처리하는 데 특히 더 효율적인 새로운 통계 접근 방식을 개발했습니다. 이 새로운 접근 방식은 서포트 벡터 머신(SVM)이라고 불렸습니다.
서포트 벡터 머신이란 무엇인가요? 이것은 컴퓨터가 대량의 데이터를 분류할 수 있도록 가르치는 수학적 절차입니다. 결과는 기존의 통계 방법을 사용하는 것에 비해 더 신뢰할 수 있다고 합니다. 서포트 벡터 머신은 라벨링된 학습 데이터 세트로부터 함수를 구축하는 접근 방식입니다.
서포트 벡터 머신이 어떻게 작동하는지 완전히 이해하려면 먼저 몇 가지 기본 요소를 이해하는 것이 필수적입니다. 분류는 일반적으로 특정 데이터 인스턴스로 구성된 학습 및 테스트 데이터와 관련이 있습니다. 훈련 세트의 각 인스턴스는 하나의 “목표 값”(클래스 레이블)과 여러 개의 “속성”(특징)을 포함합니다. 서포트 벡터 머신의 주요 목표는 속성에만 주어진 테스트 세트의 데이터 인스턴스 목표 값을 계산하는 모델을 만드는 것입니다.
서포트 벡터 머신에는 두 가지 주요 기능이 있습니다. 첫 번째는 그것이 분류 함수가 될 수 있다는 것입니다 (출력이 이진수인 경우: 입력이 범주에 속합니다). 한편, 두 번째 기능은 단순히 일반 회귀 함수일 수 있다는 것입니다.
서포트 벡터 머신의 분류 기능과 관련하여, 기본적으로 가능한 입력 공간에서 하이퍼 서피스를 검색함으로써 작동합니다. 그러면 이 하이퍼 표면은 긍정적인 예제와 부정적인 예제를 분리하려고 할 것입니다. 분할은 하이퍼 표면에서 가장 가까운 양수 및 음수 예제까지의 거리가 가장 크도록 선택됩니다. 당연히, 이것은 훈련 데이터와는 약간 다르지만 가까운 데이터를 테스트하기 위한 분류를 정확하게 만들 것입니다. 서포트 벡터 머신을 훈련하는 방법에는 여러 가지가 있으며, 가장 간단하고 빠른 방법은 순차 최소 최적화라고 불립니다.
서포트 벡터 머신의 출력은 불규칙한 값을 가지며, 입력된 클래스의 후속 전망이 아닙니다. 그러나 최근에는 서포트 벡터 머신 출력을 사후 확률로 매핑할 수 있는 알고리즘이 개발되었습니다.
서포트 벡터 머신 분류기는 텍스트를 분류할 때 자주 발생하는 대규모 분류 문제를 해결하기 위해 특별히 설계된 강력한 도구입니다. 예를 들어, 실제로 관련된 큰 문서 그룹에 속하는 문서 중 하나를 보면, 전체 집합에서 발견된 모든 단어를 고려하면 문서에서 발견된 단어 수에 비해 문서에서 누락된 단어가 더 많아질 것입니다. 이것은 희소 데이터 행렬이라고 불리는 분류 문제입니다. 많은 문서와 많은 단어, 희소 데이터 행렬과 같은 분류 문제는 훨씬 더 빠르고 효율적인 결과를 얻을 수 있는 분류 엔진이 필요합니다.
시장의 다른 모든 것들과 마찬가지로, 오늘날 서포트 벡터 머신 분류기도 인터넷에서 구할 수 있습니다. 인터넷에서 빠르게 검색하면 다양한 문제에 적합한 빠르고 효율적인 서포트 벡터 머신 분류기를 구축하는 데 도움이 되는 다양한 시스템과 방법을 제공할 수 있습니다. 특히 인터넷에서 페이지를 분류하는 것과 같은 대규모 데이터 분류 문제뿐만 아니라 희소 행렬과 많은 문서와 관련된 다른 문제들과 관련된 문제들. 대부분의 방법은 구성이 다를 수 있지만, 하나의 공통 요소가 있습니다. 이는 비선형 분류 문제에 선형 분류 기법을 적용하기 위해 “커널 트릭”이라는 기법을 사용한다는 점입니다.
이러한 문제의 최소 제곱 특성을 적용하고, 관례적인 과정에서 정확한 선 검색을 사용한 다음 문제에 적합한 켤레 그래디언트 방법을 사용하는 몇 가지 방법이 있습니다.
그러나 서포트 벡터 머신에는 단점이 없는 것은 아닙니다. 서포트 벡터 머신 분류기의 한 가지 문제는 인터넷에서 발견되는 많은 텍스트 페이지를 분류할 때와 같은 텍스트 집약적인 문제로 인해 일반적으로 데이터를 서포트 벡터 머신으로 처리하는 데 필요한 컴퓨터 메모리가 부족하다는 점입니다.
컴퓨터가 이러한 데이터를 분류하는 방법을 학습하는 능력을 향상시킨 한 가지 해결책은 청킹이라고 합니다. 청킹은 문제를 사용 가능한 컴퓨터 자원 내에서 더 편리한 부분으로 나누는 과정을 의미합니다. 서포트 벡터 머신에서 이러한 문제를 줄이기 위해 사용되는 청킹 분해 기법의 예로는 SMO와 SVM 라이트가 있습니다.
하지만 여기에는 한 가지 단점이 있습니다. 속도 향상은 보통 가장 크고 어려운 텍스트 문제를 포함하는 웹 페이지에 필요한 분류기와 같은 분류기를 설계하는 데 있어 특히 중간 정도에 불과합니다. 속도가 필수적이라는 점을 명심하세요. 따라서 서포트 벡터 머신의 학습 시간을 줄이기 위해서는 기존 분류기 엔진에 상응하는 훨씬 빠르고 정밀한 서포트 벡터 머신 분류기 설계가 필요합니다.
때때로 발생하는 단점에도 불구하고, 서포트 벡터 머신 분류기는 여전히 분류를 위한 모델을 획득하는 서든어택핵 매우 강력한 방법입니다. 그것은 오류와 위험에 대한 낮은 마진을 제공하는 자연스러운 접근 방식으로 모델 구조를 선택하는 메커니즘을 제공합니다. 서포트 벡터 머신 분류기는 오늘날 현대 사회에서 정말 중요한 도구가 되었습니다. 수학자들과 과학자들 모두가 이 새로운 학습 기계를 더욱 발전시킬 새로운 방법을 계속해서 찾고 있는 것이 놀랍지 않나요?