본문 바로가기

♪ 최신 과학기술 정보

[4차 산업혁명] 인공지능이란 AI란? (음성인식, 이미지인식, 강화학습) - 2

[4차 산업혁명] 인공지능이란 AI란? (음성인식, 이미지인식, 강화학습) - 2



안녕하세요. 치즈호떡입니다. 인공지능에 대하여 좀더 자세히 알아보도록 하겠습니다.


앞서 말씀드린 이론을 바탕으로 하여 인공지능을 구현하게 되는데..


실제로는 어떻게 활용될 수 있을까요??


가장 많이 알려진 활용방법은 이미지/영상 인식 과 음성인식 기술입니다.




이미지/영상 인식과 이해


이미지/영상 인식이란 이미지나 영상을 인공지능이 보면서 물체를 인식하고 상황을 파악할 수 있는 능력을 의미합니다.


앞서 말씀드린 딥러닝 기술을 활용하여 수많은 이미지와 영상을 학습하여 물체를 인식하는 기술입니다.


가장 기초적인 단계는 고양이 알아보기 같은 정도의 수준이지만 지금은 그 수준을 뛰어넘은지 오래입니다.



2017년 ImageNet 경진대회에서는 인공지능은 97.85%의 정확도(인간은 94.90%)를 보여주면서


인간보다 이미지 인식 정확도가 높아지는데 까지 발전하였습니다


이제는 단순한 이미지를 인식하는것이아니라, 사람의 얼굴을 보고 남성/여성을 인식하고 눈 코 입 모양으로 표정을 분석하고 이해합니다.


Attention 방법을 사용하여 이미지 내 질문에 해당되는 부분만 집중할 수 있게되고, 정확한 답을 만들어낸다고 합니다.


 전체적인 이미지를 인식하는 것 뿐만아니라, 이미지 속 원하는 부분에 집중하여 판단할 수 있는 것입니다.





Microsoft사는 "Seeing AI"를 통해 시각장애인용 인공지능을 개발하였습니다.


앞을 볼 수 없는 시각장애인을 위해 주변 환경을 설명해주거나 주변 상대방의 정보를 이미지/영상으로 분석하여 설명해주는 방식입니다.



자윤주행자동차에서의 시각 인공지능


자율주행자동차에서 인공지능 시각지능이 중요해졌습니다. 레이더기술 및 통신기술이 주를 이루고 있는 상황이지만


시각인식 인공지능을 활용한 자율주행 기술 또한 개발되고 있습니다.


이는 기존의 기술들과 융합하여 안정성을 향상 시킬 것으로 예상됩니다. 


많은 스타트업 기업들이 딥러닝 및 센서 기반의 자율주행기술을 개발중하고 있습니다.



Drive.AI 라는 기술은 인간이 운전을 배워가는 과정과 흡사하다고 합니다.


학습초기에는 충돌방지, 차선유지, 방향조정 등을 학습시키고, 여러 도로에서 주행을 연습시키는 과정을 거칩니다.


사람이 도로주행을 통해 운전을 배워가는 것과 같은 방식입니다.




AutoX 기술은 다른 센서없어 카메라의 영상정보만으로 자율주행을 구현하고 있습니다.


6개의 카메라 센서로 들어오는 영상으로만 구현하여 시각 인공지능의 성능을 증명해보이고 있습니다.



이미지/영상의 합성


AI를 활용한 이미지 및 영상 합성도 자유로워진다고 합니다.


그리고 인공지능은 새로운 데이터를 생성하여 세상에 존재하지 않는 사물을 만들 수 있습니다.


 GAN(Generative Adversarial Networks)라는 기술을 활용하는 것인데요.


진짜인지 가짜인지 판별하는 두 인공지능이 경쟁하면서 진짜같은 가상의 이미지를 만들어내고, 인간의 눈으로는


진짜와 가짜를 구분할 수 없을 정도로 정교하다고 합니다. (구글 Ian Goodfellow)


공부하고 있는데 아직은 어렵게 느껴지네요.. 이해가 되면 포스팅 해드리도록 하겠습니다~!



이러한 이미지 가공 기술은 엔터테인먼트 , VR/AR에 활용되거나, 애니메이션 영상을 직접 만들어내고


음성까지 만들어낼 수 있을 것으로예상됩니다.





언어인식기술


정체기를 거치고 딥러닝기반 음성인식기술이 개발되면서 성능이 급격히 향상되게 되고 있습니다.


구글은 데이터 축적을 통하여 word2vec 모델을 구현하였다고 한다. 1000억개의 단어를 구문 단위로 이해하여 벡터공간에 위치시키는 개념입니다.


Word to Vector를 줄인말로 보시면 되겠습니다!


관련성이 높은 단어들은 벡터 내 가까운 위치에 존재하고 상관관계가 자동으로 정의됩니다.


이러한 방식은 확장성이 월등히 높다고 합니다


왜냐하면 기존의 방식은 그룹으로 분류과정이 별도로 필요하였지만.. Vector로 정의하면서 상관관계가 높은 단어들이


자동으로 근처에 모여있게 되어 참조하기 편해진 것입니다.


구글은 2년동안의 딥러닝 기간 후 32개 언어까지 확장하였다고 하네요.. 허허..





인간수준으로 언어/음성을 이해하는 인공지능은 목소리를 생성해내기도 한다고 합니다~


딥마인드가 발표한 Wavenet은 사람의 목소리(4.55점)에 근접한 4.21점을 기록했다고 합니다.


인간의 귀로는 구분이 부락능한 수준이라고 하네요..


바이두는 Deepvoice라는 기술을 통하여 목소리의 특징을 분석하여, 그 특징을 매우 유사하게 음성으로 만들어내고 있습니다.