Es algo así. La CPU lo único que hace es ejecutar instrucciones, y hay una lista de todas las instrucciones que puede ejecutar. De las CPUs actuales, tal y como las conocemos ahora, tienen una lista de instrucciones base, una ISA, que es IA32 (x86 para los amigos), y esto es una lista de posibles instrucciones que la CPU puede ejecutar, y son instrucciones básicas de memoria, aritmética y lógica. Solo con esto se puede hacer cualquier otra cosa en una CPU, pero depende de lo que se quiera hacer puede ser muy lento usar esto. Asi que lo que se hace desde hace muchos años es extender el juego de instrucciones x86 con instrucciones nuevas para casos más concretos. 3DNow, SSE, AVX... Todo esto son extensiones del conjunto de instrucciones original x86, a las instrucciones que ya había se le incorporan instrucciones nuevas. También está el tema de la FPU, que los primeros modelos x86 no tenían, y se estandarizo años más tarde para acelerar las operaciones en este formato (x87).
Lo que sí que es cierto es que las extensiones nuevas suelen ir ligadas a hardware nuevo dentro de la CPU, tu puedes sumar dos matrices de 10 unidades usando 10 operaciones ADD y que le cueste 10 ciclos (o menos, si existe más de 1 ALU en la CPU y se puede operar en paralelo), de forma que usarás las ALUs de la CPU de toda la vida, pero es mucho más rápido si ya tienes una estructura hardware en la CPU que tiene un grupo de 10 ALUs que puede hacer esa operación en un único ciclo, similar a lo que haría una GPU. Ese es el caso más típico. FMA lo que hace es que si quieres hacer una operación de suma, multiplica y acumula, en lugar de utilizar una instrucción de "Primero suma esto, luego multiplícamelo y guardamelo aquí", que serían 3 etapas, se hace todo en una sola etapa con hardware dedicado. Eso sí, el hardware dedicado no implica que necesariamente la CPU tenga hardware nuevo, Intel implementó las AVX en los Sandy Bridge aprovechando ciertas estructuras que ya existían, sin necesidad de añadir tanta lógica hardware como pudiera parecer. No tengo mucha información al respecto, pero es posible que las FMA3, por ejemplo, usen el mismo hardware que un FADD o un FMUL, porque tampoco tiene sentido meter lógica específica para cada instrucción si ya puedes reaprovechar la que tienes.
AMD propuso una conjunto de instrucciones SSE5 y Intel propuso sus AVX. La propuesta de Intel fué la que prevaleció, pero las SSE5 de AMD venían a ser muy parecidas a las AVX de Intel, quitando algunos detalles y alguna instrucción adicional (FMA4, XOP...) que no incoroporaban las AVX de Intel.Iniciado por eXteR
Las SSE2 eran instrucciones vectoriales de 128 bits. Las AVX expandían esto a 256 bits, las AVX-512 la idea es que expandan esto a 512 bits. Cada vez que se duplica el tamaño de palabra de estas instrucciones, en teoría, se puede duplicar el throughput respecto al equivalente con la mitad de tamaño (En teoría, AVX512 = 2xAVX). A medida que pasan los años parece que van teniendo menos importancia en el sector doméstico por que parte de su uso se ha movido a las GPUs, y además cuanto más se mejoran estas instrucciones por esa vía mayor es el riesgo térmico en la CPU, por esos dos motivos (y por el tema del dinero, de ahorrar transistores) creo que Intel está siendo tan conservadora a la hora de instroducir estas instrucciones en el mercado de consumo y hasta ahora se han quedado en el mercado Server/Workstation, con los Xeon y los i9 Socket 2066. En teoría vendrán con Ice Lake, quizás estaban planeadas para Cannon Lake. AMD decidió ahorrar costes también haciendo una implementación incompleta de estas instrucciones en sus Ryzen (y en los Bulldozer), las llevan pero no aportan la mejora que deberían, están por darles soporte y poco más, y serán en los nuevos Ryzen donde ya parece que tendrán la implementación buena. Pero ya hemos visto que el "no tener" estas instrucciones tampoco ha supuesto mucho inconveniente en general, solo en casos más concretos. Yo creo que donde más utilidad tienen, en el mercado de consumo, es en software para edición de video/foto/audio, los juegos también pueden darles utilidad, pero no se si de momento están siendo muy relevantes en ese campo, creo que no.
Fuente: https://software.intel.com/en-us/art...tor-extensions