Este video viral muestra cómo la transcripción de voz en vivo del píxel destruye absolutamente el iPhone (y por qué importa)

Todos sabemos que la tecnología de transcripción de voz de Google es muy, muy, muy buena. No solo es el mejor en la industria, sino que lo hace sin una conexión de datos: los píxeles han estado transcribiendo audio en el dispositivo desde hace algún tiempo, y eso se debe a los algoritmos de transcripción extremadamente impresionantes de Google que utilizan hardware de aprendizaje automático en sus teléfonos inteligentes. Pero la precisión no lo es todo cuando se trata de la transcripción, incluso si la característica más importante también es la velocidad.

Un video publicado por James Cham en Twitter enfrenta a un Pixel 3 contra un iPhone 11 (que tiene un procesador mucho más poderoso, debo agregar), usando ambos para transcribir su voz en tiempo real (el iPhone está usando la transcripción integrada de iOS, no es de Gboard solo para que quede claro). Pero la diferencia se vuelve inmensamente evidente en cuestión de segundos: el Pixel 3 muestra las palabras en el momento en que Cham las dice, mientras que el iPhone tartamudea, se esfuerza por pronunciar las palabras correctamente, luego las corrige y, a menudo, se detiene antes de escupir una gran cantidad de palabras. palabras después de un largo retraso. Al final del video, el iPhone está seis segundos por detrás del Pixel 3 en la transcripción. El iPhone también contiene, según mi cuenta sin incluir el texto del principio que Chamat agregó erróneamente, al menos cinco errores muy significativos en su transcripción que el Pixel no tiene.

ANDROIDPOLICE VÍDEO DEL DÍA

Pero el punto de Cham no se trata de la precisión, incluso si sigue siendo increíblemente importante, se trata de la forma en que hablamos y la velocidad a la que hablamos tiene un gran impacto en las experiencias con las computadoras. Si una computadora puede seguir fácilmente su discurso en tiempo real, es mucho más fácil detectar errores o cambiar de opinión sobre lo que le gustaría decir mientras supervisa su progreso, lo que hace que la experiencia sea una interacción mucho más natural. Es un poco como pedirle a un taquígrafo que tome notas en lugar de escribirlas usted mismo; con el primero, siempre hay que pedir que se vuelvan a leer las cosas, y eso lleva tiempo. Con este último, tienes el control total. En el caso del ejemplo de transcripción de texto anterior, se siente más libre para volver atrás y reestructurar esa oración, o elegir otra palabra en el Pixel, mientras que el iPhone está muy por detrás de eso, mientras espera a que se ponga al día, puede Bueno, pierda el hilo de sus pensamientos (o simplemente continúe por temor a eso). Como dice una respuesta: la velocidad es una característica.

Hay otros casos de uso que la transcripción de voz en tiempo real probablemente habilitará en el futuro, solo que todavía no es tan fácil articularlos. Pero durante mucho tiempo he creído que los niños que crecen en este momento serán los primeros en vivir en un mundo donde hablar con las computadoras es la regla, no la excepción, gracias al rápido aumento de los parlantes inteligentes como Amazon Echo y Google. Hogar. Así como los primeros mouse de computadora y los primeros sistemas operativos con GUI probablemente fueron paradigmas de interacción bastante extraños y aparentemente ineficientes para aquellos que usaron las primeras computadoras personales de la década de 1970 y principios de la de 1980, la interacción de voz ha enfrentado mucho escepticismo a lo largo de los años. Y francamente, se lo merecía: el reconocimiento de voz temprano era legítimamente terrible (por ejemplo, ¡el odiado iDrive de BMW debutó con él en 2001)! Pero creo que está cada vez más claro que la tecnología se está consolidando y que, como resultado, vamos a experimentar un cambio legítimo en la forma en que la mayoría de la gente usa las computadoras.

Desde una perspectiva de accesibilidad, la velocidad también es un tema muy relevante cuando se trata de reconocimiento de voz. Para las personas que interactúan con las computadoras principalmente hablándoles, la capacidad relativa de esa computadora para comprender rápidamente su discurso crea rápidamente una interfaz mucho más natural, una que se siente menos como hacer una serie de consultas a Magic 8-Ball, con la esperanza de que le dé usted lo que quiere, y más como (si no tan bueno, todavía) Star Trek: La próxima generación. Las respuestas más rápidas significan que es más probable que las personas hagan preguntas en primer lugar, y una gran parte de esa ecuación de velocidad está en el tiempo que le toma a una computadora comprender lo que ha dicho.

De todos modos, pensé que este video provocó algunos pensamientos bastante interesantes sobre el control de voz, el habla, las interacciones con las computadoras en general y hacia dónde nos dirigimos. También disfruté de otro ejemplo de Google absolutamente gritando a Apple en todo lo relacionado con la IA.

Fuente: Gorjeo

Video:

Ir arriba