viernes, 28 de octubre de 2005

Speech technology, el poder de la voz

200x240px - 6.2 Kbytes

La tecnología de reconocimiento de voz está presente en infinidad de situaciones cotidianas como sistemas telefónicos, control de vuelos, venta de acciones o servicios informativos.

Robots y máquinas que pudieran platicar y actuar a las órdenes de los seres humanos, sin la necesidad de apretar algún botón, fue la utopía que desde hace 40 años impulsó la creación de lo que ahora se conoce como tecnología de reconocimiento de voz (speech technology ).

El ideal de hacer interactuar al hombre con la máquina con el puro uso de la voz aún no se ha logrado en su totalidad. Sin embargo, lo que sí se ha podido conseguir es que en aplicaciones sencillas sea la voz la que mande, sin el uso de teclados o cables.
La aplicación más famosa de esta tecnología se dio a principios del 2000 con los celulares que marcaban números telefónicos con el uso de voz. Pese a sus enormes fallas y la poca popularidad que alcanzaron, esta innovación fue una de las pioneras en llevar al mercado comercial décadas completas de investigación.

Actualmente, la tecnología de reconocimiento de voz está presente en infinidad de situaciones cotidianas: en sistemas telefónicos de atención a clientes, control de vuelos de algunas aerolíneas, servicios informativos de empresas como AOL y Yahoo!, venta de acciones de casas de Bolsa, así como aplicaciones biométricas de seguridad para la apertura de puertas, cajas fuertes o para sustituir el uso de passwords (contraseñas).

Al respecto, un estudio realizado por la University of Exeter en el Reino Unido demostró que estas aplicaciones tienen mayor potencial en las escuelas, más que en el mundo comercial; se usan con frecuencia con alumnos que tienen dificultades para aprender a leer o escribir, con personas discapacitadas y hasta en bibliotecas para acceder a los acervos.

Sin embargo, la oferta en el sector de consumo es cada vez mayor. El ejemplo millonario reside en la industria automotriz, con la apuesta a crear autos "inteligentes" que obedezcan a las órdenes vocales del conductor y habilitados con sistemas de manos libres para uso de celulares, sistemas de navegación (para tráfico), acceso al sistema electrónico del auto (prender y apagar el radio, cerrar y abrir puertas), entre un largo etcétera.

Se espera también que a finales de este año estén disponibles sitios web que puedan ser navegados sólo con las instrucciones de la voz, sobre todo en páginas de compras online para fanatizar la seguridad y confiabilidad de las tarjetas de crédito (el usuario sólo puede confirmar su pedido con su voz, el cual sólo podrá ser autorizado si la voz es reconocida por el sistema).

A la lista se suman más celulares inteligentes, videojuegos controlados por un micrófono (muchos ya posibles en consolas PlayStation 2 y XBox) y hasta electrodomésticos que se activen con la orden vocal del ama de casa: hornos, refrigeradores, lava trastes y en un periodo más futurista: relojes y hasta ropa, capaz de regular su temperatura o textura a petición del usuario.

La prueba de que no falta mucho para que la tecnología activada por voz está por llegar a los anaqueles de los centros comerciales es la jugosa inversión del proyecto CAVE, que desde hace dos años y encabezado por la Unión Europea, perfecciona este tipo de aplicaciones.

Cómo funciona

Prácticamente todo el secreto de esta tecnología se concentra en un software capaz de decodificar la voz humana en palabras, sílabas y fonemas, sin importar el idioma, el acento del usuario, su estado de ánimo o su entonación.

Para hacerse funcionar, estos programas sólo requieren de un micrófono y de una computadora que descifre las órdenes.

A principios de los 90, cuando se empezaron a utilizar, aún predominaban los errores: el usuario debía hablar de forma poco natural, muy lento y acentuando cada sílaba. Sin embargo, en la actualidad, se cree que funcionan con 90 por ciento de aciertos, es decir, que sólo una de cada 15 palabras no son reconocidas, además de que son cada vez más simples de activar, el usuario sólo debe grabar su voz por un periodo inicial de entre cinco y 10 minutos para que el sistema la almacene y reconozca en el futuro.

En promedio, una solución de reconocimiento de voz cuesta entre 30 y 40 centavos de dólar por minuto. Asimismo, se calcula que un puerto de instalación oscila entre 500 y mil 500 dólares, según el fabricante, la complejidad del proyecto y el número de usuarios involucrados.

Ante ello, no es de extrañarse entonces que la oferta de speech technology esté aumentando drásticamente desde los últimos tres años. No obstante, estudios de la University of Central Lancashire señalan que los jugadores grandes como Microsoft e IBM son los que están liderando la oferta (por ser los más innovadores).


Añadir comentario


Debe ser algo magistral que un ordenador reconozca tu voz y que te obedezca jeje...de esto veo venir un mundo de invenciones donde la lengua hablará por sí solaFumador


Holitas Nube, te imaginas yo con mi voz tan linda todo lo que haría con mi PC? Me obedecería ciegamente jiji:]